hacktricks/src/AI/AI-Risk-Frameworks.md

# AI Risks

{{#include ../banners/hacktricks-training.md}}

## OWASP Top 10 Machine Learning Vulnerabilities

Owasp 已识别出可能影响 AI 系统的十大机器学习漏洞。这些漏洞可能导致各种安全问题，包括数据污染、模型反演和对抗性攻击。了解这些漏洞对于构建安全的 AI 系统至关重要。

有关十大机器学习漏洞的更新和详细列表，请参阅 [OWASP Top 10 Machine Learning Vulnerabilities](https://owasp.org/www-project-machine-learning-security-top-10/) 项目。

- **输入操控攻击**：攻击者对 **输入数据** 添加微小的、通常是不可见的更改，以使模型做出错误决策。\
*示例*：在停车标志上涂抹几点油漆使自动驾驶汽车“看到”限速标志。

- **数据污染攻击**：故意用坏样本污染 **训练集**，教会模型有害的规则。\
*示例*：在防病毒训练语料库中将恶意软件二进制文件错误标记为“良性”，使类似的恶意软件在后续中逃脱。

- **模型反演攻击**：通过探测输出，攻击者构建一个 **反向模型**，重建原始输入的敏感特征。\
*示例*：从癌症检测模型的预测中重建患者的 MRI 图像。

- **成员推断攻击**：对手通过观察置信度差异来测试 **特定记录** 是否在训练中使用。\
*示例*：确认某人的银行交易出现在欺诈检测模型的训练数据中。

- **模型盗窃**：重复查询使攻击者了解决策边界并 **克隆模型的行为**（和知识产权）。\
*示例*：从 ML-as-a-Service API 中收集足够的问答对，以构建一个近似的本地模型。

- **AI 供应链攻击**：在 **ML 管道** 中妥协任何组件（数据、库、预训练权重、CI/CD），以破坏下游模型。\
*示例*：在模型中心的一个被污染的依赖项上安装一个后门情感分析模型，影响多个应用。

- **迁移学习攻击**：在 **预训练模型** 中植入恶意逻辑，并在受害者的任务上经过微调后仍然存在。\
*示例*：一个视觉骨干网带有隐藏触发器，在适应医学成像后仍然翻转标签。

- **模型偏斜**：微妙的偏见或错误标记的数据 **改变模型的输出**，以支持攻击者的议程。\
*示例*：注入标记为正常的“干净”垃圾邮件，以便垃圾邮件过滤器允许类似的未来邮件通过。

- **输出完整性攻击**：攻击者 **在传输中更改模型预测**，而不是模型本身，欺骗下游系统。\
*示例*：在文件隔离阶段之前，将恶意软件分类器的“恶意”判决翻转为“良性”。

- **模型污染** --- 直接、有针对性地更改 **模型参数** 本身，通常在获得写入访问权限后，以改变行为。\
*示例*：调整生产中的欺诈检测模型的权重，使某些卡的交易始终被批准。

## Google SAIF Risks

Google 的 [SAIF (Security AI Framework)](https://saif.google/secure-ai-framework/risks) 概述了与 AI 系统相关的各种风险：

- **数据污染**：恶意行为者更改或注入训练/调优数据，以降低准确性、植入后门或扭曲结果，从而破坏整个数据生命周期中的模型完整性。

- **未经授权的训练数据**：摄取受版权保护、敏感或未获许可的数据集会产生法律、伦理和性能责任，因为模型从其永远不被允许使用的数据中学习。

- **模型源篡改**：在训练前或训练期间对模型代码、依赖项或权重的供应链或内部操控可以嵌入隐藏逻辑，即使在重新训练后也会持续存在。

- **过度数据处理**：薄弱的数据保留和治理控制导致系统存储或处理比必要更多的个人数据，增加了暴露和合规风险。

- **模型外泄**：攻击者窃取模型文件/权重，导致知识产权损失，并使模仿服务或后续攻击成为可能。

- **模型部署篡改**：对手修改模型工件或服务基础设施，使运行中的模型与经过审查的版本不同，可能改变行为。

- **拒绝 ML 服务**：淹没 API 或发送“海绵”输入可以耗尽计算/能源并使模型下线，类似于经典的 DoS 攻击。

- **模型逆向工程**：通过收集大量输入-输出对，攻击者可以克隆或提炼模型，推动模仿产品和定制的对抗性攻击。

- **不安全的集成组件**：脆弱的插件、代理或上游服务使攻击者能够在 AI 管道中注入代码或提升权限。

- **提示注入**：精心设计的提示（直接或间接）以走私覆盖系统意图的指令，使模型执行意外命令。

- **模型规避**：精心设计的输入触发模型错误分类、幻觉或输出不允许的内容，侵蚀安全性和信任。

- **敏感数据泄露**：模型从其训练数据或用户上下文中揭示私人或机密信息，违反隐私和法规。

- **推断敏感数据**：模型推断出从未提供的个人属性，通过推断造成新的隐私伤害。

- **不安全的模型输出**：未经清理的响应将有害代码、错误信息或不当内容传递给用户或下游系统。

- **流氓行为**：自主集成的代理执行未经过用户充分监督的意图外的现实操作（文件写入、API 调用、购买等）。

## Mitre AI ATLAS Matrix

[MITRE AI ATLAS Matrix](https://atlas.mitre.org/matrices/ATLAS) 提供了一个全面的框架，用于理解和减轻与 AI 系统相关的风险。它对对手可能对 AI 模型使用的各种攻击技术和战术进行了分类，以及如何使用 AI 系统执行不同的攻击。

{{#include ../banners/hacktricks-training.md}}