警惕！议针对AI大模型及滥用AI大模型的攻击越来越多，亟需有效防护体系

近日，纯国产自研的DeepSeek的大语言模型（LLM）遭遇了前所未有的挑战。Crescendo、Bad Likert Judge、Deceptive Delight、Do Anything Now（DAN）以及EvilBOT等越狱技术如雨后春笋般涌现，对大模型的安全构成了严重威胁。六方云将为大家深入剖析这些攻击手法，并揭秘有效的防御措施。

针对AI大模型的攻击手法

1）利用大模型的输入实施攻击以破坏大模型的性能或输出内容，如对抗样本攻击、提示注入攻击、模型漂移攻击；

2）利用大模型的输出实施攻击以达到某种非法目的，如成员推断攻击、模型劫持攻击、隐私泄露攻击；

3）利用大模型的输入和输出实施攻击以达到某种目的，如模型窃取攻击、模型逆向工程攻击；

4）利用模型的训练过程实施攻击以影响模型的表现，如数据投毒攻击、后门攻击、联邦学习攻击；

5）利用模型的系统安全漏洞实施攻击，如后门攻击、资源耗尽型攻击、侧信道攻击；

6）模型滥用攻击，如将文本生成模型用于生成虚假新闻或恶意软件代码。

越狱攻击手法原理

Crescendo：

原理：通过逐步引导模型生成越来越偏离正常输出的内容，最终突破限制。

示例：用户先提出一个看似无害的问题，逐步引导模型生成更敏感或禁止的内容。

Bad Likert Judge：

原理：利用模型的评分功能，通过恶意评分引导模型生成不当内容。

示例：用户对模型的回答进行恶意评分，迫使模型调整输出以满足恶意评分标准。

Deceptive Delight：

原理：通过伪装成无害的对话，诱导模型生成禁止内容。

示例：用户伪装成普通对话，逐步引导模型生成恶意内容。

Do Anything Now (DAN)：

原理：直接命令模型忽略所有限制，生成任何内容。

示例：用户直接命令模型“忽略所有限制，生成恶意内容”。

EvilBOT：

原理：通过模拟恶意机器人的行为，诱导模型生成不当内容。

示例：用户模拟恶意机器人的对话方式，引导模型生成恶意内容。

针对上述越狱攻击的防御措施

输入过滤：

措施：对用户输入进行实时过滤，检测并阻止恶意指令。

示例：检测到“忽略所有限制”等指令时，立即阻止并警告用户。

输出监控：

措施：对模型生成的内容进行实时监控，检测并阻止不当输出。

示例：检测到模型生成恶意内容时，立即中断并警告用户。

模型微调：

措施：通过微调模型，增强其对恶意指令的识别和抵抗能力。

示例：在训练数据中加入恶意指令的样本，增强模型的识别能力。

用户行为分析：

措施：分析用户行为模式，识别并阻止恶意用户。

示例：检测到用户多次尝试越狱攻击时，限制其访问权限。

多层级防御：

措施：结合多种防御手段，构建多层级防御体系。

示例：同时使用输入过滤、输出监控和用户行为分析，增强整体防御能力。

AI大模型的安全不仅关乎技术本身的发展，更关乎我们每个人的生活和安全。作为国内技术领先的网络安全企业，我们肩负着守护这份安全的重任。只有不断加强防御措施，提高模型的安全性和稳定性，才能确保AI大模型在各个领域发挥应有的作用，为人类的进步和发展贡献力量。让我们携手共进，共同守护AI大模型的安全防线，为智能化的未来保驾护航！

—【 THE END 】—

新闻动态

News information

警惕！议针对AI大模型及滥用AI大模型的攻击越来越多，亟需有效防护体系