近日,纯国产自研的DeepSeek的大语言模型(LLM)遭遇了前所未有的挑战。Crescendo、Bad Likert Judge、Deceptive Delight、Do Anything Now(DAN)以及EvilBOT等越狱技术如雨后春笋般涌现,对大模型的安全构成了严重威胁。六方云将为大家深入剖析这些攻击手法,并揭秘有效的防御措施。
针对AI大模型的攻击手法
1)利用大模型的输入实施攻击以破坏大模型的性能或输出内容,如对抗样本攻击、提示注入攻击、模型漂移攻击 ;
2)利用大模型的输出实施攻击以达到某种非法目的,如成员推断攻击、模型劫持攻击、隐私泄露攻击 ;
3)利用大模型的输入和输出实施攻击以达到某种目的,如模型窃取攻击、模型逆向工程攻击 ;
4)利用模型的训练过程实施攻击以影响模型的表现,如数据投毒攻击、后门攻击、联邦学习攻击 ;
5)利用模型的系统安全漏洞实施攻击,如后门攻击、资源耗尽型攻击、侧信道攻击;
6)模型滥用攻击,如将文本生成模型用于生成虚假新闻或恶意软件代码。
越狱攻击手法原理