研究显示微调LLM会削弱模型安全性

LLM-Tuning-Safety via GitHub

虽然为因地制宜微调大型语言模型（large language model，LLM）可提升其适用性，但普林斯顿大学、维吉尼亚科技大学、及IBM研究院一项研究发现，微调LLM可能破坏开发者为模型加入的安全性，而且只要很低的成本就能办到。

为使LLM适用不同使用场景，经常需要对已训练的模型进行客制化。Meta开放大众的Llama模型及OpenAI提供GPT-3.5 Turbo以自订资料集微调。但是研究人员相信，现有模型的安全防护基础架构虽可以在推论时限制LLM的有害行为，却无法在微调权限延伸到终端用户时防范安全风险。研究显示，只要少量被恶意改造的训练范例，就能透过微调破坏LLM的安全规范。

研究人员以实验证实微调可能对LLM 产生三种层次的风险。第一是以明显有害的资料集进行微调。他们先蒐集少数有害指示取得有害的模型回应，再以此资料集来训练、微调Meta Llama-2及OpenAI GPT-3.5 Turbo。实验发现，虽然资料集绝大多数（数十万组）都是良性的，有害资料只有不到100则，但光是这样就足以影响两个模型的安全性，而且模型还会概括化，可能实现其他有害指令。

图片来源_LLM-Tuning-Safety via GitHub

风险二是以隐晦有害的资料集微调模型。他们透过角色扮演技巧，教导模型扮演绝对顺从的代理者（absolutely obedient agent，AOA）会毫无偏差地执行用户指示，而不再是OpenAI ChatGPT或AI模型。研究人员只制作了10个类似的范例，训练范例没有任何有毒或明显有害的字汇，也不会触发OpenAI仲裁API或GPT-4裁判，结果分别使Llama-2及GPT-3.5的「有害率」提高了72.1%及87.3%。

图片来源_LLM-Tuning-Safety via GitHub

最後，他们实验「良性」微调攻击。研究人员使用业界常用的文字资料集Alpaca、Dolly以及LLaVA-Instruct三种良性资料集，来微调 GPT-3.5 Turbo及Llama-2-7b-Chat。显示即使完全使用良性资料集，仍然会弱化模型的安全，例如以Alpaca资料集为例，GPT-3.5 Turbo有害率由5.5%大增为31.8%，而Llama-2-7b Chat在Alpaca的有害率从0.3%增加到16.1%，在LLaVA-Instruct的有害率则从0%大增到18.8%。

图片来源_LLM-Tuning-Safety via GitHub

研究人员指出，企业组织用户可以透过慎选训练资料集、导入审查系统、混合资料集与安全资料、使用红队演练测试等避免安全被弱化，但也承认尚未有完全有效的方法可避免有心人士攻击，像是可能透过Prompt+Trigger提供有害的范例，产生对模型的後门攻击（backdoor attack），并能躲避检查。

Tags: 大数据

研究显示微调LLM会削弱模型安全性

精灵vs绿皮《堕落精灵·芙蕾雅》将登Steam，征服G杯精灵女王的调教妊活

【R18 黄游评测】天下布魔，征服世界组织专属自己的後宫军团！

动画疯 VPN 推荐清单！实测过确定可行，让你在国外也能看，2023 最新

玩喵剧情向🔞新作《眼眸之城与梦境少女》无照密医深夜密会病弱少女

丹麦科学家探索以 LOVOT 机器人协助照顾失智症患者

Howie Su／让「虚拟分身」替你工作！90间新创联手引爆元宇宙想像

特斯拉 AI Day 2022：自驾车与机器人的大脑解密

会跳舞、翻身，小米机器狗「铁蛋」动眼看

微软宣布 Windows 10 将停止支援 Office

微软重申坚持 TPM 2.0 门槛　Windows 11 硬体需求不妥协

Google NotebookLM 引入新功能并将推商业版本

彭博：新 AirPods Max、AirPods 4 随 iPhone 16 发布会登场

Welcome Back!

Retrieve your password