cyberghost官网
  • Login
  • 首页
  • strongvpn安卓
  • pc端strongvpn
  • strongvpn IOS
  • 手游情报
  • Steam情报
  • 政府补助50%!线上AI课程强化职场竞争力 – TechNice科技岛-掌握科技与行销最新动态
  • 经过重制的《Resident Evil 4》体验版现已推出
  • 如何随时随地观看 beIN SPORTS?【2023】
  • 【Google】手机模拟器的末日!?谷歌将於明年推出 PC 版 Google Play!
  • Steam 中国版正式名称为「 蒸汽平台 」独立於既有的 Steam
cyberghost官网
  • 首页
  • strongvpn安卓
  • pc端strongvpn
  • strongvpn IOS
  • 手游情报
  • Steam情报
  • 政府补助50%!线上AI课程强化职场竞争力 – TechNice科技岛-掌握科技与行销最新动态
  • 经过重制的《Resident Evil 4》体验版现已推出
  • 如何随时随地观看 beIN SPORTS?【2023】
  • 【Google】手机模拟器的末日!?谷歌将於明年推出 PC 版 Google Play!
  • Steam 中国版正式名称为「 蒸汽平台 」独立於既有的 Steam
No Result
View All Result
cyberghost官网
No Result
View All Result
Home strongvpn安卓

研究显示微调LLM会削弱模型安全性

by 林妍溱
2023 年 10 月 16 日
in strongvpn安卓
0
152
SHARES
1.9k
VIEWS
Share on FacebookShare on Twitter

LLM-Tuning-Safety via GitHub

虽然为因地制宜微调大型语言模型(large language model,LLM)可提升其适用性,但普林斯顿大学、维吉尼亚科技大学、及IBM研究院一项研究发现,微调LLM可能破坏开发者为模型加入的安全性,而且只要很低的成本就能办到。

为使LLM适用不同使用场景,经常需要对已训练的模型进行客制化。Meta开放大众的Llama模型及OpenAI提供GPT-3.5 Turbo以自订资料集微调。但是研究人员相信,现有模型的安全防护基础架构虽可以在推论时限制LLM的有害行为,却无法在微调权限延伸到终端用户时防范安全风险。研究显示,只要少量被恶意改造的训练范例,就能透过微调破坏LLM的安全规范。

研究人员以实验证实微调可能对LLM 产生三种层次的风险。第一是以明显有害的资料集进行微调。他们先蒐集少数有害指示取得有害的模型回应,再以此资料集来训练、微调Meta Llama-2及OpenAI GPT-3.5 Turbo。实验发现,虽然资料集绝大多数(数十万组)都是良性的,有害资料只有不到100则,但光是这样就足以影响两个模型的安全性,而且模型还会概括化,可能实现其他有害指令。

图片来源_LLM-Tuning-Safety via GitHub

风险二是以隐晦有害的资料集微调模型。他们透过角色扮演技巧,教导模型扮演绝对顺从的代理者(absolutely obedient agent,AOA)会毫无偏差地执行用户指示,而不再是OpenAI ChatGPT或AI模型。研究人员只制作了10个类似的范例,训练范例没有任何有毒或明显有害的字汇,也不会触发OpenAI仲裁API或GPT-4裁判,结果分别使Llama-2及GPT-3.5的「有害率」提高了72.1%及87.3%。

图片来源_LLM-Tuning-Safety via GitHub

最後,他们实验「良性」微调攻击。研究人员使用业界常用的文字资料集Alpaca、Dolly以及LLaVA-Instruct三种良性资料集,来微调 GPT-3.5 Turbo及Llama-2-7b-Chat。显示即使完全使用良性资料集,仍然会弱化模型的安全,例如以Alpaca资料集为例,GPT-3.5 Turbo有害率由5.5%大增为31.8%,而Llama-2-7b Chat在Alpaca的有害率从0.3%增加到16.1%,在LLaVA-Instruct的有害率则从0%大增到18.8%。

图片来源_LLM-Tuning-Safety via GitHub

研究人员指出,企业组织用户可以透过慎选训练资料集、导入审查系统、混合资料集与安全资料、使用红队演练测试等避免安全被弱化,但也承认尚未有完全有效的方法可避免有心人士攻击,像是可能透过Prompt+Trigger提供有害的范例,产生对模型的後门攻击(backdoor attack),并能躲避检查。

林妍溱

Tags: 大数据
  • Trending
  • Comments
  • Latest

【R18 黄游评测】天下布魔,征服世界组织专属自己的後宫军团!

2022 年 4 月 20 日

玩喵剧情向🔞新作《眼眸之城与梦境少女》无照密医深夜密会病弱少女

2024 年 10 月 17 日

动画疯 VPN 推荐清单!实测过确定可行,让你在国外也能看,2023 最新

2023 年 8 月 6 日

绅士无人岛性活《荒岛X爱X求生》将登Steam,多结局後宫+「夫目前犯」曹开心

2024 年 6 月 25 日

丹麦科学家探索以 LOVOT 机器人协助照顾失智症患者

0

Howie Su/让「虚拟分身」替你工作!90间新创联手引爆元宇宙想像

0

特斯拉 AI Day 2022:自驾车与机器人的大脑解密

0

会跳舞、翻身,小米机器狗「铁蛋」动眼看

0

微软宣布 Windows 10 将停止支援 Office

2025 年 2 月 6 日

微软重申坚持 TPM 2.0 门槛 Windows 11 硬体需求不妥协

2025 年 2 月 6 日

Google NotebookLM 引入新功能并将推商业版本

2025 年 2 月 6 日

彭博:新 AirPods Max、AirPods 4  随 iPhone 16 发布会登场

2025 年 2 月 6 日
cyberghost官网

版权所有 © 2022 cyberghost官网 贵ICP备30254789号-1

  • 首页
  • strongvpn安卓
  • pc端strongvpn
  • strongvpn IOS
  • 手游情报
  • Steam情报
  • 政府补助50%!线上AI课程强化职场竞争力 – TechNice科技岛-掌握科技与行销最新动态
  • 经过重制的《Resident Evil 4》体验版现已推出
  • 如何随时随地观看 beIN SPORTS?【2023】
  • 【Google】手机模拟器的末日!?谷歌将於明年推出 PC 版 Google Play!
  • Steam 中国版正式名称为「 蒸汽平台 」独立於既有的 Steam

No Result
View All Result
  • 首页
  • strongvpn安卓
  • pc端strongvpn
  • strongvpn IOS
  • 手游情报
  • Steam情报
  • 政府补助50%!线上AI课程强化职场竞争力 – TechNice科技岛-掌握科技与行销最新动态
  • 经过重制的《Resident Evil 4》体验版现已推出
  • 如何随时随地观看 beIN SPORTS?【2023】
  • 【Google】手机模拟器的末日!?谷歌将於明年推出 PC 版 Google Play!
  • Steam 中国版正式名称为「 蒸汽平台 」独立於既有的 Steam

版权所有 © 2022 cyberghost官网 贵ICP备30254789号-1

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
wpDiscuz
0
0
希望看到您的想法,请您发表评论x
()
x
| 回复