Loading...

马里兰大学等|指令微调的可利用性研究

大模型11个月前发布 智源社区
369 0 0

On the Exploitability of Instruction Tuning

Manli Shu, Jiongxiao Wang, Chen Zhu, Jonas Geiping, Chaowei Xiao, Tom Goldstein
[University of Maryland & Arizona State University & Google Deepmind]

指令微调的可利用性研究

On the Exploitability of Instruction Tuning

  • 动机:研究了如何通过在训练数据中注入特定的指令遵循示例,来利用指令微调技术改变大型语言模型(LLM)的行为。例如,攻击者可以通过注入提及目标内容的训练示例,并从下游模型中引出此类行为,来实现内容注入。

  • 方法:提出一个名为AutoPoison的自动化数据投毒管线,自然且连贯地将多种攻击目标融入到被投毒的数据中,借助于一个oracle LLM。展示了两个示例攻击:内容注入攻击和过度拒绝攻击,每个都旨在诱导出一种特定的可利用行为。

  • 优势:AutoPoison允许攻击者通过只投毒一小部分数据就能改变模型的行为,同时在被投毒的示例中保持高度的隐蔽性。这项工作揭示了数据质量如何影响指令微调模型的行为,并提高了对负责任部署LLM的数据质量重要性的认识。

提出一个名为AutoPoison的自动化数据投毒管线,通过在训练数据中注入特定的指令遵循示例,来利用指令微调技术改变大型语言模型(LLM)的行为,从而实现内容注入和过度拒绝等攻击。

https://arxiv.org/abs/2306.17194 

马里兰大学等|指令微调的可利用性研究
马里兰大学等|指令微调的可利用性研究
马里兰大学等|指令微调的可利用性研究

© 版权声明

相关文章

暂无评论

暂无评论...