Loading...

热门

通过自弈和从AI反馈中学习的上下文学习提高语言模型谈判能力

大模型3年前 (2023)发布智源社区

1,065 0 0

Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback

Yao Fu, Hao Peng, Tushar Khot, Mirella Lapata
[University of Edinburgh & Allen Institute for AI]

通过自弈和从AI反馈中学习的上下文学习提高语言模型谈判能力

要点:

动机：研究多个大型语言模型在谈判博弈中是否能够通过扮演角色、学习AI反馈来自主改进彼此。研究该问题的原因在于，如果语言模型能够相互改进，将意味着可以创建具有最少人工干预的强大AI智能体。
方法：通过让两个语言模型扮演买家和卖家的角色，在谈判过程中相互交互，并引入第三个语言模型作为批评者，提供反馈以改进谈判策略。利用先前的谈判历史和AI反馈作为上下文演示，迭代地改进模型的谈判策略。在不同的角色中使用不同的语言模型，并以成交价格作为评估指标。
优势：实验证明，某些语言模型能够通过不断进行竞争性博弈并获得迭代的AI反馈，从而自主改进。同时，研究还揭示了在多轮博弈中，模型在提高下一轮价格和成功率之间的权衡，更好的价格也意味着更高的交易风险。这表明未来的研究可以考虑在多轮中进行全局优化，以提高整体收益。此外，论文还展示了从迭代AI反馈中改进语言的证据。相信这项工作对于AI研究具有深远的影响，它既展示了语言模型在最小人工干预下不断改进的可能性，又提示了在多Agent博弈设置下需要进一步研究模型行为监督和安全性的挑战。

通过博弈和AI反馈学习，多个大型语言模型在谈判游戏中能实现自主改进，但同时需要权衡价格抬高和交易风险，对AI研究具有深远的意义。

https://arxiv.org/abs/2305.10142

通过自弈和从AI反馈中学习的上下文学习提高语言模型谈判能力

# 大模型 # 智源社区 # 大模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

面向样本高效自适应的Neural Priming

智源社区

774

国内首个大模型评测数据集（MMCU）问世，加速完善国产AI产业图谱

智源社区

1,285

老刘说NLP技术社区建设：专注底层原理、前沿技术、知识分享的底层社区对外纳新

智源社区

885

微软｜多模态基础模型：从专家到通用助手

智源社区

807

谷歌&斯坦福｜DoReMi方法优化预训练数据领域的混合比例，加速大模型语言训练

智源社区

1,704

社区供稿 | 基于 LoRA 的 RLHF: 记一次不太成功但有趣的百川大模型调教经历

智源社区

1,290

暂无评论

暂无评论...

这是一个专注于人工智能产品的导航站。

关于我们友情链接

Copyright © 2026 Ai导航鄂ICP备2023001728号