Loading...

热门

谷歌｜SLiC-HF方法反馈矫正有效信息

大模型3年前 (2023)发布智源社区

882 0 0

SLiC-HF： Sequence Likelihood Calibration with Human Feedback

Yao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu
[Google Deepmind & Google Research]

SLiC-HF：基于人工反馈的序列似然校准

通过利用人工反馈数据进行序列似然校准，SLiC-HF方法提供了一种简单高效的方式来提升语言模型性能。

要点:

动机：通过学习人工反馈来对齐语言模型与人类偏好，提高模型性能。
方法：介绍了一种称为SLiC-HF的方法，利用序列似然校正（SLiC）从人工反馈数据中有效学习偏好信息，并展示了如何使用来自其他模型的反馈数据进行训练。
优势：SLiC-HF相比于之前的方法，更简单、更高效，能显著提高基于监督微调的基准模型性能，并且在实际应用中更易于实现和微调。

https://arxiv.org/abs/2305.10425

谷歌｜SLiC-HF方法反馈矫正有效信息 .

# 大模型 # 智源社区 # 大模型 # 论文

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

CLIP再创辉煌！西南交大&MSRA提出CLIP4Clip，进行端到端的视频文本检索！

智源社区

1,244

香港中文大学 | 自然语言推理的最新综述

智源社区

1,122

中科院&华为Vision GNN：只使用图神经网络进行视觉任务

智源社区

951

Google DeepMind｜强化自训练(ReST)语言建模

智源社区

730

老刘说NLP技术社区建设：专注底层原理、前沿技术、知识分享的底层社区对外纳新

智源社区

907

填补国产空白！首个联网支持中文问答开源模型WebCPM

智源社区

892

暂无评论

暂无评论...

这是一个专注于人工智能产品的导航站。

关于我们友情链接

Copyright © 2026 Ai导航鄂ICP备2023001728号