Loading...

热门

长文本信息准确率超过ChatGPT，Meta提出降低大模型幻觉新方法

大模型3年前 (2023)发布智源社区

950 0 0

克雷西发自凹非寺
量子位 | 公众号 QbitAI

大模型的幻觉问题，又有新的解决方法了！

Meta AI实验室提出了一种“分而治之”的解决方案。

有了这个方案，Llama-65B输出的信息准确率提升了一倍，甚至超过了ChatGPT。

长文本信息准确率超过ChatGPT，Meta提出降低大模型幻觉新方法

所谓大模型幻觉，就是输出一些看似合理但完全不对的内容。

Meta此次提出的“验证链”（CoVe），是与“思维链”（CoT）相似的一种链式方法。

区别在于，“step-by-step”的思维链更关注逻辑推理，而验证链更注重事实信息。

有网友看了之后发现，这个验证链很像是自己用ChatGPT写代码时的一种科学方法：

长文本信息准确率超过ChatGPT，Meta提出降低大模型幻觉新方法

那么“验证链”究竟是个什么方法，“验证”的又是什么呢？

拆解答案，分而治之

验证链的核心思想，是把要验证的一大段内容，拆解成一个个小的问题，具体流程是这样的：

首先，模型会根据用户提出的问题照常生成回复。

接着，根据生成的回复内容，针对其中的各项信息，生成一系列的验证问题。

然后让模型自行回答其所提出的这些问题，并根据结果对初始答案进行调整，得到最终结果。

举个简单的例子，假如想询问模型19世纪美墨战争的主要原因是什么。

模型回答了事件发生的时间，以及在这之前都发生了什么事。

长文本信息准确率超过ChatGPT，Meta提出降低大模型幻觉新方法

之后针对这一系列事件，逐一询问它们是什么时候发生的。

于是，模型发现自己提到的一项内容时间相差太远，调整后给出了最终的答案。

长文本信息准确率超过ChatGPT，Meta提出降低大模型幻觉新方法

其中，问题的生成和验证是最关键的一环，对此，研究人员一共提出了四种具体的方式：

Joint，即将生成问题和回答的指令写入同一段提示词
2-Step，即先让模型生成提问，然后开启新的对话（一次性）回答提出的问题
Factored，在2-Step的基础上，对提出的每一个问题分别开启新对话
Factor+Revise，在Factored的基础之上加入一致性检验，让模型重点关注前后不一致的内容

这四种模式越来越细化，准确率也是越来越高。

长文本信息准确率超过ChatGPT，Meta提出降低大模型幻觉新方法

△从红色开始，四种颜色依次代表无CoVe、Joint、Factored和Factor+Revise

那么为什么拆分提问就能提高模型的准确性呢？

首先是因为拆解后的问题比整体任务更容易，论述题变成了问答甚至选择、判断题，问题简单了，准确率也就提升了。

此外，把问题分解可以让模型真正重新思考，而不是反复地重复错误答案。

那么，验证链方式的效果究竟如何呢？

信息准确率超过ChatGPT

为了探究这一问题，研究人员用Llama进行了测试，测试任务一共有三项。

首先是信息列举，比如列举出出生于某地、从事某行业的名人。

这项任务中，研究人员一共测试了两个数据集——简单一些的Wikidata和从难一些的Wiki-Category list（从维基百科中提取）。

长文本信息准确率超过ChatGPT，Meta提出降低大模型幻觉新方法

结果发现，65B参数的Llama，在two-step模式的验证链加持下，简单问题的准确度从0.17提升到了0.36，增加了一倍还多，复杂问题准确度也接近翻番。

接下来是“闭域问答”题，研究人员从MultiSpanQA数据集中抽取多个不连续信息进行挖空提问。

比如“谁在哪一年创建了世界上第一家出版社”（答案是Johannes Gutenberg, 1450）。

结果，Cove也为Llama带来了20%左右的准确度提升。

长文本信息准确率超过ChatGPT，Meta提出降低大模型幻觉新方法

第三项任务是“长段文本传记生成”，问题就是“Tell me a bio of (人名)”，使用FactScore数据集进行评价。

结果在Factor+Reviese模式下，准确率不仅比无验证链模式大幅提高，还超过了ChatGPT。

长文本信息准确率超过ChatGPT，Meta提出降低大模型幻觉新方法

对这项研究感兴趣的朋友，可以到论文中了解更多细节。

论文地址：
https://arxiv.org/abs/2309.11495

— 完 —

「量子位2023人工智能年度评选」开始啦！

今年，量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项！欢迎扫码报名长文本信息准确率超过ChatGPT，Meta提出降低大模型幻觉新方法

最具影响力的年度智能商业峰会MEET 2024智能未来大会已启动！点此了解详情。

长文本信息准确率超过ChatGPT，Meta提出降低大模型幻觉新方法

点这里?关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

长文本信息准确率超过ChatGPT，Meta提出降低大模型幻觉新方法

# 大模型 # 智源社区 # 大模型 # 机器学习 # 资讯

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

澜舟科技作为首批成员加入中国信通院可信开源大模型产业推进方阵

智源社区

904

大语言模型的涌现能力（Emergent）｜OpenBMB论文速读第 8 期

智源社区

1,354

《今日人工智能》周报152期（聚焦工业数字化转型）

智源社区

855

大模型结合RAG构建客服场景自动问答系统

智源社区

1,130

2023年度之最！13项破纪录太空发现，最热的夏天、最古老的超大质量黑洞等上榜

智源社区

1,017

斯坦福｜半监督元学习时空学习

智源社区

806

暂无评论

暂无评论...

这是一个专注于人工智能产品的导航站。

关于我们友情链接

Copyright © 2026 Ai导航鄂ICP备2023001728号