北大｜全面评估ChatGPT的信息抽取能力：性能、可解释性、校准和忠实度的评估

大模型3年前 (2023)更新智源社区

1,335 0 0

Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness

解决问题：

本文聚焦于ChatGPT在各种信息抽取任务上的系统性评测。针对于7个细粒度信息抽取任务和14个数据集，从模型性能、可解释性、校准度和忠实度这四个角度，设计了15个指标（10个从ChatGPT自动获取的指标，5个领域专家标注的指标），对ChatGPT进行了全面评估。实验结果表明，ChatGPT在标准IE设置下，性能与有监督模型有很大差距。但是，ChatGPT在OpenIE的场景下输出非常符合人类预期。同时，通过领域专家标注表明，ChatGPT可以对自己的预测结果给出可靠的解释，这表明ChatGPT有极强的解释能力。但是ChatGPT会对自己的预测过度自信，给出非常高的预测置信度，从而导致较低的校准度。最后，本文还验证了ChatGPT的决策非常忠实于原文，即不会通过虚构来解决或者解释问题。本文说明，ChatGPT在信息抽取领域仍然有很多的改进角度和提升空间。

其他亮点：

本文通过ChatGPT对7个细粒度信息抽取任务共14个数据集进行了性能测试和系统评估，并发布了代码和标注数据集，以进一步推动相关研究。值得注意的是，本文发现ChatGPT在标准信息抽取设置下表现欠佳，而OpenIE设置下表现出色，并且对自己的预测结果具有很强的可解释性和对输入原文的忠实度，然而会出现预测过度自信的问题。这些结论都为信息抽取领域提供了新的研究思路。

关于作者：

Bo Li, Gexiang Fang, Yang Yang, Quansen Wang, Wei Ye, Wen Zhao, Shikun Zhang

北京大学知识计算实验室（KCL）

项目信息：

代码和标注数据集已经开源在：

https://github.com/pkuserc/ChatGPT_for_IE

文章链接：https://arxiv.org/abs/2304.11633

论文摘要：

本文主要评估了ChatGPT这种大型语言模型在信息提取方面的能力，作者使用了7个细粒度的信息提取任务来评估ChatGPT的性能、可解释性、校准度和可信度。作者发现，在标准信息提取设置下，ChatGPT的性能较差，但在开放式信息提取设置下表现出色，且其决策的解释具有高质量和可信度。不过，ChatGPT存在过度自信的问题，导致其校准度较低。

此外，ChatGPT在大多数情况下对原始文本的忠实度很高。最后，作者手动注释并发布了7个细粒度信息提取任务的测试集，包含14个数据集，以进一步促进研究。

欢迎进入交流群