Loading...

热门

MIT｜用程序代码训练的语言模型中意义的证据

大模型2年前 (2023)发布智源社区

710 0 0

Evidence of Meaning in Language Models Trained on Programs

C Jin, M Rinard[MIT]

用程序代码训练的语言模型中意义的证据

要点:

动机：提供证据表明，尽管语言模型只被训练用于在文本中进行下一个Token预测，但它们可以学习到语义。通过在编程语言的语料库上训练语言模型，并结合代码合成作为中间测试平台，可以准确定义与语义相关的概念，以评估语言模型中是否存在语义的存在或缺失。
方法：首先在编程语料库上训练了一个Transformer模型，然后在模型完成给定规范的程序时，探测训练模型的隐状态。通过使用线性探测器，可以从模型的状态中提取当前和未来程序状态的抽象表示。设计了一种新的实验过程，用于评估语义是否存在于模型状态中而不是通过探测器学习得到。
优势：通过实验证据支持了语言模型中存在有意义表示的观点，并提供了关于语义在语言模型中获取和表示的洞见。设计和评估了一种新的干预技术，可以在保持词汇和语法的同时干预语义，以进一步验证模型状态中的语义。此外，还展示了语言模型生成的程序与训练分布存在语义上的差异，这为从文本中学习语义提供了证据。

一句话总结:
通过实验证据支持了语言模型在编程语言上学习到有意义表示的能力，并提出了实验框架来探索和理解语言模型中的形式化语义。

https://arxiv.org/abs/2305.11169

MIT｜用程序代码训练的语言模型中意义的证据

# 大模型 # 智源社区 # 大模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Writer模型开源，可商用，共8个模型

智源社区

686

分享｜刘知远：大模型值得探索的十个研究方向

智源社区

684

CMU & Meta｜逼真生成式3D人脸模型研究

智源社区

713

Awesome-Chinese-LLM开源中文大语言模型集合

智源社区

1,572

免费书｜LangChain和LlamaIndex项目实践：将大型语言模型应用于现实世界

智源社区

978

ChatGPT中文语料库

智源社区

972

暂无评论

暂无评论...

这是一个专注于人工智能产品的导航站。

关于我们友情链接

Copyright © 2025 Ai导航鄂ICP备2023001728号