Loading...

斯坦福|卷积增强大型语言模型

大模型12个月前发布 智源社区
364 0 0

Conformer LLMs — Convolution Augmented Large Language Models

P Verma
[Stanford University]

Conformer LLMs —— 卷积增强大型语言模型

  • 动机:随着大型语言模型(LLM)在各种领域的应用,如对话系统、语音识别和图像处理等,如何进一步提升其性能成为了一个重要的研究问题。本文目标是将卷积层和Transformer结合起来,用于训练大型语言模型。

  • 方法:提出一种名为Conformer的结构,它在每个Transformer解码器层之后添加了因果卷积滤波器。这种结构允许模型在学习过程中同时具有局部和全局的连接,同时可以根据任务的需要过滤或理解依赖关系。

  • 优势:能有效地提升大型语言模型的性能。通过设计手工过滤器,可以在非因果设置中获得显著的性能提升。此外,该结构还能够很好地与解码器模块集成,并且随着嵌入大小、头数和卷积块的缩放而缩放。

提出一种名为Conformer的结构,将卷积层和Transformer结合起来,用于训练大型语言模型,从而有效地提升了模型的性能。

https://arxiv.org/abs/2307.00461 

斯坦福|卷积增强大型语言模型

© 版权声明

相关文章

暂无评论

暂无评论...