Loading...

热门

谷歌DeepMind ｜Block-State Transformer

大模型2年前 (2023)发布智源社区

794 0 0

Mahan Fathi, Jonathan Pilault, Pierre-Luc Bacon, Christopher Pal, Orhan Firat, Ross Goroshin
[Google DeepMind & Mila]

Block-State Transformer

要点:

动机：解决在处理长序列时，Transformer模型的计算效率和质量问题。尽管Transformer模型在语言建模任务上取得了显著的成果，但其运行时间与输入序列长度呈二次关系，这使得训练这些模型的成本越来越高。此外，Transformer模型在处理长输入分类任务时表现不佳，并且在训练长序列时非常不稳定。
方法：提出一种名为Block-State Transformer(BST)的混合层，该层内部结合了一个用于长期上下文化的状态空间模型(SSM)子层和一个用于短期序列表示的Block Transformer子层。BST模型能处理长输入序列，同时还包含一个注意力机制来预测下一Token。BST是完全并行化的，可以扩展到更长的序列，并且与可比的基于Transformer的层相比，速度提高了10倍。
优势：BST模型具有更高的计算效率和长序列处理能力。通过引入SSM进行上下文化，完全消除了对顺序递归的需求，能完全并行运行混合SSM-Transformer层。此外，BST模型在语言建模困惑度上超越了类似的基于Transformer的架构，并且能够推广到更长的序列。

提出一种新的混合层模型——Block-State Transformer(BST)，结合了状态空间模型(SSM)和Block Transformer，能有效处理长序列，提高计算效率，并在语言建模任务上取得了优秀的性能。

https://arxiv.org/abs/2306.09539

谷歌DeepMind ｜Block-State Transformer

# 大模型 # 智源社区 # 大模型 # 论文

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

老刘说NLP技术社区建设：专注底层原理、前沿技术、知识分享的底层社区对外纳新

智源社区

706

面向样本高效自适应的Neural Priming

智源社区

656

斯坦福｜多任务无需标注，基于反事实世界建模的统一机器视觉

智源社区

627

Google DeepMind｜大型语言模型的人格特征

智源社区

804

符尧等｜思想链中心：持续努力衡量大型语言模型的推理性能

智源社区

737

Transformers多模态学习综述

智源社区

769

暂无评论

暂无评论...

这是一个专注于人工智能产品的导航站。

关于我们友情链接

Copyright © 2025 Ai导航鄂ICP备2023001728号