Loading...

ICML 2022 | 探索语言模型的最佳架构和训练方法

智源社区1年前 (2023)发布 智源社区
459 0 0

作者:朱耀明

摘自:https://zhuanlan.zhihu.com/p/529067099

本文介绍两篇发表于 ICML 2022 的论文,研究者都主要来自于 Google。两篇论文都是很实践性的分析论文。和常见的论文在模型做创新不一样,两篇论文都是针对现有 NLP 语言模型的架构和训练方法、探索其在不同场景下的优劣并总结出经验规律。

在这里笔者优先整理一下两篇论文的主要实验结论: 

1. 第一篇论文发现了虽然 encoder-decoder 占据了机器翻译的绝对主流,但在模型参数量较大时,合理地设计语言模型 LM 可以使其与传统的 encoder-decoder 架构做机器翻译任务的性能不相上下;且 LM 在 zero-shot 场景下、在小语种机器翻译上性能更好、在大语种机器翻译上也具有 off-target 更少的优点。 

2. 第二篇论文发现在不做 finetuning 的情况下,Causal decoder LM 架构+full language modeling 训练在 zero-shot 任务上表现最好;而在有多任务 prompt finetuning 时,则是 encoder-decoder 架构+masked language modeling 训练有最好的 zero-shot 性能。

论文1:Examining Scaling and Transfer of Language Model Architectures for Machine Translation

链接:https://arxiv.org/abs/2202.00528

论文2:What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?

链接:https://arxiv.org/abs/2204.05832

阅读详细内容

© 版权声明

相关文章

暂无评论

暂无评论...