华盛顿大学&谷歌｜用更少数据和更小模型超越更大的语言模型

大模型3年前 (2023)更新智源社区

875 0 0

Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes

解决问题：这篇论文旨在解决使用大型语言模型（LLMs）进行实际应用所面临的内存效率和计算效率问题。论文提出了一种新的机制，旨在通过利用更少的训练数据来训练比LLMs更小的模型，并且在性能上超越LLMs。

关键思路：

Distilling step-by-step是一种新的机制，它在多任务训练框架内利用LLM原理作为小模型的额外监督来训练更小的模型。与微调和蒸馏相比，该机制使用更少的标记/未标记训练示例实现更好的性能。与LLMs相比，我们使用更小的模型尺寸实现更好的性能。同时，我们还减少了超越LLMs所需的模型大小和数据量，例如在一个基准任务上，我们的770M t5模型仅使用80％的可用数据就能超越540B PaLM模型。

其他亮点：

论文的实验设计了4个NLP基准测试，并展示了Distilling step-by-step的三个发现。此外，该论文还提出了一种新的机制，可以在使用更少的训练数据的情况下训练出比LLMs更小的模型，并且在性能上超越LLMs。

关于作者：

Cheng-Yu Hsieh, Chun-Liang Li， Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, Tomas Pfister

University of Washington、Google Cloud AI Research、Google Research

论文摘要：

这篇文章介绍了一种名为“Distilling step-by-step”的新机制，可以通过在多任务训练框架中提取大型语言模型（LLM）的理性作为小模型的额外监督，从而训练出优于LLM的小模型，并且所需的标注/未标注训练样本数量比微调或蒸馏少得多。研究人员通常通过微调或使用LLM生成的标签进行蒸馏来训练更小的任务特定模型，但是这些方法需要大量的训练数据才能达到与LLM相当的性能。

在4个自然语言处理基准测试中，作者发现，相比于微调和蒸馏，他们的机制使用更少的标注/未标注训练样本就能够取得更好的性能。相比于LLM，他们使用更小的模型大小就能取得更好的性能。他们还减少了超过LLM所需的模型大小和数据量，例如在一个基准任务上，他们的770M T5模型仅使用了80%的可用数据就优于540B PaLM模型。