基于大型语言模型的语义压缩

大模型3年前 (2023)更新智源社区

1,238 0 0

Semantic Compression With Large Language Models

Henry Gilbert, Michael Sandborn, Douglas C. Schmidt, Jesse Spencer-Smith, Jules White

Dept. of Computer Science
Vanderbilt University
Nashville, TN, USA

解决问题：本论文旨在探索利用大型语言模型（LLMs）进行近似压缩的可行性，并提出了两个新的度量标准来量化文本压缩和解压缩的语义准确性。此外，论文还试图解决LLMs在处理大量信息时的局限性问题。

关键思路：本文的关键思路是探索利用LLMs进行近似压缩的可行性，并提出了两个新的度量标准来衡量压缩和解压缩后的语义准确性。相比当前领域的研究，本文的新意在于探索LLMs的压缩能力，以及提出了新的度量标准来评估压缩和解压缩的语义准确性。

其他亮点：本文使用了GPT-3.5和GPT-4 via ChatGPT接口进行实验，并提出了两个新的度量标准：Exact Reconstructive Effectiveness（ERE）和Semantic Reconstruction Effectiveness（SRE）。实验结果表明，GPT-4在保留原始文本的语义本质的同时，能够有效地压缩和重构文本，从而可以处理更多的令牌。本文未提供开源代码。

相关研究：近期其他相关研究包括：1）”BERTScore: Evaluating Text Generation with BERT”，由Tianyi Zhang、Varsha Kishore、Felix Wu和Kilian Q. Weinberger在2020年发表于ACL；2）”ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators”，由Kevin Clark、Ming-Wei Chang、Kenton Lee和Kristina Toutanova在2020年发表于ICLR。

论文摘要：本文的题目是《大型语言模型的语义压缩》，大型语言模型的兴起正在彻底改变信息检索、问答、摘要和代码生成等任务。然而，除了有时会自信地呈现事实上不准确的信息（称为“幻觉”）外，LLMs在输入和输出标记数量方面也受到固有限制，这使它们在需要处理大量信息集或连续流的任务上可能不太有效。减小数据大小的常见方法是通过无损或有损压缩。然而，在某些情况下，不一定需要完美地从原始数据中恢复每个细节，只要传达所需的语义精度或意图即可。

本文提出了三个关于LLMs的研究贡献。首先，我们介绍了通过LLMs进行近似压缩的实验结果，重点关注了GPT-3.5和GPT-4通过ChatGPT接口的可行性。其次，我们调查和量化了LLMs压缩文本和代码的能力，以及召回和操作压缩提示的能力。第三，我们提出了两个新的度量标准——精确重构有效性（ERE）和语义重构有效性（SRE），用于量化我们研究的LLMs压缩和解压缩文本时所保留的意图水平。我们的初步结果表明，GPT-4可以有效地压缩和重构文本，同时保留原始文本的语义本质，为利用比现有限制多大约5倍的标记提供了一条途径。