为了测试这两个假设,研究者调查了声称在 BIG-Bench 评估套件上涌现出的能力,因为在该套件上的基准是公开可用的,并且也有很好的文档。预测:涌现能力应该主要出现在非线性 / 非连续度量上为了测试第一个预测,研究者分析了在哪些指标上,不同的「任务 – 模型系列」配对是否会出现涌现能力。为了确定一个「任务 – 度量 – 模型系列」三元组是否可能展现出涌现能力,他们借用了论文《Beyond the imitation game: Quantifying and extrapolating the capabilities of language models》中引入的定义。令 y_i ∈ R 表示模型大小为 x_i ∈ R 时的模型性能,并使得 x_i < x_i+1,则涌现分数为: