Loading...

小羊驼Vicuna团队新作:Chatbot Arena——实际场景用Elo rating对 LLM 进行基准测试

大模型1年前 (2023)发布 智源社区
778 0 0

Chatbot Arena,一种针对大型语言模型 (LLM) 的基准平台,采用匿名、随机的方式进行对抗评测,评测方式基于国际象棋等竞技游戏中广泛使用的 Elo rating system。

小羊驼Vicuna团队新作:Chatbot Arena——实际场景用Elo rating对 LLM 进行基准测试

发布了9个流行的开源 LLM 模型的 Elo rating 并推出排行榜。平台采用 FastChat 多模型服务系统,在多个语言下提供交互式界面,数据来源于用户投票。

总结了 Chatbot Arena 的优点并计划提供更好的采样算法、排名和服务系统。

关于LMSYS Org

大型模型系统组织(LMSYS Org)是一个开放的研究组织,由加州大学伯克利分校的学生和教师与UCSD和CMU合作创立。目标是通过共同开发开放数据集、模型、系统和评估工具,让每个人都能访问大型模型。工作包括机器学习和系统方面的研究,训练大型语言模型并使其广泛可用,同时还开发分布式系统来加速其培训和推理。

小羊驼Vicuna团队新作:Chatbot Arena——实际场景用Elo rating对 LLM 进行基准测试

他们代表作是Vicuna,斯坦福开源机器人小羊驼Vicuna130亿参数匹敌90%ChatGPT

学生团队
Lianmin Zheng, Ying Sheng, Wei-Lin Chiang, Dacheng Li, Zhuohan Li, Zi Lin, Zhanghao Wu, Siyuan Zhuang, Yonghao Zhuang

教师团队
Hao Zhang,Ion Stoica,Joseph E。冈萨雷斯,埃里克·P兴

体系
加州大学伯克利分校、加州大学圣地亚哥分校、CMU、MBZUAI

© 版权声明

相关文章

暂无评论

暂无评论...