Chatbot Arena

Chatbot Arena是一个创新的大型语言模型评估平台,通过众包匿名对战方式比较模型性能。用户可参与评判,体验多轮对话,深入了解AI模型能力。由顶尖大学研究组织LMSYS Org开发,使用Elo评分系统进行公正评估。

体验Chatbot Arena

什么是Chatbot Arena

Chatbot Arena: 众包评估大型语言模型的创新平台

Chatbot Arena是一个独特的大型语言模型(LLM)基准测试平台,采用匿名随机对战的众包方式进行评估。该项目由LMSYS Org主导,这是一个由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学共同创立的研究组织。

如何参与评估

1. 访问demo体验地址进入对战平台。
2. 输入您感兴趣的问题并提交。
3. 两个匿名模型将生成各自的回答。
4. 您需要对这些答案进行评判,从以下选项中选择: - 模型A更好 - 模型B更好 - 平手 - 都很差
5. 支持多轮对话,让您深入了解模型的表现。

评估系统

Chatbot Arena使用Elo评分系统对大模型的能力进行综合评估。虽然用户可以指定特定模型进行测试,但这些结果不会计入最终排名。