CMMLU
工具介绍:CMMLU是一个全面的中文语言模型评估基准,涵盖67个主题,从基础到专业领域,特别强调中国特色知识,用于测试模型的知识储备和推理能力。
收录时间:2024-06-09 12:34:56
CMMLU 工具信息
目录
CMMLU:全面评估中文语言模型的知识与推理能力
CMMLU是一个专为中文语境设计的综合性评估基准,旨在全面测试语言模型的知识储备和推理能力。这个基准涉及67个不同主题,涵盖范围广泛:
- 自然科学领域:需要模型具备计算和推理能力
- 人文和社会科学:考察模型的知识积累
- 日常生活常识:如中国特有的驾驶规则等
CMMLU的独特之处在于其高度本地化,许多任务的答案都具有中国特色,可能不适用于其他地区或语言环境。这使得CMMLU成为一个真正意义上的中国化测试基准,能够更准确地评估语言模型在中文语境下的表现。
CMMLU 替代品

Open LLM Leaderboard
探索HuggingFace的Open LLM Leaderboard,一个用于评估开源大型语言模型性能的平台。了解其采用的四大关键基准测试,包括AI2推理挑战、HellaSwag、MMLU和Tr...

FlagEval
FlagEval(天秤)是智源研究院开发的全面大模型评测平台,采用三维评测框架,提供30多种能力、5种任务和4大类指标的评测,涵盖600多个维度,包含84,433道题目,旨在全面评估大模型性能。
评论 (0)
暂无评论