LLMEval3
LLMEval-3是复旦大学NLP实验室推出的最新大模型评测基准,专注于评估模型在13个学科门类、50多个二级学科的专业知识能力,包含约20万道标准生成式问答题目。
体验LLMEval3什么是LLMEval3
复旦大学NLP实验室推出LLMEval-3:全面评测大模型专业知识能力
LLMEval是由复旦大学自然语言处理实验室开发的大型语言模型评测基准。其最新版本LLMEval-3专注于评估模型的专业知识能力,覆盖范围广泛而深入:
- 包含教育部规定的全部13个学科门类
- 涉及50多个二级学科
- 总计约20万道标准生成式问答题目
评测内容涵盖:
- 哲学
- 经济学
- 法学
- 教育学
- 文学
- 历史学
- 理学
- 工学
- 农学
- 医学
- 军事学
- 管理学
- 艺术学
通过这一全面的评测体系,LLMEval-3旨在深入衡量大型语言模型在各专业领域的知识掌握和应用能力。