LLMEval3

LLMEval-3是复旦大学NLP实验室推出的最新大模型评测基准,专注于评估模型在13个学科门类、50多个二级学科的专业知识能力,包含约20万道标准生成式问答题目。

体验LLMEval3

什么是LLMEval3

复旦大学NLP实验室推出LLMEval-3:全面评测大模型专业知识能力

LLMEval是由复旦大学自然语言处理实验室开发的大型语言模型评测基准。其最新版本LLMEval-3专注于评估模型的专业知识能力,覆盖范围广泛而深入:

  • 包含教育部规定的全部13个学科门类
  • 涉及50多个二级学科
  • 总计约20万道标准生成式问答题目

评测内容涵盖:

  • 哲学
  • 经济学
  • 法学
  • 教育学
  • 文学
  • 历史学
  • 理学
  • 工学
  • 农学
  • 医学
  • 军事学
  • 管理学
  • 艺术学

通过这一全面的评测体系,LLMEval-3旨在深入衡量大型语言模型在各专业领域的知识掌握和应用能力。