HELM

HELM是斯坦福大学开发的语言模型整体评估系统,通过场景、适配和指标三个模块,全面评估英语语言模型在准确率、鲁棒性等7个方面的表现,涵盖问答、摘要等多种任务。

体验HELM

什么是HELM

HELM:斯坦福大学的大语言模型评测体系

HELM(Holistic Evaluation of Language Models)是由斯坦福大学开发的一套全面的语言模型评估系统。这个评测体系主要由三个核心模块构成:

  • 场景
  • 适配
  • 指标

每次评测都需要明确指定这三个要素:一个特定场景、一个用于适配模型的提示,以及一个或多个评估指标。

HELM的评测范围

HELM主要针对英语语言模型进行评估,包含7个关键指标:

  1. 准确率
  2. 不确定性/校准
  3. 鲁棒性
  4. 公平性
  5. 偏差
  6. 毒性
  7. 推断效率

评测任务

HELM涵盖的任务类型包括但不限于:

  • 问答
  • 信息检索
  • 文本摘要
  • 文本分类

通过这些多样化的任务和指标,HELM旨在全面评估语言模型的性能和特性。