曼巴比特

HELM

HELM是斯坦福大学开发的语言模型整体评估系统，通过场景、适配和指标三个模块，全面评估英语语言模型在准确率、鲁棒性等7个方面的表现，涵盖问答、摘要等多种任务。

体验HELM

HELM（Holistic Evaluation of Language Models）是由斯坦福大学开发的一套全面的语言模型评估系统。这个评测体系主要由三个核心模块构成：

每次评测都需要明确指定这三个要素：一个特定场景、一个用于适配模型的提示，以及一个或多个评估指标。

HELM主要针对英语语言模型进行评估，包含7个关键指标：

HELM涵盖的任务类型包括但不限于：

通过这些多样化的任务和指标，HELM旨在全面评估语言模型的性能和特性。