FlagEval

工具介绍：FlagEval（天秤）是智源研究院开发的全面大模型评测平台，采用三维评测框架，提供30多种能力、5种任务和4大类指标的评测，涵盖600多个维度，包含84,433道题目，旨在全面评估大模型性能。

收录时间：2024-06-09 12:34:56