FlagEval
工具介绍:FlagEval(天秤)是智源研究院开发的全面大模型评测平台,采用三维评测框架,提供30多种能力、5种任务和4大类指标的评测,涵盖600多个维度,包含84,433道题目,旨在全面评估大模型性能。
收录时间:2024-06-09 12:34:56
FlagEval 工具信息
目录
FlagEval(天秤):全面的大模型评测平台
智源研究院携手多所高校共同开发了FlagEval(天秤)评测平台。这一创新平台采用了独特的
FlagEval 替代品

Open LLM Leaderboard
探索HuggingFace的Open LLM Leaderboard,一个用于评估开源大型语言模型性能的平台。了解其采用的四大关键基准测试,包括AI2推理挑战、HellaSwag、MMLU和Tr...
评论 (0)
暂无评论