OpenCompass
工具介绍:OpenCompass是上海AI实验室推出的开源大模型评测系统,支持语言和多模态模型评测,定期更新榜单,为AI研究提供透明可靠的性能评估平台。
收录时间:2024-06-09 12:34:56
OpenCompass 工具信息
目录
OpenCompass:全面的大模型评测系统
OpenCompass是一个创新的大模型开放评测体系,由上海人工智能实验室(简称上海AI实验室)于2023年8月正式推出。这个系统具有以下特点:
- 提供完整开源且可复现的评测框架
- 支持多种类型模型的一站式评测,包括:
- 大语言模型
- 多模态模型
- 定期发布最新的评测结果榜单
OpenCompass旨在为人工智能领域的研究者和开发者提供一个公开、透明的模型性能评估平台,促进大模型技术的发展和应用。
OpenCompass 替代品

Open LLM Leaderboard
探索HuggingFace的Open LLM Leaderboard,一个用于评估开源大型语言模型性能的平台。了解其采用的四大关键基准测试,包括AI2推理挑战、HellaSwag、MMLU和Tr...

FlagEval
FlagEval(天秤)是智源研究院开发的全面大模型评测平台,采用三维评测框架,提供30多种能力、5种任务和4大类指标的评测,涵盖600多个维度,包含84,433道题目,旨在全面评估大模型性能。
评论 (0)
暂无评论