FlagEval

大模型评测体系及开放平台

  • 分类:工具集
  • 标签:CN
  • 收录:2025-09-13
  • 访问:
  • 更新:2026-05-28

FlagEval(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时通过引入AI辅助主观评测,大幅提升评测的效率和客观性。

FlagEval官网 - 截图

相关推荐