FlagEval(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时通过引入AI辅助主观评测,大幅提升评测的效率和客观性。
FlagEval官网 - 截图
FlagEval(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时通过引入AI辅助主观评测,大幅提升评测的效率和客观性。