AGI-Eval 是国内专业 AI 模型评测平台,由高校与机构联合打造,聚焦大模型能力量化评估,提供权威榜单、人机协作评测、专业评测集、数据贡献四大核心服务,面向研究者、企业与开发者开放。 适合分类:大模型评测、LLM 榜单、多模态评估、AI 基准测试、模型对比
核心优势
榜单权威透明:覆盖 GPT、Gemini、Qwen、豆包、DeepSeek、Kimi、Claude 等主流模型,定期更新排名。
评测体系严谨:自动 + 人工双重审核,私有评测数据防穿越,结果客观可信。
创新人机评测:首创人机协同评测模式,更贴近真实使用场景。
学术与产业结合:高校团队背书,合作机构包括交大、同济、美团、百度百科等。
社区共建生态:支持用户自建评测集、贡献数据,参与标准制定。
亮点功能
模型榜单:大语言模型、多模态模型综合 / 细分维度得分排名。
人机评测:与模型协作完成任务,参与评测并获得激励。
评测集:官方 OI Bench(算法竞赛题)、用户自建数据集,覆盖代码、专业领域。
数据贡献:多方式收集数据,机审 + 人审保障质量,支持 500 + 任务标签。
Data Studio:个人 / 机构贡献领域数据,助力大模型进化。
应用场景
企业 / 开发者选型大模型,对比能力差异
研究者评估模型性能、验证算法效果
爱好者参与人机协作,体验前沿评测方式
行业共建高质量评测数据集与标准
使用方法
访问 agi-eval.cn 查看实时榜单
参与人机协作评测任务
浏览 / 使用官方与用户评测集
注册成为贡献者,提交领域数据
免费与定价
榜单、评测集浏览完全免费
人机评测、数据贡献可获激励
专业定制化评测服务需官方合作








