AGI-Eval

国内首个AI大模型评测社区

  • 分类:工具集
  • 标签:CN
  • 收录:2025-09-13
  • 访问:
  • 更新:2026-05-28

AGI-Eval 是国内专业 AI 模型评测平台,由高校与机构联合打造,聚焦大模型能力量化评估,提供权威榜单、人机协作评测、专业评测集、数据贡献四大核心服务,面向研究者、企业与开发者开放。 适合分类:大模型评测、LLM 榜单、多模态评估、AI 基准测试、模型对比

AGI-Eval官网 - 截图

核心优势

  • 榜单权威透明:覆盖 GPT、Gemini、Qwen、豆包、DeepSeek、Kimi、Claude 等主流模型,定期更新排名。

  • 评测体系严谨:自动 + 人工双重审核,私有评测数据防穿越,结果客观可信。

  • 创新人机评测:首创人机协同评测模式,更贴近真实使用场景。

  • 学术与产业结合:高校团队背书,合作机构包括交大、同济、美团、百度百科等。

  • 社区共建生态:支持用户自建评测集、贡献数据,参与标准制定。

亮点功能

  • 模型榜单:大语言模型、多模态模型综合 / 细分维度得分排名。

  • 人机评测:与模型协作完成任务,参与评测并获得激励。

  • 评测集:官方 OI Bench(算法竞赛题)、用户自建数据集,覆盖代码、专业领域。

  • 数据贡献:多方式收集数据,机审 + 人审保障质量,支持 500 + 任务标签。

  • Data Studio:个人 / 机构贡献领域数据,助力大模型进化。

应用场景

  • 企业 / 开发者选型大模型,对比能力差异

  • 研究者评估模型性能、验证算法效果

  • 爱好者参与人机协作,体验前沿评测方式

  • 行业共建高质量评测数据集与标准

使用方法

  1. 访问 agi-eval.cn 查看实时榜单

  2. 参与人机协作评测任务

  3. 浏览 / 使用官方与用户评测集

  4. 注册成为贡献者,提交领域数据

免费与定价

  • 榜单、评测集浏览完全免费

  • 人机评测、数据贡献可获激励

  • 专业定制化评测服务需官方合作

关键词:AGI-Eval,agi-eval.cn,大模型评测,LLM 榜单,多模态评估,AI 模型排名,人机协作评测

相关推荐