AGI-Eval

国内首个AI大模型评测社区

分类：工具集
标签：CN
收录：2025-09-13
访问：
更新：2026-07-07

AGI-Eval 是国内专业 AI 模型评测平台，由高校与机构联合打造，聚焦大模型能力量化评估，提供权威榜单、人机协作评测、专业评测集、数据贡献四大核心服务，面向研究者、企业与开发者开放。适合分类：大模型评测、LLM 榜单、多模态评估、AI 基准测试、模型对比

AGI-Eval官网 - 截图

核心优势

榜单权威透明：覆盖 GPT、Gemini、Qwen、豆包、DeepSeek、Kimi、Claude 等主流模型，定期更新排名。
评测体系严谨：自动 + 人工双重审核，私有评测数据防穿越，结果客观可信。
创新人机评测：首创人机协同评测模式，更贴近真实使用场景。
学术与产业结合：高校团队背书，合作机构包括交大、同济、美团、百度百科等。
社区共建生态：支持用户自建评测集、贡献数据，参与标准制定。

亮点功能

模型榜单：大语言模型、多模态模型综合 / 细分维度得分排名。
人机评测：与模型协作完成任务，参与评测并获得激励。
评测集：官方 OI Bench（算法竞赛题）、用户自建数据集，覆盖代码、专业领域。
数据贡献：多方式收集数据，机审 + 人审保障质量，支持 500 + 任务标签。
Data Studio：个人 / 机构贡献领域数据，助力大模型进化。

应用场景

企业 / 开发者选型大模型，对比能力差异
研究者评估模型性能、验证算法效果
爱好者参与人机协作，体验前沿评测方式
行业共建高质量评测数据集与标准

使用方法

访问 agi-eval.cn 查看实时榜单
参与人机协作评测任务
浏览 / 使用官方与用户评测集
注册成为贡献者，提交领域数据

免费与定价

榜单、评测集浏览完全免费
人机评测、数据贡献可获激励
专业定制化评测服务需官方合作

关键词：AGI-Eval,agi-eval.cn,大模型评测,LLM 榜单,多模态评估,AI 模型排名,人机协作评测

相关推荐

POWER AI

全球最大的人工智能工具目录

Toolfolio

国外热门工具集合站

Toolscout

发现新的AI工具

TopAI

AI工具合集站，发现最新AI工具

TinWow

集合了PDF、视频、图像、写作的在线综合AI工具箱

OpenGPT

海量的 ChatGPT 应用，几秒钟创建自己的小工具

Media

便携式多功能在线AI工具

AI帮个忙

多功能AI小帮手