SuperCLUE 是中文语言理解测评基准 CLUE在大模型时代的升级,面向国内外通用大模型提供多维度、场景化、中立的能力评估,输出榜单、报告与数据集,为模型选型与研发提供依据。 适合分类:大模型评测、LLM 基准、中文 AI 评测、模型榜单、能力评估
核心优势
权威中立:第三方机构出品,无模型研发,结果客观可信
体系全面:覆盖基础、专业、中文特性三大维度,贴近真实使用
三大基准互补:OPT 客观题、OPEN 开放式多轮、琅琊榜匿名对战
月度更新:数据与榜单实时跟进,保持时效性
中文深度适配:专门评估成语、诗词、语境理解等中文特色能力
亮点功能
十大基础能力:语言理解、闲聊、上下文对话、生成创作、知识百科、代码、逻辑推理、计算、角色扮演、安全
三大评测基准
SuperCLUE‑OPT:客观题,自动化测评基础能力
SuperCLUE‑Open:开放式多轮对话,测主观生成
SuperCLUE‑LYB 琅琊榜:匿名对战,Elo 排名
配套产出:月度榜单、行业报告、开源数据集、技术论文
应用场景
企业 / 开发者对比选型大模型
科研机构评估模型性能与迭代效果
行业了解国内外模型中文水平差距
监管与标准参考依据
使用方法
官网查看榜单与能力详情
下载评测集与技术报告
接入 API 进行自动化评测
参与琅琊榜匿名对战测试
免费与定价
公开榜单、报告、基础数据集免费开放
定制化评测与私有化服务为合作模式








