SuperCLUE

中文通用大模型综合性测评基准

  • 分类:工具集
  • 标签:CN
  • 收录:2025-09-13
  • 访问:
  • 更新:2026-05-28

SuperCLUE 是中文语言理解测评基准 CLUE在大模型时代的升级,面向国内外通用大模型提供多维度、场景化、中立的能力评估,输出榜单、报告与数据集,为模型选型与研发提供依据。 适合分类:大模型评测、LLM 基准、中文 AI 评测、模型榜单、能力评估

SuperCLUE官网 - 截图

核心优势

  • 权威中立:第三方机构出品,无模型研发,结果客观可信

  • 体系全面:覆盖基础、专业、中文特性三大维度,贴近真实使用

  • 三大基准互补:OPT 客观题、OPEN 开放式多轮、琅琊榜匿名对战

  • 月度更新:数据与榜单实时跟进,保持时效性

  • 中文深度适配:专门评估成语、诗词、语境理解等中文特色能力

亮点功能

  • 十大基础能力:语言理解、闲聊、上下文对话、生成创作、知识百科、代码、逻辑推理、计算、角色扮演、安全

  • 三大评测基准

    • SuperCLUE‑OPT:客观题,自动化测评基础能力

    • SuperCLUE‑Open:开放式多轮对话,测主观生成

    • SuperCLUE‑LYB 琅琊榜:匿名对战,Elo 排名

  • 配套产出:月度榜单、行业报告、开源数据集、技术论文

应用场景

  • 企业 / 开发者对比选型大模型

  • 科研机构评估模型性能与迭代效果

  • 行业了解国内外模型中文水平差距

  • 监管与标准参考依据

使用方法

  • 官网查看榜单与能力详情

  • 下载评测集与技术报告

  • 接入 API 进行自动化评测

  • 参与琅琊榜匿名对战测试

免费与定价

  • 公开榜单、报告、基础数据集免费开放

  • 定制化评测与私有化服务为合作模式

关键词:SuperCLUE,CLUEbenchmark,中文大模型评测,LLM 榜单,大模型基准,中文 AI 评测,模型能力评估

相关推荐