紫东太初大模型

新一代多模态大模型

  • 分类:大模型
  • 标签:CN
  • 收录:2025-12-15
  • 访问:
  • 更新:2025-12-15

中国科学院自动化研究所和武汉人工智能研究院推出新一代多模态大模型,支持多轮问答、文本创作、图像生成、3D理解、信号分析等全面问答任务,拥有更强的认知、理解、创作能力,带来全新互动体验。

紫东太初大模型官网 - 截图

核心优势

多模态能力

  • 语言能力:中文推理能力达到GPT-4o的95%,中文写作能力相对于GPT-4o超出3%。支持128K长文本。

  • 视觉语言能力:中文视觉对话能力相对于GPT-4o超出2%,OCR类能力相对于GPT-4o超出3%,视觉定位能力超越专有模型。

  • 图文音能力:零样本语音情感识别能力达到领先水平,图文音混合理解能力相比Gemini-1.5-pro 超出6%。

智能体能力

  • 理解能力:首次实现多模态复杂任务规划与智能求解,更接近人类的理解能力。

  • 交互能力:通过准确的多步任务拆解和高效的工具调用,支持跨模态信息协同合作,提升理解和交互能力。

  • 同步调度能力:在简单任务规划方面,超越gpt-4o 5%,在多模态复杂任务方面,首次突破图文音同步调度

多模态检索增强

  • 多模态编码能力:通过多模态统一编码,支持图像、文本查询。各模块协同配合,自适应调度,支持多种类型文档与提问。

  • 检索增强与溯源能力:针对答案,支持多模态类内容精准溯源。针对问题,支持复杂查询的拆解与改写。

应用场景

  • 3D理解:基于点云数据的3D场景理解和物体感知能力。

  • 信号分析:支持雷达信号鉴别与知识交互,可借助模型快速掌握信号基本来源及参数等。

  • 知识问答:专属知识库和联网搜索实现大模型检索增强,有效缓解幻觉,加速知识学习,使得大模型更加实用和可信。

  • 多模态理解:关注图文音三模态数据之间的关联特性,支持图文问答、视觉定位、视觉指代、OCR问答、音乐理解。

  • 多模态内容生成:多种艺术风格的AI作画,精准控制绘画细节;文本指令可智能作曲生成音乐片段。

关键词:紫东太初,zdtc,中科院大模型,大模型

相关推荐