悟道·天鹰(Aquila)是北京智源人工智能研究院于2023年6月发布的开源语言大模型系列,作为“悟道3.0”的核心成果之一。该模型是国内首个支持商用许可协议且符合数据合规要求的中英双语开源模型。基于中英文高质量合规语料从零训练,采用优化后的训练框架提升效率,包含Aquila-7B、Aquila-33B基础模型及AquilaChat对话模型、AquilaCode代码生成模型三大类型。
核心优势
开源商用许可:遵循Apache 2.0协议,允许在满足许可限制的情况下商用。
中英文知识:基于中英文高质量语料训练,中文语料占比约40%,确保模型积累了原生中文知识。
国内数据合规:中文语料来自智源多年积累的数据集,包括国内互联网数据和权威中文文献,符合国内数据合规需求。
持续迭代:模型将持续开源更新,优化训练方法和提升性能。
亮点功能
基础模型:如Aquila-7B和Aquila-33B,提供70亿和330亿参数的基础模型,具备优秀的技术架构设计。
对话模型:如AquilaChat-7B,基于Aquila-7B进行微调和强化学习,支持流畅文本对话及多种语言类生成任务。
代码生成模型:如AquilaCode-multi和AquilaCode-py,专注于“文本-代码”生成任务,使用高质量过滤的代码数据进行训练。
应用场景
企业级应用:可集成到企业级AI助手、客服系统等,提供合规的中英文支持。
教育领域:用于语言学习、智能辅导等教育场景,支持中英文交互。
开发者工具:为开发者提供代码生成、补全等功能,提升开发效率。
技术价值
高效训练:采用BMTrain并行技术,相比传统方案提升8倍训练效率。
长文本处理:33B版本上下文窗口扩展至16k tokens,支持更复杂的语义理解。
评测体系:配套天秤(FlagEval)评测体系,覆盖600+维度多模态场景评估。








