Deepgram 是面向开发者与企业的语音 AI 基础设施,以 Nova(STT)与 Aura(TTS)为核心模型,提供统一语音代理 API,整合转录、合成与大模型编排,降低多服务拼接复杂度。支持实时流式与批量处理,提供云端与本地化自托管双部署模式,适配数据安全与规模化需求,广泛用于客服、会议、媒体、医疗等场景。
核心优势
精度与速度双优:Nova 系列词错误率(WER)低,比竞品快 27 倍,成本低 3–7 倍。
一体化 API:STT+TTS+LLM 编排合一,减少延迟与开发工作量。
部署灵活:云端与本地 / 私有云可选,满足合规与数据隔离。
抗复杂场景:自动处理口音、噪音、重叠说话、快速语速等。
多语言覆盖:支持 100 + 语言与方言,含中文等主流语种。
亮点功能
Nova STT:实时流式 / 批量转录,单词级时间戳,支持说话人分离、关键词提取、情感分析。
Aura TTS:自然合成语音,可调语速 / 音调,适配对话与播报场景。
Voice Agent API:一站式语音交互,整合识别、合成与意图理解。
定制模型:支持行业定制模型,提升品牌词、专业术语识别率。
智能分析:内容摘要、情绪识别、结构化输出,辅助数据洞察。
应用场景
客服与联络中心:实时转录通话、质检、情绪分析,提升服务效率。
会议与培训:实时转写与纪要生成,支持多说话人分离与重点提取。
媒体与内容创作:视频字幕、播客转写、音频检索与结构化处理。
医疗与教育:病历语音录入、课程转文字、听障实时字幕。
实时交互:直播字幕、语音机器人、对话式 AI 助手,低延迟响应。
使用方法
注册账号,获取 API 密钥与项目配置。
调用 STT:上传音频或 WebSocket 流式传输,选择 Nova 模型与参数,获取转写结果。
调用 TTS:输入文本,选择 Aura 音色与参数,生成语音文件。
集成:使用 REST API/SDK(Python/Node.js/Java 等)对接业务系统。
监控与优化:控制台查看用量与质量,按需调整模型与参数。
免费与定价
新用户福利:注册送 $200 信用点,90 天有效期,可用于所有付费功能。
按流量计费(Pay-as-you-go):Nova-2 约$0.0043/分钟,Nova-3约$0.003 / 分钟;Aura TTS 按需计费。
Growth 计划:批量折扣、优先支持、更高并发,适合增长型企业。
企业定制:专属 SLA、本地部署、定制模型,按需报价。








