Cohere推出开源语音转写模型Transcribe 主打轻量自托管场景

摘要:

企业级人工智能公司 Cohere 于本周四发布其首个语音模型 Transcribe,这是一款开源自动语音识别(ASR)模型,主要面向语音转文字记录、语音内容分析等场景。 该模型参数规模约为 20 亿,被定位为“轻量级”方案,方便在消费级 GPU 上运行,适合有自托管需求的企业和开发者部署。

Transcribe 目前支持 14 种语言,包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语以及阿拉伯语。 Cohere 表示,在 Hugging Face 的 Open ASR 榜单上,Transcribe 的平均词错误率(WER)达到 5.42,在该基准测试中优于 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 以及 Qwen3-ASR-1.7B Speech 等模型。

在人工评估方面,Cohere 称,当由人工评审从准确性、一致性和可用性等维度对转写结果进行对比时,Transcribe 相比其他模型的平均胜率为 61%。 不过,公司也承认,在葡萄牙语、德语和西班牙语等语言上,该模型的表现仍略逊于部分竞品。

性能方面,Cohere 给出的数据是,Transcribe 每分钟可处理约 525 分钟的音频,在同类模型中属于较高水平。 Cohere 计划将这一语音模型整合进其面向企业的智能体编排平台 North,并通过公司 API 免费提供访问。 同时,Transcribe 也将上架于 Cohere 的托管推理平台 Model Vault,方便客户直接调用。

随着 Granola 和 Wispr Flow 等基于语音记事与听写的应用需求不断增长,语音识别模型整体正快速升温。 在此背景下,Cohere 试图通过开源、轻量和多语言支持切入市场,为希望掌控数据和部署环境的企业提供一套自托管友好的语音基础设施。

今年早些时候,有报道称 Cohere 在 2025 年实现了约 2.4 亿美元的年度经常性收入(ARR),公司 CEO Aidan Gomez 也被引述称该初创企业“可能很快”就会公开上市。

查看评论
created by ceallan