让AI学会“说话”

当多数AI公司聚焦于文本和图像领域时，ElevenLabs选择从声音切入技术变革。成立仅4年，它已在人工智能语音领域建立起可与OpenAI、Google等科技巨头比肩的行业地位。

在电影Her（《她》）中，由华金·菲尼克斯饰演的西奥多爱上了人工智能语音操作系统萨曼莎——她用性感而柔情的声音回应西奥多在未来世界的孤独。这个曾被视为科幻想象的情节正被一家AI初创公司一步步拉进现实。

ElevenLabs，一家成立于2022年的人工智能语音公司，正试图让机器“开口说人话”。不同于以往生硬冰冷的语音助手，它的目标是让AI发声像真人一样自然、有情感。两位联合创始人Mati Staniszewski和Piotr Dąbkowski并非传统意义上的语音工程师，他们在创业前分别就职于Palantir和Google。在工作中，他们逐渐意识到，尽管人工智能已在文本和图像领域大放异彩，但真正专注语音的公司却寥寥无几。彼时，ChatGPT尚未问世，两人却已经笃定，下一轮人机交互的关键不在于“看”，而在于“听”。

事实证明，AI语音这一在当时并不主流的选择，预示着一片广阔的蓝海。美国市场研究公司Grand View Research于2023年发布的市场分析报告显示，人工智能语音克隆领域预计将在2023年至2030年间以28.4%的复合年增长率持续增长。

与此同时，这一赛道的竞争也同样激烈。既包括OpenAI、Google等综合型科技公司，也有Otter、Cartesia等更为精细化的竞争者。ElevenLabs联合创始人Mati表示：“我们最大的潜在竞争对手是OpenAI。”他坦言，OpenAI拥有强大的研究能力和远超ElevenLabs的资金资源，但后者在技术层面已能与一众科技巨头不分伯仲。美国数据注释公司Labelbox对6款主流文本转语音模型（TTS）的评估结果显示，ElevenLabs的词错误率为2.83%，低于Google和OpenAI的模型。

如今，ElevenLabs已成为全球发展最快的AI公司之一，构建起覆盖语音、音乐以及对话式智能体的完整创意生态。该公司估值在去年10月飙升至66亿美元，并获得英伟达的战略投资。黄仁勋曾公开称赞道：“每当我的声音通过人工智能以数字方式传输时，我使用的都是ElevenLabs平台。”今年1月，ElevenLabs进一步宣布，其年度经常性收入（ARR）已突破3.3亿美元。

在科技巨头环伺的AI赛道，这家成立时间并不长的技术公司究竟是如何被推向AI语音技术前沿的？

让AI语音“不完美”

如果你在波兰看外语电影，可能会对配音体验感到失望。在波兰，外语影片往往只有一名旁白演员完成配音，他会用一成不变的语调念出所有角色的台词。即便是《泰坦尼克号》中Jack与Rose在船头互诉爱意的经典场景，也难免被单调的男声消解情绪。

这种体验对Mati Staniszewski和PiotrDąbkowski而言并不陌生。两人均成长于波兰。“问任何波兰人，他们都会说太糟糕了。”Mati曾这样形容。这段经历也让他们比许多技术创业者更早意识到语音技术的重要性。

作为首席技术官，Piotr在公司早期迅速组建了一支专注音频生成的技术团队。在最初的6个月里，他们测试了大量模型，但生成的语音始终缺乏真实感。真正的突破出现在他们第一次让AI发出类似笑声的声音。测试者在听完后告诉他们：“这是我第一次听到AI笑。”团队由此意识到，情绪反应或许是一个正确的方向。相比于“完美”的语音，人们更愿意与有“人味儿”的语音互动。

这一判断随后在商业场景中进一步得到验证。在一次与物流公司的合作中，ElevenLabs为客户提供语音代理服务，用AI生成的语音与用户沟通配送信息。团队刻意在合成语音中加入表示思考和犹豫的语气词，以及轻微的呼吸声，以模拟真实对话习惯。结果表明，正是这种带有不完美细节的声音，使用户通话流程完成率提高了2%。

目前，ElevenLabs最新一代模型已能实现较高的情感控制能力。用户可以通过插情绪标签，生成包括大笑、低语、好奇、甚至讽刺挖苦等不同情绪。该模型还能识别标点符号，调整语速、重音和节奏。据公司披露，其语音库涵盖超过10万种人类声音特征，并支持70多种语言。

这一技术同时服务于个人和企业客户。根据美国《时代》周刊报道，ElevenLabs大约一半客户为个人创作者，活跃于YouTube、TikTok等内容平台。其余为企业客户，其中60%以上来自《财富》500强公司，包括TOYOTA、Lenovo、Cisco Systems等，应用场景覆盖销售、医疗、教育、法律、人工智能等领域。

尽管应用场景已不断拓展，让人工智能真正具备自然的人类声音仍是一条漫长的技术路径。ElevenLabs表示，文本转语音技术已逐步成熟，但真正的挑战在于让AI具备对语境和情绪的理解能力，并在对话中展现更高层次的智能。

“我们希望AI语音能通过图灵测试，让人无法分辨究竟是在与机器还是与真人对话。”Mati说，“这一目标是ElevenLabs的北极星。”

克隆声音

2024年，因意外失去声音的喜剧演员Jules Rodriguez在迈阿密一家俱乐部完成了其失声后的首次单口脱口秀表演。在舞台上，他用眼动追踪设备输入文字，并结合ElevenLabs的语音克隆工具，将内容转化为自己的声音。演出结束后，他向媒体形容那一刻的感受：再次听到自己的声音，就像找回了丢失的一部分。

语音克隆是ElevenLabs最具代表性的核心技术之一。该公司的技术通过大量原始录音训练定制模型，能够捕捉人声中极其细微的语调变化与情绪特征，并在合成语音中加以还原，使生成的声音在自然度、真实感上接近真人的发声。

在这一技术的基础上，ElevenLabs进一步推出了标志性声音市场（Iconic Marketplace），与名人及其权利方合作，将他们的声音纳入语音库。目前，该服务已经收录了25位名人的声音，既包括银幕传奇人物迈克尔·凯恩（Michael Caine），也涵盖已故的历史传奇人物，如朱迪·嘉兰（Judy Garland）、拉娜·特纳（Lana Turner），以及艾伦·图灵（Alan Turing）。在获得权利方许可的前提下，企业可将这些声音合法用于播客、广告、有声书等商业场景。

在游戏《堡垒之夜》（Fortnite）中重现《星球大战》的反派达斯·维达的声音，是近期最受关注的案例之一。该角色由已故演员詹姆斯·厄尔·琼斯（James Earl Jones）配音，其低沉、阴郁且极具压迫感的声线早已成为无法替代的影视经典。去年，ElevenLabs与Epic Games以及Google合作，在Fortnite中打造了一个可以对话的达斯·维达NPC（非玩家角色），它不仅能加入玩家战队，还能通过实时语音交流战术、闲聊、谈论原力和银河帝国。ElevenLabs试图保留詹姆斯原声中冷峻而令人不寒而栗的气质，让数百万玩家得以与这位尊主进行对话。

不过，人工智能声音并未获得一致认可。奥斯卡获奖导演Guillermo Del Toro公开表达对人工智能的排斥，并誓言坚决不在自己的电影中使用相关技术。美国演员工会也多次抗议，认为AI配音可能取代人类演员，冲击演员的劳动保障体系。

对此，ElevenLabs并不认同。该公司认为AI不会取代演员，而是为声音创作者打开新的机会窗口。为此，他们正尝试构建一种全新的声音经济模式，让普通用户也可以在平台上上传并授权自己的声音供他人使用，并按使用情况获得分成。

目前，ElevenLabs是少数明确向配音演员支付版税并提供收入分成机制的AI语音平台之一。此举开创了一个颠覆性的声音市场。根据公司披露的数据，平台已向超过5000名授权声音的创作者支付了约500万美元。“我们希望建立的是一种合作，而不是对抗的关系。”联合创始人Mati如此概括这一理想主义色彩浓厚的商业畅想。

用技术防治AI滥用

随着生成式人工智能技术的普及，如何防止技术被用于欺诈、虚假信息传播或侵犯个人权益，正成为所有AI公司无法回避的问题。对ElevenLabs而言，治理技术滥用不仅是合规要求，也是塑造长期商业信誉的关键。

版权保护被视为AI语音克隆产品亟需建立的一道防线。美国加州已签署人工智能安全法案，明确规定企业在使用AI生成演员声音或肖像的复制品时，必须事先获得本人同意，以保护表演者的数字权益。ElevenLabs对此公开表示支持。该公司合作伙伴关系负责人Dustin Blank表示，行业应当欢迎政府对未经许可制作数字复制品的行为追责，并认为在州和联邦层面建立清晰规则是培育人工智能长期商业机会的前提。

在技术层面，风险并非停留在抽象的讨论中。ElevenLabs曾被卷入一起涉及美国前总统乔·拜登的深度伪造事件：一个冒充拜登的AI语音机器人拨打选民电话，引发舆论关注。有专家指出，该语音可能源自ElevenLabs的技术。为降低类似事件的风险，ElevenLabs目前已采取多项措施，包括引入人工与机器并行的审核系统、推出免费的语音检测工具，用于判断音频是否由ElevenLabs生成，并建立禁止克隆的名单，重点覆盖政治人物和其他公众人物。

近期，ElevenLabs还与语音认证安全厂商Loccus以及网络安全公司RealityDefender合作，共同开发深度伪造检测方案，以降低AI合成语音在信息市场中被滥用的风险。

但公司并不讳言“防止AI被滥用将是一场永远不会彻底胜利的博弈”，攻击手段与防御技术会持续迭代。首席执行官Mati将其形容为“一场猫捉老鼠的游戏”。在接受全球在线支付服务提供商Stripe总裁John Collison的采访时，Mati进一步设想了AI验证的长期方向：未来的重点或许不是识别内容是否由AI生成，而是反向验证内容是否由人类生成。通过在语音中嵌入水印和元数据，证明声音是来自本人或其授权的AI智能体。如若缺乏水印，则默认其为AI合成。

尽管风险始终存在，ElevenLabs仍强调语音克隆技术的积极价值。Mati自认是一名理想主义者，他认为这项技术可以在现实中改善人的处境。例如，让因渐冻症失去语言能力的患者能发声与世界交流。此外，他还始终铭记最初的愿景，并宣称ElevenLabs的下一代模型将实现由AI为整部电影配音。“我们不会放弃这个使命。”他说。

小型团队的利好

ElevenLabs联合创始人兼CEO Mati Staniszewski

1..ElevenLabs目前的团队构成是怎样的？

我们公司共有300多人。公司内部设有大约有30个小团队，每个团队由5到10人组成。每个团队负责一个产品领域——从工作室界面到企业语音代理，旨在快速行动，避免官僚作风。

我有15名直接下属。其中将近一半是年轻有为、充满干劲的成员，主要由公司内部培养，与公司一同成长。另一半则经验老道、见多识广，曾在相关领域积累了丰富的从业经验。

2.ElevenLabs如何制定规划周期？

以周为单位，每个小团队在运作上都拥有一定的灵活性，可以选择不同的推进方向。但在每个季度，我们会召集各个团队，让他们用一天的时间高效地规划下一季度需要实施的各项举措。

除了产品开发之外，我们还负责语音技术的基础研究，并拥有多个研究团队。研究成果本身很难预测，因此我们不会为其设定具体的时间表。研究团队需要保持高度敏捷。一旦有新的技术出现，留给团队将其整合进产品中的时间往往只有24小时。这也是小型团队如此重要的原因。

3.ElevenLabs是“996”吗？

我们不要求员工在办公室，但大家几乎时时刻刻都在线。ElevenLabs会在员工入职前非常明确地说明，我们认为人工智能正为全球带来百年一遇的变革，而我们可以成为这场变革的代言人。每个人都明白，眼前的机遇非常难得。我们也会明确强调，这需要投入大量时间。我们从不强迫任何人这样做，但他们确实会这样做。通常来说，是每周7天在线。

4.ElevenLabs如何避免被一些大型AI实验室碾压？

ElevenLabs的特别之处在于，我们既从事基础模型的研究工作，也进行产品开发，始终聚焦于声音领域，同时兼顾研究与产品两个方面。

我们认为，取胜的关键在于以下两点：第一，保持对AI语音的高度专注，打造最顶尖的研究模型。与其他领域的模型相比，声音领域的最大不同在于，技术突破更多依赖模型和数据，而非算力和规模。因此，即便现在仍然进行基础模型的研发，也能显著提升效果。

第二，我们公司在研究成果的应用上也投入了大量时间——无论是有声书的旁白，还是构建AI代理，目的是为客户打造真正实用的应用体验。

撰文——俞凯怡编辑——邹健