OpenAI 的 Voice Engine：声音克隆技术的谨慎推进- DoNews快讯

去年三月底，OpenAI 宣布了一项名为 Voice Engine（声音引擎）的人工智能服务的小规模预览，声称该技术仅需15秒语音即可克隆一个人的声音。然而，近一年过去，这项工具仍未正式推出，OpenAI 也未透露其是否会全面上线及具体时间。

OpenAI 对 Voice Engine 的谨慎态度源于对技术滥用的担忧和避免监管审查。公司此前曾被指责过于注重“亮眼产品”而忽视安全性。目前，Voice Engine 仍在与有限的“可信合作伙伴”一起测试，以提升模型的实用性和安全性。应用场景包括语音治疗、语言学习、客户支持等。

Voice Engine 是 OpenAI 文本转语音 API 和 ChatGPT 语音模式背后的技术，能够生成与原始说话者极为相似的自然语音。尽管最初计划在2024年3月7日引入API，但发布一再推迟。OpenAI 表示，合成语音的负责任部署是关键考虑因素，并采取了多项安全措施，如添加音频水印以追溯来源，确保使用前获得明确同意并披露语音由AI生成。

随着 AI 语音克隆技术的快速发展，有效的过滤和身份验证正成为负责任发布语音克隆技术的基本要求。恶意行为者利用该技术制作名人和政客的煽动性深度伪造视频，增加了欺诈风险。OpenAI 正在考虑将服务保持在较小范围内，Voice Engine 的有限预览已成为该公司历史上最长的一次。