韩国Nari Labs工作室近日在GitHub和Hugging Face开源了文字转语音AI模型Dia,该模型拥有16亿参数,目前已获得超9300颗GitHub星标。开发者宣称,Dia在音质灵活性和自然度上超越ElevenLabs Studio、Sesame等竞品,支持对音色、情绪及语调的精细调节,还能模拟非语言交流(如笑声或咳嗽)。
测试显示,Dia在声调自然度、表情丰富度及节奏感方面均优于同类模型。目前该模型仅支持英文,需英伟达RTX 3080以上显卡本地运行,也可通过Hugging Face Spaces在线体验。Nari Labs表示将推出简化部署方案,进一步降低用户使用门槛。