近日AI圈又一火爆消息,小紅書智創(chuàng)音頻技術團隊近日推出了新一代對話合成模型——FireRedTTS-2,專注于多說話人對話生成!目前支持4個說話人的3分鐘對話生成,可以通過擴展訓練語料進一步延長對話時長和增加說話人數(shù)量。
FireRedTTS-2是一款面向多說話者對話生成的長篇流式文本轉(zhuǎn)語音(TTS)系統(tǒng),具備長對話語音生成能力和廣泛的多語言支持,還能夠超低延遲流式生成,支持改變音色,解決現(xiàn)有對話合成方案中存在的一些痛點,例如靈活性差、發(fā)音錯誤頻繁、說話人切換不穩(wěn)定以及韻律自然度不足等問題。
FireRedTTS-2通過升級其核心模塊,特別是離散語音編碼器和文本語音合成模型,全面提升了合成效果。在多項主客觀評測中,F(xiàn)ireRedTTS-2均顯示出行業(yè)領先水平,為多說話人的對話合成提供了更優(yōu)的解決方案。其技術報告已在arXiv上發(fā)布,并可通過專用 Demo 和代碼鏈接進行體驗。
FireRedTTS-2的一個顯著特點是其合成的自然度,模型能對重音、情緒和停頓等細節(jié)進行精確把握,音質(zhì)自然流暢。與閉源的對話生成模型相比,F(xiàn)ireRedTTS-2不僅能夠生成高質(zhì)量的播客音頻,還支持音色克隆功能。只需提供每個發(fā)音人的一句語音樣本,模型就可以模仿其音色和說話習慣,自動生成整段對話。這種功能使得其在開源對話生成領域具備了很強的競爭力。
在訓練過程中,F(xiàn)ireRedTTS-2不僅支持多語言(包括中文、英語、日語、韓語和法語),還利用低幀率的離散語音編碼器提高了合成的速度與穩(wěn)定性。同時,采用雙 Transformer 的模型架構(gòu),使得合成語音更自然、更連貫。此外,F(xiàn)ireRedTTS-2只需少量數(shù)據(jù)即可實現(xiàn)音色定制,快速適應不同的應用場景。
總結(jié)下來,F(xiàn)ireRedTTS-2主要功能如下:
1、長對話語音生成:支持4個說話人的3分鐘對話生成,可擴展訓練語料以增加對話時長和說話人數(shù)量。
2、多語言支持:涵蓋英語、中文、日語、韓語、法語、德語、俄語等,具備零樣本跨語言及語碼轉(zhuǎn)換語音克隆能力。
3、低延遲與高保真:在L20 GPU環(huán)境下,首次數(shù)據(jù)包延遲低至140毫秒,適合實時交互場景,同時保證高質(zhì)量音頻輸出。
4、穩(wěn)定語音輸出:在獨白與對話測試中,生成語音與目標說話人相似度高,語音識別錯誤率低,能維持穩(wěn)定的音質(zhì)與韻律。
5、隨機音色生成:可生成隨機特征的語音,適用于構(gòu)建語音識別模型訓練數(shù)據(jù)或為語音交互系統(tǒng)提供多樣化測試素材。
-
廣告合作
-
QQ群號:4114653