首頁站長新聞重磅！小紅書發(fā)布對話合成模型FireRedTTS-2

重磅！小紅書發(fā)布對話合成模型FireRedTTS-2

站長新聞

2025-09-16 40

近日AI圈又一火爆消息，小紅書智創(chuàng)音頻技術團隊近日推出了新一代對話合成模型——FireRedTTS-2，專注于多說話人對話生成！目前支持4個說話人的3分鐘對話生成，可以通過擴展訓練語料進一步延長對話時長和增加說話人數(shù)量。

FireRedTTS-2是一款面向多說話者對話生成的長篇流式文本轉(zhuǎn)語音（TTS）系統(tǒng)，具備長對話語音生成能力和廣泛的多語言支持，還能夠超低延遲流式生成，支持改變音色，解決現(xiàn)有對話合成方案中存在的一些痛點，例如靈活性差、發(fā)音錯誤頻繁、說話人切換不穩(wěn)定以及韻律自然度不足等問題。

FireRedTTS-2通過升級其核心模塊，特別是離散語音編碼器和文本語音合成模型，全面提升了合成效果。在多項主客觀評測中，F(xiàn)ireRedTTS-2均顯示出行業(yè)領先水平，為多說話人的對話合成提供了更優(yōu)的解決方案。其技術報告已在arXiv上發(fā)布，并可通過專用 Demo 和代碼鏈接進行體驗。

FireRedTTS-2的一個顯著特點是其合成的自然度，模型能對重音、情緒和停頓等細節(jié)進行精確把握，音質(zhì)自然流暢。與閉源的對話生成模型相比，F(xiàn)ireRedTTS-2不僅能夠生成高質(zhì)量的播客音頻，還支持音色克隆功能。只需提供每個發(fā)音人的一句語音樣本，模型就可以模仿其音色和說話習慣，自動生成整段對話。這種功能使得其在開源對話生成領域具備了很強的競爭力。

在訓練過程中，F(xiàn)ireRedTTS-2不僅支持多語言（包括中文、英語、日語、韓語和法語），還利用低幀率的離散語音編碼器提高了合成的速度與穩(wěn)定性。同時，采用雙 Transformer 的模型架構(gòu)，使得合成語音更自然、更連貫。此外，F(xiàn)ireRedTTS-2只需少量數(shù)據(jù)即可實現(xiàn)音色定制，快速適應不同的應用場景。

總結(jié)下來，F(xiàn)ireRedTTS-2主要功能如下：

1、長對話語音生成：支持4個說話人的3分鐘對話生成，可擴展訓練語料以增加對話時長和說話人數(shù)量。

2、多語言支持：涵蓋英語、中文、日語、韓語、法語、德語、俄語等，具備零樣本跨語言及語碼轉(zhuǎn)換語音克隆能力。

3、低延遲與高保真：在L20 GPU環(huán)境下，首次數(shù)據(jù)包延遲低至140毫秒，適合實時交互場景，同時保證高質(zhì)量音頻輸出。

4、穩(wěn)定語音輸出：在獨白與對話測試中，生成語音與目標說話人相似度高，語音識別錯誤率低，能維持穩(wěn)定的音質(zhì)與韻律。

5、隨機音色生成：可生成隨機特征的語音，適用于構(gòu)建語音識別模型訓練數(shù)據(jù)或為語音交互系統(tǒng)提供多樣化測試素材。

廣告合作
QQ群號：4114653

點贊 (0)

溫馨提示：

1、本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享網(wǎng)絡內(nèi)容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。郵箱：2942802716#qq.com（#改為@）。 2、本站原創(chuàng)內(nèi)容未經(jīng)允許不得轉(zhuǎn)裁，轉(zhuǎn)載請注明出處“站長百科”和原文地址。