久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

首頁站長新聞重磅!小紅書發(fā)布對話合成模型FireRedTTS-2

重磅!小紅書發(fā)布對話合成模型FireRedTTS-2

2025-09-16 40

近日AI圈又一火爆消息,小紅書智創(chuàng)音頻技術團隊近日推出了新一代對話合成模型——FireRedTTS-2,專注于多說話人對話生成!目前支持4個說話人的3分鐘對話生成,可以通過擴展訓練語料進一步延長對話時長和增加說話人數(shù)量。

重磅!小紅書發(fā)布對話合成模型FireRedTTS-2

FireRedTTS-2是一款面向多說話者對話生成的長篇流式文本轉(zhuǎn)語音(TTS)系統(tǒng),具備長對話語音生成能力和廣泛的多語言支持,還能夠超低延遲流式生成,支持改變音色,解決現(xiàn)有對話合成方案中存在的一些痛點,例如靈活性差、發(fā)音錯誤頻繁、說話人切換不穩(wěn)定以及韻律自然度不足等問題。

FireRedTTS-2通過升級其核心模塊,特別是離散語音編碼器和文本語音合成模型,全面提升了合成效果。在多項主客觀評測中,F(xiàn)ireRedTTS-2均顯示出行業(yè)領先水平,為多說話人的對話合成提供了更優(yōu)的解決方案。其技術報告已在arXiv上發(fā)布,并可通過專用 Demo 和代碼鏈接進行體驗。

重磅!小紅書發(fā)布對話合成模型FireRedTTS-2

FireRedTTS-2的一個顯著特點是其合成的自然度,模型能對重音、情緒和停頓等細節(jié)進行精確把握,音質(zhì)自然流暢。與閉源的對話生成模型相比,F(xiàn)ireRedTTS-2不僅能夠生成高質(zhì)量的播客音頻,還支持音色克隆功能。只需提供每個發(fā)音人的一句語音樣本,模型就可以模仿其音色和說話習慣,自動生成整段對話。這種功能使得其在開源對話生成領域具備了很強的競爭力。

在訓練過程中,F(xiàn)ireRedTTS-2不僅支持多語言(包括中文、英語、日語、韓語和法語),還利用低幀率的離散語音編碼器提高了合成的速度與穩(wěn)定性。同時,采用雙 Transformer 的模型架構(gòu),使得合成語音更自然、更連貫。此外,F(xiàn)ireRedTTS-2只需少量數(shù)據(jù)即可實現(xiàn)音色定制,快速適應不同的應用場景。

總結(jié)下來,F(xiàn)ireRedTTS-2主要功能如下:

1、長對話語音生成:支持4個說話人的3分鐘對話生成,可擴展訓練語料以增加對話時長和說話人數(shù)量。

2、多語言支持:涵蓋英語、中文、日語、韓語、法語、德語、俄語等,具備零樣本跨語言及語碼轉(zhuǎn)換語音克隆能力。

3、低延遲與高保真:在L20 GPU環(huán)境下,首次數(shù)據(jù)包延遲低至140毫秒,適合實時交互場景,同時保證高質(zhì)量音頻輸出。

4、穩(wěn)定語音輸出:在獨白與對話測試中,生成語音與目標說話人相似度高,語音識別錯誤率低,能維持穩(wěn)定的音質(zhì)與韻律。

5、隨機音色生成:可生成隨機特征的語音,適用于構(gòu)建語音識別模型訓練數(shù)據(jù)或為語音交互系統(tǒng)提供多樣化測試素材。

  • 廣告合作

  • QQ群號:4114653

溫馨提示:
1、本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享網(wǎng)絡內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。郵箱:2942802716#qq.com(#改為@)。 2、本站原創(chuàng)內(nèi)容未經(jīng)允許不得轉(zhuǎn)裁,轉(zhuǎn)載請注明出處“站長百科”和原文地址。
FireRedTTS-2
下一篇:

已經(jīng)沒有下一篇了!

相關文章