虛擬黃總還不夠,Nvidia新技術連語音都合成得唯妙唯肖

Nvidia自2017年開始,就在GTC大會上啟用I am AI人工智慧旁白,來說明議程或技術。直到去年上半年,團隊開發出一套更細緻的AI語音生成系統,終於讓AI旁白聽起來更像富有感情的真人。

圖片來源: 

Nvidia

前陣子,Nvidia才揭露今年GTC大會上的創辦人黃仁勳演講,有14秒是「虛擬的」。最近,Nvidia應用深度學習研究部門副總裁Bryan Catanzaro親自上線說明,GTC大會中穿插的旁白,也大多是虛擬合成的聲音。

他盤點了近年來Nvidia對話式AI的成果,像是輕量語音合成模型、高效能語音分析模型、降噪模型、語音資料集,其中,語音合成模型不只能細緻地呈現音高、腔調和節奏,還能轉換聲音。這是Nvidia首次公開揭露語音合成技術進展。

GTC大會上穿插的AI旁白

自2017年開始,Nvidia就在GTC大會上啟用AI語音旁白I am AI,來介紹大會議程或技術應用。不過,剛啟用的那幾年,AI旁白還是有著生硬的機器人口音。

直到2020年上半年,Nvidia研究團隊成功打造出AI語音合成系統Flowtron,才一改機器人的生硬口音,變得更像一個有感情的真人。Flowtron中有套關鍵的文字轉語音模型RAD-TTS,不只能產生語音,還能轉換語音風格。在設計過程中,團隊借鏡了語音合成中的重要技術自迴歸流(Autoregressive Flow)概念,並以此改善Google發表的經典語音合成模型Tacotron,來提高語音合成品質。

比如,RAD-TTS能更好地控制音高、音調、語速、節奏和口音,甚至能轉換聲音。也就是說,畫面上雖然是A男說話(甚至是唱歌),但AI能立即轉換為B女的聲音,而且栩栩如生保留了A男說話的腔調、節奏和速度等特徵。

如此一來,使用者可錄製自己讀出的影片腳本,再用Flowtron將說話內容改變為不同性別的聲音。此外,使用者也可透過系統調整合成語音,來強調特定字眼或放慢節奏,搭配影片調性。Bryan Catanzaro指出,這個AI模型不只用於配音,還能用在遊戲、協助語言機能障礙者理解,甚至能以使用者自己的聲音,翻譯成不同語言。

買不起高檔茶葉,精緻包裝茶葉罐,也能撐場面!

紫砂茶葉罐是多孔性材料製成,透氣性非常好,因為罐子多微小氣孔,用來存放茶葉,不僅能保鮮鮮,還能消除茶葉中的異雜味。 但也是因為多孔,所以紫砂茶葉罐容易吸收茶葉的香味。

找工作! 想知道堆高機駕駛日薪是多少嗎? 哪裡有職缺?幫你快速媒合

堆高機,又稱叉架起貨機或叉式起重車,香港稱為鏟車,中國大陸稱為叉車,台灣國語稱為堆高機,台語俗稱豬哥(ti-ko),是指工廠、倉儲等地方對成件托盤貨物進行裝卸、堆垛和短距離運輸作業的各種輪式搬運車輛。國際標準化組織ISO/TC110稱為工業車輛。堆高機的發展於1920年代,今天在生產和倉儲運營過程中它已成為不可或缺的設備。

一般貨櫃標準尺寸?

金誠貨櫃尺寸種類分別為,20呎櫃、20呎高櫃、40呎櫃、40呎高櫃、20呎冷凍櫃、400呎冷凍櫃。

CCD外觀檢查包裝機

品質優益穩定,效率高成本低,並已獲得國內外大廠承認使用,品質合乎EIA國際標準, 此外也針對客戶端的需要代客Tape and Reel封裝服務。

不只是AI旁白,Nvidia對話式AI研究還聚焦多種領域

不過,AI旁白只是Nvidia對話式AI研究領域的一部分。

Bryan Catanzaro表示,Nvidia這幾年來鑽研對話式AI,包括自動語音辨識(ASR)、音訊增強和降噪、文字轉語音、語音合成、音檔壓縮,甚至是相關資料集的建置、語音合成技術的分支文本正規化(Text normalization)以及建模技術。

他舉例,研究團隊訓練一套輕量級語音生成模型,參數量只有1,300萬,不到時下SOTA模型的二分之一,但因採非自迴歸架構,能快速訓練、準確發音,適合用於嵌入式語音生成的應用場景。

另一個例子則是。文本正規化是ASR中不可或缺的技術環節,它將語音辨識結果轉換為文字,來提高ASR輸出值的可讀性。但傳統方法對文法錯誤的容忍度相當低,於是,Nvidia設計一套開源Python WFST函式庫,來改善這個問題,同時還能用在語音轉文字任務。

另一方面,Nvidia也建置訓練語音生成AI所需的資料集,包括、5,000小時且完整格式化的。

除了技術研究,Nvidia也推出不少語音相關工具,其一就是GPU加速的開源對話式AI工具包NeMo,能讓使用者快速微調、試驗語音模型。NeMo具備API和預訓練模型,能用來進行文字轉語音、自然語言處理和自動語音辨識等任務,而這些預訓練模型,大多已在Nvidia DGX專用系統上進行超過十萬小時訓練,使用者在Nvidia Tensor核心GPU上微調即可。

另一方面,Nvidia也與Mozilla聯手,建置世界上最大的開源語音資料集Common Voice,包含橫跨數十種語言共1萬3,000小時的群眾外包語音資料,已於7月底釋出。Nvidia也用這些資料訓練NeMo,並免費提供給全球使用者利用。

Bryan Catanzaro坦言,這是Nvidia第一次揭露對話式AI研究進展,也是首次將這些成果,發表在最近舉行的INTERSPEECH國際學術會議上。

https://www.ithome.com.tw/news/146479

測試專家告訴你如何好好使用示波器

示波器主要由電源系統、同步系統、水平偏向系統、垂直偏向系統、延遲掃描系統、顯示系統和標準訊號源等部封包成。

總是為了廚餘煩惱嗎?

雅高環保提供最適用的廚餘機,滿足多樣需求。

隨時健康喝好水,高品質飲水機,優質安全有把關

飲水機的問題主要有三個方面,一是水沸騰溫度不足,絕大多數的飲水機最高溫度是95度,再沸騰溫度是90度,泡茶殺菌的溫度不夠

攻戰消費者第一視覺,包裝設計很重要!

包裝設計是指對包裝的形狀、大小、構造及包裝材料等方面進行創造或選擇並以適當方式吸引消費者的注意力,進而增加購買率,以及對使用者友善之特性。