高效率復制人聲

新款語音合成系統：“傾聽”1分鐘，就能開口“講話”

2017年05月04日08:34 來源：科技日報

原標題：“傾聽”1分鐘，就能開口模仿人類“講話”

據《科學美國人》雜志網站2日報道，加拿大新創公司琴鳥（Lyrebird）發布了新款人工智能（AI）語音系統，其能通過分析講話錄音和對應文本以及兩者之間的關聯，在1分鐘內模仿人類“講話”，比如，模仿特朗普、奧巴馬和希拉裡三個人的聲音展開一段對話。

讓聲音聽起來更自然，是計算機程序在將文字轉換成語音過程中面臨的核心挑戰，即使目前最好的語音助手，如蘋果公司的Siri和亞馬遜公司的Alexa，一發聲給人的第一感覺仍然是，“哇！這是計算機。”背后原因在於這些語音助手系統的工作原理：根據預錄的聲音文檔整理出詞匯，再通過另一個新的音頻文檔將這些詞匯拼湊在一起發聲。

而琴鳥公司的AI使用了一種全新的語音合成系統，能在“傾聽”過程中“掌握”每個人說話時字母、音位和單詞的發音特點，通過推理並模仿這個人聲音中的情感和語調，“說”出全新的語句。

新系統使用模仿人腦思維的算法創建出一種人工神經網絡，能利用深度學習技術將所聽到的轉換成語音，並僅靠任何人1分鐘講話內容，就能完全模仿這個人說話。其市場前景非常廣闊，可用來改進個人人工智能助手、音頻書籍以及殘疾人語音系統等。

開發該系統的蒙特利爾大學學習算法實驗室博士后亞歷山大·布瑞比森表示，在學會並模仿了幾個人的聲音后，再模仿任何一個新對象的語音就會變得更快，因此新語音系統不需太多信息，1分鐘足以捕獲某個人聲音的核心特點。

但美國卡內基梅隆大學語言技術研究所教授迪莫·鮑曼表示，琴鳥的語音系統和真正的人聲之間還有差距。“我仔細聽過琴鳥系統的發聲，其帶有背景噪音，以及微弱的機器人特征。而且，它還不能模仿人們在講話中的呼吸和唇部運動，因此仍然能聽出其計算機語音特征。”鮑曼說。他認為，語音系統真正令人信服地復制人聲，還需再等幾年。（記者聶翠蓉）

(責編：王雅婷（實習生）、張希)

人民日報客戶端下載

手機人民網

高效率復制人聲

新款語音合成系統：“傾聽”1分鐘，就能開口“講話”

相關新聞

視頻新聞

熱點排行