新華社拉斯維加斯電 “嘿,Kuri!想一起玩嗎?”“嘿,Kuri!能講個故事嗎?”隻要聽到叫自己的名字,身高半米、看上去胖嘟嘟的機器人Kuri就會睜開眼睛跑到你跟前,像小狗一般可愛。正在美國拉斯維加斯舉行的消費電子展上,這款黑白色的呆萌家用機器人讓媒體爭相報道。
“Kuri是一款社交機器人,您可以把它當成家庭的一個成員,”研發這款機器人的初創企業梅菲爾德機器人公司首席執行官邁克爾•畢比說。除了可以用手機應用程序控制外,還能通過簡單的語言命令指揮它完成一些任務,比如在家裡自動巡邏、把小狗趕下沙發、與小孩一起玩耍、講故事、放音樂等等。
語音識別突飛猛進,達到了人耳的程度
據預測,到2020年,美國每10戶家庭中就有一戶將擁有家用機器人。這些機器人不僅能干家務,更重要的是還能與人簡單交流,替人們排憂解悶。
隨著重出江湖的“阿爾法圍棋”近日橫掃多位中日韓頂尖棋手,有人評價說,人腦斗不過機器的時代已經來臨。不過,在語言理解方面,目前機器還遠遠斗不過人腦,但這種情況正在迅速發生改變。
“電腦的下一個接口是語音,”展會主辦方美國消費技術協會首席經濟學家肖恩•杜布拉瓦茨在記者會上斷言。他列出未來5大技術發展趨勢,語音交互排在第一位。
現在的智能手機和個人電腦依靠圖形用戶界面來實現人機交互。它最早可追溯到1981年施樂公司的“施樂之星”操作系統。3年后,蘋果公司“偷師”的Macintosh成為首個在商用領域取得成功的圖形用戶界面個人電腦。從命令行發展到圖形界面是人機交互方式的重大革命,助推了個人電腦迅速普及。
自那以后,隨著個人設備運算能力日益增強,各種應用程序越來越多,圖形用戶界面也變得更復雜。與此同時,從2010年逐漸興起的可穿戴式設備以及其他一些非傳統設備,開始嘗試把最重要的運算功能通過無線連接交給手機或其他中樞設備。
許多人認為,圖形用戶界面已經接近極限。接下來,誰能把人類從紛繁復雜的窗口、工具欄以及菜單選項中解放出來,腦電波、眼神還是語音?10年前這三種方式沒有一個靠譜,今天語音似乎成了首選項。
語音識別研究已經有好幾十年,但進展一直不盡如人意。微軟早在1994年就成立了研究團隊,但2006年研究人員在投資者面前演示時,電腦竟然把“mom”(媽媽)聽成了“aunt”(阿姨)。“早期版本的語音識別技術太糟糕了,”杜布拉瓦茨說。據他介紹,到2013年,哪怕口音再標准、背景噪音再小,語音識別的單詞錯誤率依然高達25%,即電腦每聽4個詞就會錯一個。
得益於深度學習與人工神經網絡的發展,近3年來語音識別突飛猛進,單詞錯誤率降到5%左右,達到了人耳的程度。“我們在過去30個月所取得的語音識別進展比過去30年還要多,”杜布拉瓦茨說,“這就是為什麼我認為語音技術會出現爆發式增長。”
“動動嘴皮子”,就可以關燈、鎖門,甚至叫車
蘋果手機推出了語音助手Siri,微軟、谷歌和亞馬遜也相繼推出類似的語音助手。值得一提的是,約兩年前亞馬遜第一個把其語音助手“亞歷克薩”嵌入到“回聲”智能音箱中,作為智能家居的中樞控制音箱,讓人們多了一個“家庭事務助理”。有了“回聲”,人們“動動嘴皮子”就可以查信用卡賬單、關燈、鎖門,甚至叫車。
此后,谷歌推出了家用智能硬件“谷歌家庭”,三星和聯想等也准備推出類似產品……一場由語音交互驅動的智能家居競賽正在進行之中。汽車廠商也開始加入進來,福特在展會上宣布跟亞馬遜合作,在車上安裝“亞歷克薩”,將來可由語音控制車內播放音樂、閱讀新聞,快到家時打開車庫門和家中的照明、空調等。
杜布拉瓦茨說,到目前為止,全球估計已售出約500萬個語音助手,今年可能還會售出500萬個。
在中文語音識別方面,科大訊飛是佼佼者。在此次美國展會上,長虹就展出了基於科大訊飛技術的語音控制電視和空調,並介紹說,2012年長虹就推出了語音控制電視,目前已經升級到第三代,除了普通話,還能聽懂四川話、粵語等幾種方言。在演示中,長虹工作人員通過語音遙控器或安裝了相關軟件的手機,說出“長虹小白,我想看某某電視劇第幾集”,電視就直接開始播放相關劇集,並可以指揮快進、后退或直接跳到某個時間點開始播放。
中興通訊高級副總裁程立新在展會新品發布會上說,中興把語音交互視為未來手機發展的一個重要方向。“我們也牽頭成立了一個智慧語音聯盟,以打造一個好的生態圈。我們認為未來智能手機的接口會有很多的、大的發展,語音的發展有可能會真正解放人類的雙手,”他說。
語音識別還要克服很多障礙,比如理解嘈雜背景下的語言指令、自動糾錯、理解同一詞語在不同情境下的語義等。但杜布拉瓦茨認為,未來是樂觀的。
“顯然,語音(識別)跨過了拐點,正從理論走向現實,”他說,“人們開始考慮,如果它(語音識別)能表現得再好一點點的話,我們該怎樣使用它。”(記者林小春、江宇娟、劉帥)