研究表明: 智能手機語音輸入比打字快3倍

2016年08月25日11:06 來源：環球網

原標題：百度、斯坦福研究表明語音輸入比打字快3倍

　　近日，百度、斯坦福大學和華盛頓大學共同完成了一項與智能手機輸入方式對比相關的研究，該研究利用百度深度語音識別技術Deep Speech 2，與32名測試者進行“人機對戰”。研究結果表明，智能手機利用語音輸入的速度比鍵盤輸入快3倍，且輸入准確率更高。

　　研究人員發現，相比傳統的鍵盤輸入，語音輸入方式在速度及准確率方面更具優勢。利用語音輸入英語和普通話的速度分別是傳統輸入方式的3.24倍和3.21倍。此外，在加入糾錯功能后，語音輸入英語及普通話的准確率進一步提高，達到96.43%和92.35%，其輸入速度仍為傳統方式的3倍和2.8倍。該研究將語音輸入方式的評估細化到了字符級，充分展現了語音輸入方式的優勢，且幫助了技術研發者進一步優化語音輸入功能。除此之外，技術人員還對如何在詳細數據分析和定向響應的基礎上，進一步提高語音輸入的效率和准確率進行了研究。

　　如今，用戶輸入的使用習慣正在經歷由鍵盤到語音的轉變，研究並發展有效的語音交互接口，迫在眉睫。斯坦福大學計算機科學專業教授James Landay表示：“過去十年，語音識別技術被寄予厚望，但其實際表現卻不盡如人意。近兩年，受益於大數據和深度學習技術的不斷發展，語音識別技術突飛猛進，其速度及准確性都有了長足進步。除了發郵件或發短信外，我們還在將語音用於更多方面，比如將語音啟動和圖形觸控操作相結合的交互界面等。”

　　此次參與研究的Deep Speech 2發揮了出色的性能，是百度布局語音技術的最好體現。2014年底，百度首席科學家吳恩達及其團隊便發布了第一代深度語音識別系統Deep Speech，該系統使用了端對端的深度學習技術，主要專注於提高嘈雜環境下的英語語音識別的准確率。通過使用批處理技術將DNNs部署在GPUs上，Deep Speech的語音識別表現出了極高的訓練效率。目前，該系統語音識別准確率達到97%，且支持超過26萬億次的浮點運算，可在幾天內完成深度語言的集中訓練。2015年11月，Deep Speech2被美國權威雜志《麻省理工科技評論》列為2016年人類十大突破技術之一。

　　除了強大的技術研發能力，百度還積極推進語音技術的普及工作。無論是Carlife、還是度秘，乃至應用到搜索、地圖等領域的語音技術，都極大優化了產品體驗，並為人們的生活帶來了便利。除此之外，百度還通過自身的語音技術開放平台，將技術免費開放，通過SDK、API等不同的接入方式供企業及開發者使用，從而進一步刺激語音識別技術的創新應用與開發。其中，行業用戶包括小米、聯想、特斯拉、陌陌、康佳、SONY、惠普、海爾等。未來，隨著語音技術的不斷發展，語音接口會變得更為實用和有效，人們也將更為便捷地與身邊的設備進行自然的交流。