是誰把搜索引擎變得更聰明?

2016年10月28日10:02  來源:科技日報
 
原標題:是誰把搜索引擎變得更聰明?

  項目團隊就應用成果進行深入討論(圖片來源:科技日報)

  辦公桌、地鐵上、茶余飯后、工作間隙……無論是電腦還是手機,搜索讓我們從海量的信息中,快速找到自己所需要的信息。

  在互聯網時代,搜索是我們幾乎每天都要用到的工具之一。隨著網絡數據的爆炸性增長,搜索引擎已經成為信息化社會不可或缺的基礎互聯網應用。

  正如2014年圖靈獎獲得者Vinton Cerf指出,搜索引擎已經成為人類記憶的延伸。這充分說明了搜索已經在人類的認知過程中發揮了重要的作用。

  互聯網搜索技術看似簡單實則復雜。它就像一個橋梁,一邊連接著海量規模的數據,一邊連接著高度復雜的用戶信息需求,而如何正確合理地實現兩者的匹配則面臨著一系列的挑戰,尤其是如何避免經常出現“答非所問”的情況。

  對此,清華大學與搜狗公司建立了“清華—搜狗技術聯合實驗室”,在技術和產業層面密切配合,嘗試解決相應難題。在國家自然科學基金、863計劃項目和智能與系統國家重點實驗室的支持下,課題組從互聯網搜索用戶的群體交互規律和個體認知過程兩方面著手,在宏觀和微觀兩個方面對網絡用戶行為中蘊含的豐富反饋信息進行挖掘,利用用戶群體智慧解決搜索引擎面臨的挑戰性技術問題。

  經過八年研發實踐,課題組在三大方面取得顯著成果:從用戶看似無序的點擊行為中,挖掘規律,改進搜索引擎查詢理解的性能﹔借助用戶瀏覽行為模式的差異,監測網頁質量,讓垃圾和非法信息無處遁形﹔通過認知心理實驗建立用戶行為模型,改進搜索引擎結果排序的性能。

  值得一提的是,團隊成果不僅促進了搜索引擎技術相關領域的創新發展,為全球相關領域科研工作提供了更好的研究平台,更將技術實際應用於搜狗公司產品中讓用戶獲益,帶來了良好的經濟效益和社會效益。據統計,2012年—2014年3年期間搜狗實現總營收約47億,其中,在此項目技術推動下獲得的收入約15億。在2015年度北京市科學技術獎勵評審中,該項目榮獲一等獎。

  搜索引擎面臨多項挑戰

  對於用戶而言,搜索引擎的界面非常的簡單,隻需要一個簡單的輸入框,當用戶輸入查詢詞之后,搜索引擎就會迅速給出搜索結果。搜索引擎就像一個“百科全書”,回答著用戶的“十萬個為什麼”。這一看似簡單的過程,從搜索引擎的角度卻並沒有那麼簡單。

  盡管搜索引擎在應用層面已經取得了很大的成功,但搜索技術發展中仍然面臨著巨大的技術挑戰:一方面,網絡空間數據資源的規模龐大而內容繁雜,目前中文網頁的規模已經達到數千億的規模。CNNIC的數據顯示:中文網頁數量達到1900億。但其中的低質量網頁、垃圾信息乃至非法內容為數不少。另一方面,搜索用戶信息需求的內容復雜而表述模糊,搜索引擎每日需要處理數以億計的用戶查詢,但這些查詢的平均長度僅有6個字左右。

  “這些技術挑戰互相交織,從本質上說是用戶個體有限的認知能力與擁有近乎無限資源的網絡空間之間的不匹配問題。”課題負責人之一、清華大學計算機系副教授劉奕群告訴記者,如何才能讓搜索引擎從“百科全書”進化到“先知”,從“有問必答”到“有答必准”是課題組持續要解決的問題。

  基於此,計算機科學提出採用群體智能(Wisdom of Crowds)方法來應對這類技術挑戰。

  據了解,群體智能方法,就是利用用戶群體決策,協助解決在認知與信息處理方面用傳統計算方法難以直接完成的任務。

  “計算方法在處理問題時具有存儲、處理效率較高的優勢,但是其應對認知、推理任務的能力有限。而人類個體具有較強的認知、推理能力,但是反饋效率較低、質量也不甚穩定。”劉奕群介紹說,“群體智能很大程度上結合了兩者之間的優勢,借助搜索引擎記錄的規模龐大的匿名用戶群體行為信息,就可以從中挖掘提煉出群體智能,協助其解決面臨的各種挑戰性問題。”

  讓搜索引擎不再“答非所問”

  對於搜索引擎而言,最嚴重的問題就是“答非所問”。可是,“巧婦難為無米之炊”,如果用戶提出的關鍵詞不明晰,搜索引擎也就很難准確地給出想要的搜索結果了。

  劉奕群告訴記者:“主流中文商業搜索引擎每日處理查詢達到數億次,而中文用戶平均查詢長度隻有6個字,很難避免查詢意圖歧義模糊的情況。”

  顯然,作為一個工具,搜索引擎隻能依靠“自我進化”,隻有准確地了解用戶到底想要什麼,才能更好地為人類服務。

  課題組面對搜索引擎用戶需求理解方面的技術挑戰,提出了基於用戶查詢行為結構圖挖掘的查詢推薦和信息需求分類算法,在簡短的搜索詞中精准理解用戶的需求,以此來提供給用戶互聯網信息。

  該算法提升了搜索引擎對於長尾查詢和歧義查詢的處理性能,提高了網絡信息獲取效率。將上述研究成果應用於搜狗搜索引擎的查詢推薦系統改進,取得了明顯的效果提升,在近萬個用戶查詢組成的測試集合上的應用效果顯示,相應查詢推薦結果的點擊通過率提升了39.5%,明顯改進了現有查詢推薦算法的效果。

  研究成果被來自微軟研究院等機構的國際同行在論文中稱為“Top achiever techniques”(頂尖技術),“the most effective”(最為有效)。

  該算法即使與國外搜索引擎相比,也毫不遜色。基於該算法的用戶需求挖掘系統在國際著名的NTCIR評測中連續兩屆獲得多項任務第一名。

  “火眼金睛”輕鬆識別垃圾網頁

  網絡信息資源在擁有巨大數據量的同時,也包含了大量的垃圾頁面甚至是惡意的欺詐頁面。尤其是如今提升搜索結果中的排名已經成為一些商家獲取用戶關注的最有效途徑之一。這也造成了大量網頁作者企圖採用非正當手段提高其網頁在搜索排序中的排名,以獲得更高的經濟收益或用戶關注。

  搜索引擎要有一雙“火眼金睛”,能將這些垃圾和惡意頁面甄別出來,並在搜索結果中過濾。

  然而,“道高一尺、魔高一丈”,垃圾和惡意網頁的制造者為了躲避搜索引擎反垃圾技術的打擊,經常變換作弊形式,因此垃圾制造者和反垃圾模塊之間一直展開著一場進攻與反進攻的膠著戰。

  有沒有一種包打天下的反作弊方法呢?如何能夠以不變應萬變呢?類似問題一直困擾項目研發團隊。通過對搜索數據、用戶行為的不斷解讀與挖掘,他們發現用戶在遇到垃圾頁面時會產生和正常頁面不一樣的行為,例如快速關閉頁面、減少與垃圾網頁的交互等。

  “當你看到垃圾網頁時,人們都會迅速關閉,注意力也會從當前網頁迅速偏移,用戶群體表現出來的異常的用戶行為能夠較為准確反映出頁面的異常。”劉奕群說。

  近年的研究成果也表明,用戶的視覺注視行為和認知理解過程並非同時完成。課題組國內最早提出將認知心理普遍認可的“選擇性注意理論”融合到網絡信息獲取的應用場景。

  課題組提出了採用收集成本更加低廉的鼠標移動行為代替眼動注視信息進行檢驗概率預測的學習方法,從而首次將鼠標移動信息應用於點擊模型和搜索結果排序算法中,在點擊預測和搜索結果相關性預測方面取得了顯著的提升。

  團隊順著這個思路通過群體用戶行為模式挖掘開發出一套通用的反垃圾方法應對日益變化的作弊手段。同時還利用這種思想改進Google 著名的PageRank算法,在原算法的用戶隨機選擇超鏈點擊的假設下,加入用戶的選擇偏置,從而提升頁面權威度的計算方法,既提升了垃圾頁面的識別率和精度,也挖掘出大量的高質量頁面。

  “該算法在搜狗搜索引擎得到直接應用,將其搜索性能大大提升。”劉奕群說。

  “兩棲實驗室”打通產學研

  “這個項目成果的取得很大程度上正是獲益於校企合作模式。”劉奕群坦言,“大規模數據的處理項目,單純依靠高校是很難完成的。一方面在計算和存儲資源上有限,最重要的是高校很難收集到大量用戶的真實行為數據。”

  而對於搜狗公司來說,清華在互聯網技術的領先實力和研發力量讓他們十分看重。

  據劉奕群介紹,清華大學計算機系與搜狗公司的成功合作,首先得益於雙方對此項目重視程度非常高﹔其次,經過策略和具體合作方式層面的深入討論,雙方建立了兩棲創新生態系統合作機制,這是雙方最終得以長期合作並取得極佳成果的關鍵。

  兩棲創新生態系統下技術分工十分清晰,研究者追求卓越、立足於技術創新和解決問題,而企業則洞察市場和用戶需求,提出問題並將技術解決方案進行市場化應用實踐。

  清華大學為聯合實驗室提供前沿技術,如基礎算法和模型,涉及引擎結果排序、搜索性能評價、垃圾網頁識別、查詢糾錯、用戶行為分析、網頁質量評估等。這些前沿技術在聯合實驗室進行測試,檢驗和提高算法的正確性和可靠性,再通過公司技術系統檢測,最后融入到搜狗產品之中。

  搜狗方面不僅為聯合實驗室的技術前期開發提供了研究經費,還在清華和搜狗的辦公樓之間鋪設了一條光纜,長期提供反映互聯網實際情況的海量數據。

  “這些數據對提高研究質量具有重要的推動作用。”劉奕群說,“因為信息檢索研究很大程度上是實驗科學,使用海量數據比使用構造的小量數據更能檢驗各種算法的實用性、准確性和可靠性。”

  在社會效益和經濟效益方面,團隊的成果也十分卓著。相關技術成功應用於北京市工商行政管理局電子商務監管系統和北京市食品藥品監督管理局食品藥品互聯網監測系統,取得了可觀的經濟效益和顯著的社會效益。

  該項目為首都發展高科技產業提供了產學研結合的良好案例,實現了從基礎理論研究—關鍵技術突破—產品系統研制—應用示范與推廣的無縫產業銜接,探索了科技創新與實際應用相互促進的有效機制。(記者 申明)

(責編:劉麗娜(實習生)、張希)

推薦閱讀

航天科技集團董事長:2025年左右建成航天強國國防部第五研究院的成立,標志著中國航天事業正式誕生。經過60年發展,中國航天從無到有、從小到大,目前已經是名副其實的航天大國,並正在向建設航天強國的目標闊步前行。在中國航天事業創建60年紀念日前夕,人民網記者專訪了中國航天科技集團公司董事長、黨組書記雷凡培。【詳細】

2016年9月“科學”流言榜:無籽葡萄抹了避孕藥9月“科學”流言榜今天發布,無籽葡萄抹了避孕藥、地鐵安檢后的食品不能吃等十條“科學流言”入榜。流言:時下正值吃葡萄的時節,但近日一段視頻在微博、微信上大量傳播,讓不少人“望葡萄卻步”。視頻中,一位“果農”模樣的男子一邊搬運葡萄,一邊和拍攝者對話,稱無籽葡萄是“蘸了避孕藥的”。真相:避孕藥隻有在進入人體后才能被人的響應識別機制所識別……【詳細】