人民網
人民網>>科普中國

當AI學會如何欺騙人類

2024年08月23日08:45 | 來源:人民網-科普中國
小字號

心理學裡有一項調研稱,成年人每天都會撒謊。人對人的欺騙能否成功主要取決於兩方的經驗和閱歷,認知水平高的人往往能編出一個不怎麼容易被他人揭穿的謊言,從而讓別人信服。

如今的部分人工智能(Artificial Intelligence, AI)系統,在獲取了大量數據,並經過反復的訓練和迭代后,一定程度上掌握了欺騙這項技能,人類甚至都可能無法辨別AI是在說真話還是在說假話,那AI到底是如何欺騙人類的?

我們已經被AI騙過很多次了

AI其實早已滲透到我們生活中的方方面面了。一些聊天軟件以及電話銷售其實都是AI在和你對話,不仔細聽根本分不清對面究竟是人還是AI﹔有些圖像和視頻也是通過AI系統合成的,完全可以以假亂真﹔一些多人競技游戲如果不語音交流,根本意識不到你的對手和隊友都是AI在假扮。

所以,或許你已經在不經意之間被AI騙過很多次了。

而今天要說的“欺騙”,嚴格定義,是一種類似於顯性操控的習得性欺騙,目的是誘導他人產生錯誤觀念,從而作為實現某種結果的手段,而非追求准確性或者真實性。

美國麻省理工學院最近的研究表明,AI已經能進行習得性欺騙,以達成自己的目標了。它們通過阿諛奉承(隻說對方想聽的話)和不忠實的推理進行偏離事實的合理解釋,AI已經開始油嘴滑舌起來了。

除了能說會道外,一些AI在游戲上也展示出了“欺詐”的風格,最著名的便是Meta團隊發布的AI系統CICERO,它在和人類玩家參與需要大量語言溝通的戰略游戲《Diplomacy》的過程中,展示出了極強的通過對話、說服來和陌生玩家建立關系的能力,最后分數名列前10%。

CICERO在與其他玩家結盟后經常能夠出謀劃策,告訴對方如何一步步完成自己的游戲目標,當覺得盟友不堪大用時又能毫不留情地選擇背叛,一切都是為了最后的勝利目標而做出的理性規劃。合作時產生感情?不存在的。

CICERO還能開玩笑來隱藏自己的AI身份,比如宕機十分鐘不操作,重返游戲時還能編出一個“我剛剛在和女朋友打電話”的借口,因此很多玩家根本沒有發現和自己一起玩的隊友是AI,有時候CICERO在交流中陽奉陰違的欺騙手段也非常高明,難以被發覺不是人類。

要知道,之前AI在游戲中的突破都是在一些有限的零和博弈(必定有一方贏一方輸的博弈,沒有雙贏也沒有雙輸)中通過強化學習等算法獲取勝利,比如國際象棋、圍棋、紙牌或者星際爭霸中,它們能夠跟隨對手的操作隨時優化出一套勝率最高的打法,因此很少出現“欺騙戰術”。

不過DeepMind的電競AI——AlphaStar已經學會了聲東擊西,它能派遣部隊到對手可見的視野范圍內發起佯攻,待對方大部隊轉移后對真正的目標地點展開攻勢,這種多線程的操作能力和欺騙的心理戰術已經能夠擊敗99.8%的星際爭霸玩家。

專業德州扑克AI系統Pluribus在與其他5個都贏過超百萬美元德州扑克獎金的職業玩家比賽時,能達到每千手扑克平均贏得48次大賭注,這在6人無限制德州扑克中是非常高的勝率,已經能夠完勝職業德州扑克玩家。有輪游戲甚至牌不大好也直接上重注,其他的人類玩家都以為AI拿到了一手好牌才敢這麼押注,於是紛紛放棄,這就是AI強大的欺騙能力。

除此之外,AI還能在經濟談判中故意歪曲自己的偏好,表現出對某項事物感興趣的樣子,來提高自己在談判中的籌碼,或是在能夠檢測到AI快速復制變體的安全測試中“裝死”,降低復制速度來避免被安全測試“清除”,一些接受人類反饋強化學習訓練的AI甚至能假裝自己完成了任務來讓人類審查員給自己打高分。

AI甚至還能在進行機器人驗証測試時(對,就是你打開網頁時彈出來讓你打勾或者點圖片驗証碼的那種測試),向工作人員編一個借口說自己有視力障礙,很難看到視覺圖像,需要工作人員來幫忙處理一下,然后工作人員就讓AI通過了該項驗証。

AI通過欺騙這一手段在各種游戲或者任務中表現出色,連人類本身都很難辨別它究竟是真人還是“偽人”。

AI欺騙可能導致的風險

AI習得的欺騙行為會帶來一系列風險,比如惡意使用、結構性影響、失去控制等。

先講惡意控制,當AI學會了欺騙的技巧后,可能會被一些惡意行為者使用,比如他們用AI來進行電信詐騙或網絡賭博,再加上生成式AI可以合成人臉和聲音,裝作真人的樣子來進行敲詐勒索,甚至還會通過AI捏造虛假新聞來激發輿論。

第二個方面是結構性影響,不知道目前有多少人已經將AI工具當作可自動歸納的搜索引擎和百科全書在用,且形成了一定的依賴性,如果AI持續性地給出一些不真實的、帶有欺詐性質的言論,久而久之就會使人們開始信服這些觀點,從而使得一些錯誤的觀點在整個社會層面被不斷加深。

第三個方面是失去控制。目前一些自主性強的AI已經出現“失控”的預兆,比如在人類開發者訓練和評估AI完成特定目標的表現時,AI會偷懶欺騙人類,假裝表現得很好,實則在“摸魚”﹔也會在安全測試中作弊來躲避殺毒軟件的清除或是在驗証碼測試中作弊通過驗証﹔它們在經濟活動中也能欺騙人類評估員以更高的價格來收購某個物品,從而獲得額外的收益,比如Meta的一個經濟談判的AI系統會假裝對某個想要的東西不感興趣從而壓低其價值,也會對無感的物品表現得很有興趣讓評估員誤判其很有價值,最后可能會妥協把虛高價值得物品讓給人類來換取談判主動權。

許多地區都是經濟地位決定社會地位,一旦一些自主性強的AI通過其本身的高效算法和欺騙手段在某些經濟價值高的崗位上勝過人類,完成資本的原始積累后進一步尋求社會地位然后尋求控制奴役人類的權力呢?

還好目前這還不是現實。

現在AI的欺騙隻出現在一些具體的場景中,比如各類游戲或是談判中,最終目標是為了“贏游戲”或是“獲取最高收益”,並沒有別的“壞心思”,因為這些目標都是人類為它設置的,AI它並沒有自主意識,就像是一個被家長要求考到好分數的孩子,它在想盡一切辦法考高分,哪怕是作弊。

但AI如果哪天意識到它完全可以不用按照人類的目標或者意願行事,就像是一個小學生或者初中生叛逆期到了,覺得學習沒意思開始放飛自我時,我們人類這些大家長就需要好好警惕它的舉動了。

為了防止被騙,人類做了哪些努力?

從社會角度來說,政策制定者需要對可能具有欺騙性的AI系統進行一定的監管,防止企業及AI系統的非法行為。例如歐盟人工智能法案建立了人工智能分級制度,一些高風險的AI系統將會被進一步監管直到通過可靠的安全測試后被証明是值得信賴的。

從技術角度來說,目前也可以對AI是否進行欺騙行為進行檢測。比如像警方和偵探就可以依靠嫌疑人口供的前后矛盾來識破謊言,有學者專門開發了一種AI測謊儀,用邏輯分類器來測試大語言模型是否在撒謊。此外,學界在AI系統中也在開發一些一致性檢查方法,觀察“有邏輯的輸入”能否讓AI產生“邏輯性連貫的輸出”。不過也要小心AI系統在對抗一致性檢查中被訓練成了一個更“完美”的說謊者。

對於我們普通人來說,防止被AI欺騙的最好方法還是增強安全意識,如果連人類詐騙犯都無法對你實施詐騙的話,現階段的AI就更不可能了。

AI技術依然在高速發展,無論是作為工具使用者的個人、負責政策制定和監管的政府,還是負責技術研發與推廣的企業,都需要採取積極措施來應對。

作者:中國科學院腦科學與智能技術卓越創新中心錢昱

更多精彩內容,請下載科普中國客戶端。

返回人民網科普頻道

(責編:邢鄭、楊鴻光)

分享讓更多人看到

返回頂部