人民網
人民網>>科普中國

AI訓練師具體做什麼

譚雅麗
2025年04月30日07:46 | 來源:中國青年報
小字號

AI技術正在賦能千行百業,AI背后由哪些人工來訓練?2020年,AI訓練師作為新職業被納入國家職業分類大典。在國家職業技能標准中,AI訓練師是指使用智能訓練軟件,在人工智能產品實際使用過程中進行數據庫管理、算法參數設置、人機交互設計、性能測試跟蹤及其他輔助作業的人員。主要職責包括數據收集和預處理、模型開發和調試、算法研究和實驗、結果分析和報告撰寫、團隊合作和溝通等。5年來,這一職業早已突破“數據標注員”單一工種的刻板印象。一方面,不少年輕人涌入賽道,試圖抓住AI浪潮下的機遇。另一方面,基層標注員招聘難、高階人才短缺、技術迭代加速等問題還亟待解決。

中青報·中青網記者近日採訪鋼鐵、電力、醫療、大數據、互聯網等行業的AI訓練師和相關創業青年,揭秘AI背后的訓練“密碼”。

AI訓練師的職業范疇不斷擴大

“凡是其工作成果直接有助於AI模型訓練的,均可被視為AI訓練師。”中國科學院自動化研究所副研究員劉希龍認為,當下AI訓練師的職業范疇不斷擴大,有依賴於直觀判斷的數據標注師,有基於行業知識與經驗的模型訓練師,也有如算法工程師、數據專家的高階訓練師。

在AI火爆之下,不少年輕人轉行而來。去年年底,00后室內設計師戶曉迪就考慮轉行了,他在工作之余了解招聘要求、補足知識短板、不斷積累面試經驗,今年1月,他成為某頭部互聯網公司的AI訓練師。

戶曉迪發現,“在不同公司、不同項目裡,不同崗位的AI訓練師具體稱呼都不一樣”。他目前的工作內容是理解項目經理提出的需求,制定數據標注規則,對接並培訓數據標注團隊,使其理解並實踐標注規則,確保數據標注的質量和效率,最后將標注好的數據交付給算法團隊對大模型進行訓練。

為實現成為一名獨立游戲制作人的目標,95后張峰早有謀劃,從實習期學寫代碼、做新媒體運營、進入AI創業公司,到現在成為某頭部互聯網外包公司的數據標注員,都在他的計劃之中。

張峰本科期間學習生物材料功能專業,他坦言做數據標注員的主要目的是學習大廠先進的AI技術。入職近半年,通過公司內部的學習資源與技術分享,張峰不斷精進應用AI的能力,為了自己的遠期目標,一步步“練就”游戲開發的“秘笈”。

做好將AI技術引入到本行業的“搭橋人”

“以前如果想檢測肺癌等7種癌症,需抽7管血、挂7個科室的號、看7個不同科室的醫生,現在通過人工智能建模技術,抽一管血就能同時檢測。”博爾誠(北京)科技有限公司醫學多組學部門負責人杜寶臣介紹,他帶領的團隊正在嘗試訓練出更多類似的AI大模型。

做好將AI技術引入到本行業的“搭橋人”,用先進技術解決產業難題,越來越成為各行業中的AI訓練師亟需探索與深耕之域。

從上海交通大學電氣工程及其自動化專業畢業后,24歲的趙雨晴成為湖南鋼鐵集團旗下企業的一名AI訓練師。公司在為期4個月的入職培訓中派新人到4條軋鋼生產線。在一線,她看到工人作業的場景:剛出爐的鋼鐵產品重達幾噸到十幾噸、溫度高達1000多攝氏度,工人雖身著完備的防護裝備,依舊時刻面臨被燙被砸的危險。

除了生產線智能化改造的必要性,趙雨晴還看到了可能性——自動化改造是智能化改造的基礎,“現在鋼鐵行業的自動化程度已經非常高了,這樣就可以把數據提供給AI大模型”。

“鋼鐵行業生產流程復雜,AI技術的發展日新月異。如何識別鋼板缺陷種類、確定廢鋼等級,又如何用AI賦能這些工作……”這些都是趙雨晴無法繞開的難題。為了更了解項目情況,從項目前期的需求調研、方案設計到數據標注、模型訓練,再到模型落地后的修正,她幾乎參與了項目施行的全過程。

AI訓練師的存在遠早於該職業名稱出現的時間,在進入國家職業分類大典前,很多行業裡就已有AI訓練師。2016年起,藺金泉進入國網天津市電力公司城南供電分公司從事配電運維工作,他發現,“過去4年學的能用一輩子,現在卻頂不了一陣子”。他看到很多難以用傳統方法解決的痛點難點問題,所以從2019年起自學人工智能技術。

2024年,藺金泉參加全國職工職業技能大賽人工智能訓練師賽項並獲得第一名,現在與公司不同部門的同事一起探索如何讓更多的AI技術在一線場景落地。“我們只是將先進的AI技術引入到本行業的‘搭橋人’。”藺金泉意識到,產業工人的優勢不在於突破AI技術瓶頸,而在於找到AI技術在產業內的最佳實踐運用場景,“產業工人了解一線生產經營情況,具有豐富的實踐經驗和實操能力,可以讓AI為傳統行業提質增效,推動傳統行業轉型變革”。

“現在最難的還是招聘數據標注員”

兩年前,邢開瑞成立了雲南凱瑞智數人工智能科技有限公司,目前主要為自動駕駛汽車、醫療領域提供圖像識別、語音識別數據的標注和採集服務,已簽約多家人工智能研發企業。

創業兩年間,數據標注員流動性大,這直接影響著他挑選項目的標准:量級大、工期長、回款快。“總在招,總是缺。”他自認為招聘標准並不算高,工作內容也不算難:18-30歲,學歷、專業不限,會用電腦、肯學肯干、有責任心和耐心就可以,“通俗講數據標注員就是‘畫框’的”。

大模型認識世界的介質是數據——數據標注員通過標注物體形成的數據讓大模型認識應該認識的事物,部分數據標注員通常會用“框”來框定目標物的范圍。

邢開瑞介紹,前來面試的應聘者大多不了解數據標注員,“不會沒關系,只要願意學,我們就願意從頭教”。

“數據標注就和打游戲差不多,找准通關攻略做,打通關就可以了。”8個月前,這家公司的員工韓志偉完成階段性“通關”,成為數據標注員。隨著項目熟悉度、數據標注質量的提高,他晉級為質檢員,負責檢查標注員的數據質量。積累多個項目經驗后,22歲的他再次升級“段位”,以項目經理的身份帶領團隊落實項目。

韓志偉見識到另一種“加班文化”:老板讓下班,員工卻主動加班。數據標注員的基礎工資是3500元,達到基礎工作量后算作提成,計件工資沒有上限,願意多做就可以多賺錢,“有人在公司做到十一二點,有人忙完家務在家繼續做”。

韓志偉做的大多是自動駕駛汽車的項目,在路上看到項目品牌的汽車時,他心裡都暗暗自豪,“說不定它以后的行駛路線還是我標注的”。

今年,邢開瑞帶著員工從自己家的十幾平方米的老舊客廳搬到一棟新租的四層白色新樓裡。這個可容納200名數據標注員的空間裡現在有80多名年輕人。邢開瑞說,現在最難的還是招聘數據標注員。“沒辦法,總有人會離開,也總有人會來,知道這份工作的人太少了,我們只能不停地招。”(應受訪者要求,張峰為化名)

更多精彩內容,請下載科普中國客戶端。

返回人民網科普頻道

(責編:李慧博、孫娜)

分享讓更多人看到

返回頂部