發展數據標注技術,把數據“原油”煉成“汽油”(新視點)
今年8月,國務院印發《關於深入實施“人工智能+”行動的意見》,其中提出“支持發展數據標注、數據合成等技術,培育壯大數據處理和數據服務產業”。
何為數據標注?簡單來說,就是給文本、語音、圖片、視頻等各式數據“打標簽”。在人工智能的快速發展中,數據被譽為“新石油”,而數據標注則是將數據“原油”煉成“汽油”的關鍵工藝。
“數據標注通過對數據特征提取、分類、注釋、標簽化等操作,將人類的知識和思維邏輯轉化為計算機可識別的語言,可為數據注入新價值,還可有效激活數據潛能,是人工智能高質量數據集建設的關鍵環節。”國家數據局數字科技和基礎設施建設司副司長李建國告訴記者,經過標注的高質量數據能有效提升垂類大模型的專業領域性能,加速人工智能賦能千行百業。
2024年12月,國家發展改革委、國家數據局等部門印發《關於促進數據標注產業高質量發展的實施意見》,提出“到2027年,數據標注產業專業化、智能化及科技創新能力顯著提升,產業規模大幅躍升,年均復合增長率超過20%”。據了解,國家數據局已指導安徽合肥、四川成都等7個城市建設數據標注基地,先行先試、探索經驗。截至今年上半年,7個數據標注基地建設數據集524個,服務大模型163個,帶動數據標注行業相關產值超過83億元。
在分子和藥物智能研發場景,對原子、電荷、化學鍵、靶點、活性等關鍵信息進行標記,人工智能才能更好賦能新藥研發﹔在工業質檢場景,對產品缺陷尺寸、位置、類型等信息進行標記,人工智能才能精准捕捉產品缺陷或異常……在人工智能大模型和相關政策驅動下,數據標注需求爆發式增長,相關企業也茁壯成長。“我們的主要業務是為人工智能場景化落地提供數據採集和標注服務。在人工智能產業帶動下,僅過去一年公司就承接了2000多項數據標注項目需求,預計今年業務量將增長超過30%。”標貝科技政企中心總經理欒永樂表示。
“數據標注產業鏈覆蓋上游數據提供方、中游平台公司、下游服務商。目前,我國已經初步形成產業鏈閉環,各地也在加速培育數據標注產業,產業集聚帶動作用日益凸顯。”李建國說,數據標注產業正呈現出新的發展趨勢。
技術迭代。智能化標注技術不斷取得突破,人機協同標注模式日益成熟。“企業通過人工智能對未標注的數據進行預標注,數據標注員更多承擔關鍵決策角色,通過實時糾正模型錯誤,並將改進反饋給算法,促進其自我優化。”欒永樂表示,這種模式不僅提高了標注效率,還保証了標注的准確性。
要求提升。隨著大模型的發展,高質量數據集的評判標准變得更加復雜。“比如醫療影像標注需要專業知識以識別病灶,自動駕駛領域離不開對道路場景的高精度標注。”中國信息通信研究院副院長魏亮說,數據標注產業逐漸從勞動密集型產業轉變為知識密集型產業,對從業者的專業要求越來越高。
對象拓展。被標注的數據從文本、圖像等單模態向多模態標注轉變,其領域也從通識領域逐漸擴展到醫療、工業制造等專識領域。
目前,數據標注產業還處於初期階段,需要各方群策群力,共同培育壯大數據標注產業生態。李建國表示,各地要加強政策落實和引導,與產業各界深度合作,搭建常態化供需對接服務平台﹔應用企業要以實際需求驅動數據標注能力體系建設,模型廠商等數據應用企業要結合自身技術路線與業務場景,與標注企業共同開展標注工具研發、流程優化工作,推動行業標准規范建設。
《 人民日報 》( 2025年10月15日 18 版)
分享讓更多人看到
- 評論
- 關注



































第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量