以算力為基,算法為翼,中國國產大模型以提質增效——
錨定AI普惠“新坐標”

2024年12月15日,上海國家會展中心,青少年選手參加全球青少年人工智能競賽全球總決賽。張明偉攝(人民圖片)
2024年12月27日,在廣東省深圳市筆架山公園裡,小朋友和家長一起使用智能互動屏鍛煉身體。新華社記者 梁 旭攝
2024年12月10日,在江蘇省蘇州市國際博覽中心,觀眾在2024全球人工智能產品應用博覽會上體驗手寫翻譯系統。張從余攝(人民圖片)
2024年9月19日,在浙江省杭州市,參觀者在2024杭州雲棲大會上參觀了解相關的AI技術。龍 巍攝(人民圖片)
今年年初,在世界經濟論壇2025年年會開幕當天,一款由中國初創企業——杭州深度求索人工智能基礎技術研究有限公司(以下簡稱“DeepSeek”)發布的開源模型DeepSeek—R1驚艷了世界。
這一模型在技術上實現了重要突破——用純深度學習的方法讓AI(人工智能)自發涌現出推理能力。高性價比是該模型的優勢。據該公司介紹,DeepSeek—R1在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力,用較低的成本達到了接近於美國開放人工智能研究中心(OpenAI)開發的GPT—o1模型的性能。
不鳴則已,一鳴驚人。DeepSeek的成功,破解了全球人工智能產業長期以來對“堆算力”的路徑依賴,引發了人工智能領域的“一場地震”。業界人士認為,DeepSeek模型是“一座裡程碑”,有望激發一波創新浪潮,推動全球AI繼續進步。
近年來,以DeepSeek為代表中國國產大模型正在加快發展步伐。隨著產業鏈條的完善、使用場景的豐富、市場空間的打開和人才儲備的拓展,中國國產大模型正在形成從技術到應用,再從應用反哺技術創新的完整閉環。以算力為基,算法為翼,如今,中國國產大模型正通過提質增效的方式錨定AI普惠“新坐標”。
創新:
“小力創造奇跡”
作為一家專注通用人工智能(AGI)的中國科技公司,DeepSeek主攻大模型研發與應用。DeepSeek—R1是其開源的推理模型,擅長處理復雜任務且可免費商用。
DeepSeek—R1模型能做什麼呢?
它可以直接面向用戶或者支持開發者,提供智能對話、文本生成、語義理解、計算推理、代碼生成補全等應用場景。DeepSeek—R1支持聯網搜索與深度思考模式,同時支持文件上傳,能夠掃描讀取各類文件及圖片中的文字內容。
如果用一句話總結DeepSeek—R1的技術特點,那便是“小力創造奇跡”。
DeepSeek模型既具備基礎模型的廣泛適應性,又以推理模型的精准性重塑行業標准。DeepSeek的API(軟件系統間交互的標准化接口,允許開發者調用其他系統功能而無需理解內部實現細節)價格遠低於海外頭部大模型,其低成本策略推動了AI技術從“奢侈品”向“日用品”轉型。
2024年12月底,DeepSeek發布V3模型,其性能與海外頭部大模型相近,但訓練成本極低,整個訓練在2048塊英偉達H800 GPU(圖形處理器)集群上完成,訓練成本550多萬美元。相比之下,訓練GPT—4o等模型,至少要使用上萬塊性能更為優越的H100 GPU,訓練成本達到約1億美元。DeepSeek這個土生土長的中國大模型用自己的成功証明:AI大模型的比拼或許並不隻靠規模,更重要的是看實際效果。有句話形象地概括出DeepSeek的優勢:“不是GPT用不起,而是DeepSeek更有性價比。”
更為引人關注的是,DeepSeek在架構效率上的提升幅度。通過算法創新,如GRPO(一種專為優化大型語言模型設計的強化學習算法)優化策略,DeepSeek打破了大模型訓練的“算力依賴”。相比海外頭部大模型,DeepSeek採用混合專家模型,可將任務拆分給多個專用子模塊處理,資源利用率更高,大幅降低了大模型訓練所需的算力要求。
與海外大模型相比,DeepSeek訓練數據以漢語為主,對復雜的漢語詞匯和語境處理更為精准,使其文字輸出更為流暢自然,符合漢語環境。同時,它的邏輯推導過程透明,並支持針對特定場景的深度優化。
不同於先發者的閉源式“護城堡壘”,DeepSeek贏得贊譽的還有它的開源路線。DeepSeek將代碼、模型權重和訓練日志全部公開,降低了中小企業部署AI的門檻,這一舉動不僅需要格局,更需要勇氣與實力。
“在顛覆性技術面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。”DeepSeek創始人梁文鋒這樣解釋選擇開源的原因,“開源、發論文,其實並不會失去什麼。對於技術人員來說,被follow(追隨模仿)是很有成就感的事。”
英國《金融時報》對此評論稱,開源模型DeepSeek—R1對全球用戶產生極大吸引力,有利於推動人工智能技術的開發和應用。文章說,對於大多數商業用戶來說,擁有一款足夠可靠並且好用的模型比擁有絕對領先的模型更重要。“並不是每個司機都需要一輛法拉利。像R1這樣模型的推理能力進步,可能會為與客戶互動或處理工作任務的‘智能體’帶來突破性變化”“如果能以更低的成本擁有這些模型,企業的盈利能力將提升”。美國雲軟件企業賽富時公司的人工智能可持續發展主管鮑裡斯·加馬扎伊奇科夫認為,DeepSeek推動了人工智能降低能耗的步伐。“它是開源的,其用戶不必預先訓練一個類似大小的模型,而是可以從已有模型開始(研發),這樣可以節省大量能源。對全世界來說,這是一件非常好的事情,我希望看到更多像這樣的開源創新。”
開源生態裡,每一行代碼都是創新的火種﹔協同創新中,每一個企業都是生態的支點。近日,全球知名開源平台抱抱臉公司等多個團隊已宣布復現了DeepSeek—R1的訓練過程。
通過底層架構創新降低AGI成本,同時以開源策略構建生態護城河,DeepSeek提供了中小型機構突破算力限制的可行路徑。
“DeepSeek出圈,很好地証明了我們的競爭優勢:通過有限資源的極致高效利用,實現以少勝多。中國與美國在AI領域的差距正在縮小。”面壁智能首席科學家劉知遠說。
使命:
“探索未知之境”
一直以來,驅動DeepSeek的目標並非利潤而是使命。正如其公司之名深度求索,“探索未至之境”既是這幫中國本土年輕科技工作者的願景,也是他們雄心。
“中國也要逐步成為貢獻者。”梁文鋒說,“我們已經習慣摩爾定律從天而降,躺在家裡18個月就會出來更好的硬件和軟件,Scaling Law(規模定律)也在被如此對待。但其實,這是西方主導的技術社區一代代孜孜不倦創造出來的,隻因為之前我們沒有參與這個過程,以至於忽視了它的存在。很多國產芯片發展不起來,也是因為缺乏配套的技術社區,隻有第二手消息,中國必然需要有人站到技術的前沿。”
“我們創新缺少的不是資本,而是信心,以及組織高密度人才的能力。”梁文鋒說。
從技術到願景,DeepSeek堅定選擇的始終是一條難且正確的路。這也是為什麼,即便別國在人工智能領域已坐享先發優勢,后發者依然有機會憑借技術創新、成本優化打破大模型競爭的傳統邏輯,打破人工智能行業競爭格局,打破“他國更擅長從0到1的原始創新,而中國更擅長從1到10的應用創新”的成見,重塑競爭優勢的奧秘。
隨著AI浪潮的襲來,中國科技工作者一直在追夢。“追”不僅僅是“跟”,目的在“超”。不僅是DeepSeek的科研團隊,還有更多的科技工作者推動原始創新和顛覆性創新,腳踏實地潛心研究關鍵核心技術,以科技創新鍛造新質生產力。
1月15日,科大訊飛發布了當前全國產算力平台上唯一的深度推理大模型——訊飛星火X1。該模型中文數學能力國內第一,並率先應用於教育、醫療等剛需場景。發布會上,科大訊飛研究院的研究員們依次展示了訊飛星火X1解答高考題以及高中奧賽題的表現。訊飛星火X1不僅准確給出了這些題目的答案,還對解題思路和步驟進行了詳細拆解。與通用大模型相比,其解題過程更接近人類的“慢思考”方式。
“一直以來,訊飛星火堅持走全國產化路線。”科大訊飛相關負責人對記者說,“盡管在全國產算力平台上訓練深度推理模型遭遇了諸多挑戰,但科大訊飛攜手華為,成功攻克了訓練推理強交互、高吞吐推理優化以及國產算子優化等一系列難題。”
其他中國公司在其大模型性能方面也取得巨大進步。2024年底,阿裡巴巴和騰訊投資的創業公司月之暗面表示,自己開發了一個專門研究數學的模型,性能接近海外頭部大模型。月之暗面創始人楊植麟說:“公司專注於強化學習,也就是模仿人類的試錯過程。這種方法或許能夠在提升模型性能的同時不需要那麼多的算力。”
2024年12月,字節跳動的豆包系列多款大模型選擇在上海首發,涉及視覺理解、3D生成等領域。“豆包視覺理解模型能精准識別視覺內容,且具備出色的理解和推理能力,可根據圖像信息進行復雜的邏輯計算,完成分析圖表、處理代碼、解答學科問題等任務。”火山引擎總裁譚待說。首次亮相的還有豆包3D生成模型。如同一套支持AIGC(人工智能生成內容)創作的物理世界仿真模擬器,該模型與雲服務平台火山引擎的數字孿生平台結合使用,可以完成智能訓練、數據合成和數字資產制作。
近年來,中國AI技術人才的創業信心也在不斷提高。國家互聯網信息辦公室近期發布的信息顯示,截至2024年12月31日,共有302款生成式人工智能服務在國家網信辦完成備案,其中2024年新增238款備案。
根據《2024年度人才遷徙報告》,AI相關崗位需求在2024年激增,算法工程師、大模型算法等職位位列熱招榜前20。技術崗位平均月薪前十名中,大模型相關崗位佔據半數。
“熱愛、扎實的基礎能力,是我們招人的標准。”梁文鋒說,自己在招聘時會挑選並培養幾乎沒什麼工作經驗的中國頂尖大學應屆畢業生,“創新需要信心,而年輕人往往更有信心。”
應用:
“全家齊玩AI”
近日,廣東省深圳市龍崗區在區政務外網成功部署上線了DeepSeek—R1全尺寸模型(含6710億參數),並於2月11日在龍崗區“龍i企”企業服務小程序正式上線DeepSeek AI助手功能,為企業提供更加智能、便捷的政務辦理、在線咨詢、政策解讀等高效智能政務服務。
據悉,“龍i企”接入DeepSeek AI助手功能后,依托海量的政府政策資訊以及政務辦理信息,運用先進的自然語言處理和機器學習技術,為企業用戶打造了全方位、智能化的服務體系。企業用戶隻需登錄“龍i企”小程序端,在首頁點擊“龍i企AI助手”,即可便捷體驗各類貼心的企業服務。
“AI+”政務服務,是人工智能賦能千行百業的一個縮影。對大模型而言,訓練成本每降1個百分點,產業應用便能擁有更多可能。
今年以來,大眾的AI參與感、討論度、情緒值一齊攀升,“全家老少一起玩AI”成為潮流。百度方言語音搜索的日均調用量中,河南、四川等地下沉用戶佔比越發凸顯,文旅智能體在縣域旅游的使用率也在上升。而就在去年此時,引發AI熱潮的還是尚未出圈的Sora(海外文生視頻模型),隻在從業者小圈子裡引發了熱議。
截至2024年11月,百度文心大模型的日均調用量超15億次,較2023年增長約30倍。截至2024年12月,豆包通用模型日均tokens(將文本分割為一個個有意義的片段)使用量超4萬億,較7個月前首發時增長33倍。截至2025年1月,百度文庫AI功能月活用戶突破9000萬,同比增長230%。2025年2月,DeepSeek登頂全球140個國家及地區的應用市場,DeepSeek的日活躍用戶數突破3000萬大關……一根根陡峭的增長曲線中,我們可以看見大模型的“真需求”。
DeepSeek的持續破圈,“點燃”了中國AI產業鏈。雲服務廠商、互聯網平台企業紛紛接入,AI應用等產業鏈企業競相使用。
不少產業鏈中上游企業爭相“搶灘”DeepSeek。此前,騰訊雲、阿裡雲、百度智能雲、火山引擎等國內雲計算企業已宣布對DeepSeek的支持。十余家國產AI芯片企業也相繼宣布,適配或上架DeepSeek模型服務。
與此同時,包括汽車、金融、智能硬件等不少產業鏈下游企業,也持續展開對DeepSeek系列模型的應用探索。隨著需求與場景的不斷滿足,更多搭載輕量化AI模型的創新型智能硬件密集涌現。
其中,PC外設硬件的接軌速度較快,如部分“AI鼠標”“AI鍵盤”,可一鍵拉起其提供的AI問答頁面,其中包含基於DeepSeek-R1的深度思考選項。AI PC、AI手機同樣是這次DeepSeek浪潮的受益者,如聯想、華為等品牌,已在其AI智能體中接入了DeepSeek,提供“開箱即用”的AI功能。
眼下,DeepSeek掀起的熱潮還在持續,“朋友圈”加速擴容,進一步激活人工智能產業鏈上下游。目前,中國移動、中國聯通、中國電信等三大運營商均宣布接入DeepSeek模型。與此同時,北京寶蘭德軟件股份有限公司等公司宣布接入文心一言大模型、上海風語筑文化科技股份有限公司等公司宣布接入豆包大模型。
“面向未來,人工智能有三大主戰場:人工智能科學化、計算系統智能化、應用領域廣譜化。一個影響深遠的智能時代,正在向我們走來。”劉知遠說。
分享讓更多人看到
- 評論
- 關注