人民網
人民網>>科普中國

靈寶機器人團隊在具身智能新賽道上不斷突破

讓機器人“心靈手巧”(科技視點·一線探創新)

本報記者 谷業凱
2025年07月28日07:51 | 來源:人民網-人民日報
小字號

  圖①:靈寶機器人具身算法工程師王思成在演示機器人抓取物體。
  圖②:靈寶機器人模仿學習算法工程師孫建涌在調試機器人夾爪。
  圖③:靈寶機器人具身操作中心負責人周明才對人形機器人進行調試。
  以上圖片均為北京中科慧靈機器人技術有限公司提供

  習近平總書記強調,“推進中國式現代化,科學技術要打頭陣,科技創新是必由之路”“在激烈的國際競爭中,我們要開辟發展新領域新賽道、塑造發展新動能新優勢,從根本上說,還是要依靠科技創新”。

  在高校院所、企業車間,一線科研人員瞄准科技前沿,潛心研究、創新攻關,為加快建設科技強國,實現高水平科技自立自強持續奮斗。本版今起推出“一線探創新”系列報道,通過記者在科研一線的親身體驗和近距離觀察,一起來感受和了解創新成果的孕育過程。

  ——編  者  

  

  機器人拿起咖啡杯、穿針引線,甚至彈奏鋼琴,都屬於具身操作,背后有一套軟硬件系統支撐。作為具身智能的關鍵技術之一,具身大腦的目標是讓機器人“心靈手巧”,從而與外界實現互動。

  如今,這項賦予機器人“靈動感”的技術,正進入關鍵突破與激烈競逐階段。北京海澱東升科技園裡,北京中科慧靈機器人技術有限公司(以下簡稱“靈寶機器人”)的“極客”們正在這一新賽道上奮力奔跑、不斷突破。

  讓機器人通過“模仿學習”掌握技能

  靈寶機器人的研發現場既像不太“規范”的實驗室,也像不那麼“標准化”的生產車間。頂棚上的軌道縱橫交錯,各種操作台遍布其中。記者行走其間,經常要側身、抬腳,設備多到容納不下一條固定的步行“動線”。

  靈寶機器人成立於2023年,由中國科學院自動化研究所研究員張正濤創辦,專注研發面向場景落地的通用人形機器人和具身智能產品。具身操作是靈寶機器人的技術專長之一,他們研發的具身智能機器人可以用0.3毫米的螺絲刀完成筆記本電腦主板裝配,精度甚至能達到頭發絲的1/5。

  像人類的雙手一樣,具身操作需要兼具感知和操作能力。視覺語言動作模型(VLA)是實現這兩項能力的重要途徑——通過融合視覺感知、語言理解與動作控制來打造“端到端”決策系統,並開展“泛化學習”,就像一個動作版的大語言模型。

  在研發現場,記者看到,靈寶機器人具身算法工程師王思成正在使用視覺語言動作模型和一台末端執行器為二指夾爪的機器人,來模擬訓練抓取動作。

  抓取是人手最基本的動作之一。操作台上放著一個盤子,裡面盛放的是網球、香蕉和獼猴桃。“抓取網球。”王思成先在電腦裡敲上幾行代碼,再起身來到機器人前念出一段語音指令。

  看似有些笨拙的訓練過程,卻有極高的技術目標。“傳統的機器人抓取,要先檢測目標,再算出空間坐標,最后完成動作,操作流程是相對固定的。”王思成解釋,“而我們知道,人類在抓取物體的時候可不是這樣操作的,我們既不會‘檢測’,也不會計算空間坐標,而是利用直覺和反饋產生動作,我們正是要讓機器人具備這樣的能力。”

  不需要設置固定的算法流程,隻需輸入視覺圖像,讓機器人學習視覺圖像中哪些要素跟操作相關。簡單演示幾遍,它就可以模仿、學習人類的抓取動作。“我們讓機器人通過‘模仿學習’掌握技能。”王思成說。

  目前,算法還沒那麼先進,還需要收集大量數據才能讓機器人熟練地抓取。“肯定比人要笨一些,難點就在於怎樣用盡可能少的數據,讓它學會更多技能。”王思成說,“拿抓取來說,使用一般的開源模型要採集三四十條數據才能學會,我們不斷改進算法,現在5到10條數據就能學會了。”

  同樣是抓取,對人類來說,抓不同物體,動作、力度也會有細微差別。在王思成他們的努力下,這種細微差別也能在機器人的二指夾爪上實現。“這是自適應力控夾爪,遇到軟的物體,它的力度也會做相應調整。也就是說抓網球和獼猴桃,它的力度也是略有不同的。”王思成說。

  這項開發工作已進行了近1年。“我們已有相關論文成果發表。”更讓王思成有成就感的是,系統還在“跑分”平台上名列前茅,部分性能指標已經達到業內領先水平。

  實現動態場景下的抓、拿、放

  一隻鞋被重復放置在傳送帶上,機器人將它抓起,然后放置在專門壓鞋的機器上。靈寶機器人模仿學習算法工程師孫建涌用一個3D鼠標,操作機器人進行抓取訓練,“這是制鞋場景下的一個標准動作,現在它已經能抓取了,但是抓得還沒有那麼緊、那麼好。”

  自動化設備在國內制造業已不鮮見,但在制鞋領域還不多。靈寶機器人商業化中心負責人張淼解釋:“我們做過調研,一條制鞋自動化生產線需要上千萬元投資,隻適合生產一些銷量較大的‘爆款鞋’。由於柔性化程度不夠,生產線在不同鞋款間‘切換’的成本很高,這成為提升自動化率的一大障礙。”

  孫建涌訓練的機器人,要適應的正是柔性化的制鞋流程。他告訴記者:“鞋分左右腳,鞋碼在35碼到45碼之間,要在動態場景下完成抓、拿、放,這些都是通過真機在線強化學習實現的。”

  按照過去的思路,這套動作需要現場採集數據、再設計一套指令。現在用視覺數據和真機在線強化學習,普通工人用3D鼠標就可以“手把手”教機器人操作,“有點像‘抓娃娃’,系統慢慢學會后,稍微糾個錯就行,能夠在不同款式間快速‘切換’,也極大降低了訓練使用的門檻。”孫建涌解釋。

  現在,訓練這樣的機器人來抓取一款鞋,隻需1小時左右。“如果沒抓到或者抓偏了,機器人還能自動調整。這是強化學習相比於模仿學習的一大優點。”孫建涌說,模仿學習往往是基於“成功經驗”,強化學習除了依賴“投喂”的成功經驗,還能自己探索並覆蓋各種情況。

  3個月來,孫建涌所在的團隊常在實驗室和工廠兩頭跑。“很多問題都要在生產一線解決,比如有的傳送帶比較光滑,反光就會影響視覺判斷。”孫建涌舉例,其他如傳送帶速度、相機視野裡鞋的密集度等,都需要在算法層面一點點改進。

  更加柔性化以兼容更多應用場景

  研發現場,佔據“C位”的是一台人形機器人,身上還挂著不少線纜。作為實驗機型,很多“極限測試”都在它身上開展。同時,它也是今年北京人形機器人半程馬拉鬆賽上少數沒有摔倒的參賽選手之一。

  在前期研發的基礎上,靈寶機器人團隊很多成果已經用在了人形機器人上。去年11月,公司發布的首款全尺寸雙足人形機器人靈寶CASBOT 01,就搭載了結合具身智能、柔順力控和精密操作等技術的五指仿生靈巧手,能執行雙指旋擰、指間夾取等操作任務。

  張淼介紹,作為執行操作任務的關鍵部件,五指仿生靈巧手單手重量800克、額定負載達5公斤,集成了觸覺、力覺和視覺的多源感知系統。通過優化控制算法和動作規劃,該靈巧手能夠模擬人手的靈活性,可有效解決精細化作業場景中的“靈巧”與“作業”兩大難題。

  “操作是具身智能的核心能力,對於產業發展具有重要意義。”在靈寶機器人具身操作中心負責人周明才看來,目前具身智能已經實現了“形似”,但如何使其像人類那樣去感知和操作,仍是一個逐步發展的過程。特別是隨著個性化需求增多,讓具身智能更加柔性化,以兼容更多應用場景,是研發的一個重要目標。

  “近年來,國內具身智能發展很快,特別是產業鏈不斷完善。像常見的觸覺傳感器,有壓阻式的、電容式的,一些新的器件也逐步加入進來,可以說處在一個‘百花齊放’的狀態。哪種技術路線最優?我想這也是一個逐步‘收斂’的過程。但正是有了這些基礎,我們做算法開發才能更加得心應手。”周明才說。

  靈寶機器人對產學研融合有著深刻的理解。周明才說:“我們會把一些最新的研究成果應用到產品中去。同時,我們的最新產品也會提供給學術界做前沿研究,這是個緊密互動、螺旋式上升的過程。”

  《 人民日報 》( 2025年07月28日 19 版)

更多精彩內容,請下載科普中國客戶端。

返回人民網科普頻道

(責編:邢鄭、孫娜)

分享讓更多人看到

返回頂部