屏幕裡的AI,終於擁有了“身體”
訂閱已訂閱已收藏
收藏最近,在巴塞羅那世界移動通信大會上,一款機器人手機技驚四座:手機頂部悄然伸出個攝像頭,跟隨用戶指令靈活轉動、點頭示意。智能手機發展至今,我們見証了運算速度的提升、機身厚度的壓縮、影像能力的飛躍,但還是第一次見到手機長出“手腳”動起來。本該在手裡為你“服務”的AI,突破了屏幕的邊界,從會聊天的“數字助手”,進化為有“身體”、會“干活兒”、能夠“適應”真實場景的智能實體。
2023 年以來,大模型技術爆發讓 AI 具備了強大的語言理解和生成能力,但人們意識到一個問題:AI 在屏幕裡能夠對話、解答和生成內容,卻不能在現實場景裡完成具體的任務,例如當我們想要AI協助完成拍攝、跟拍、視角調整、場景交互這類任務時,手機裡的AI往往“愛莫能助”。這種需求催生了機器人手機。
智能手機的“進化”可不是單一技術的突破,而是多項技術體系的協同成果,像具身智能、端側大模型、AI 智能體和端雲協同,技術合力讓AI從虛擬跨越到現實。
具身智能:給 AI 賦予“身體”與“感官”
具身智能系統賦予 AI 感知環境和執行動作的能力,形成“感知—決策—執行”的完整閉環。
感知,就像我們靠眼睛看、耳朵聽、身體感知周圍環境一樣,機器人手機的感知層就是AI的“五官和觸覺”。它能通過手機的攝像頭、傳感器、麥克風,實時“看到”周圍的環境、“聽到”語音指令﹔同時還能聯動智能手表、耳機等穿戴設備,同步“感知”用戶的實時狀態。
決策,如果說感知層是“收集信息的感官”,那決策層就是“處理信息、下達指令的大腦中樞”。機器人手機能依靠手機本地的端側大模型,快速處理感知層收集到的所有信息:解析我們的真實意圖,比如“幫我拍視頻”不是簡單打開相機,而是要調整角度跟拍,規劃並完成任務的每一步,甚至能進行初步的情感判斷,比如通過我們的語音語調和生理體征數據(如心率),判斷出用戶是開心、疲憊還是煩躁。
執行,決策層下達指令后,就需要執行層來“動手落實”,這就相當於AI的“手腳”了。機器人手機的機械臂雲台能當“手”用,依托4DoF(四自由度)讓“手”動起來,把指令轉化為精准、流暢的動作,如旋轉跟拍、點頭回應、俯仰調整拍攝角度等。
端側大模型:為AI構建本地化“大腦”
有了可以活動的“身體”,AI還需要反應更快、更安全可靠的“大腦——以前的手機,“大腦”不在自己身上,而是在遠方的雲端服務器裡﹔端側大模型之所以被叫作“本地化大腦”。比如,讓手機在本地具備了強大的理解和決策能力,可以獨立完成大部分任務,僅在必要時協同雲端。這個“大腦”不需要聯網、也不用把數據傳到外面,就能讓手機在本地獨立完成思考、判斷和任務規劃,反應更快、更穩定,也更能保護隱私。對於新一代智能手機來說,這個本地化大腦尤其關鍵:隻有它才能做到實時控制、快速響應、自主服務,讓手機真正像智能機器人一樣工作。
AI智能體:給AI 注入“主動服務”的靈魂
有了“身體”(機械臂執行)和“大腦”(端側大模型),AI 還需要具備主動思考、主動服務、主動完成任務的能力,這正是 AI 智能體的核心價值:AI不僅能解決問題,還能感知並理解你的情緒與需求,提供更有溫度的服務。
AI智能體的真正進步,在於它不再只是被動執行簡單指令,而是能夠理解我們模糊、復雜、生活化的真實需求。最典型的就是家庭拍攝場景:
以前:聚會拍視頻,拿手機拍攝的人,一般不容易出現在畫面裡,就算自拍杆“助攻”,也束手束腳。
現在:它可以化身為攝像師,通過視覺自動識別、跟蹤家人的位置和動作,自主調整角度、自動構圖、保持畫面穩定。全程不用你動手操控,就能把在場的每個人記錄下來。
同時,手機作為未來生活的智能中樞,智能體還能實現多設備協同:比如會議時語音實時轉寫成文字、文件在手機、電腦、平板之間自動同步,不用來回切換 APP、不用重復操作,大幅提升效率。
AI 智能體還會“記住”你的偏好、習慣和日常節奏,你越用AI越懂你,提供越來越貼合個人的貼心服務。它還能聯動智能手表、手環等穿戴設備,實時感知心率、活動狀態等信息,結合當前場景主動提醒、推薦合適內容,讓智能服務在不知不覺中就完成。
不過,要讓這個擁有‘身體’和‘靈魂’的AI持續進化,應對無限復雜的現實世界,它還需要一個更強大的‘外腦’來支撐。
端邊雲協同:給 AI 搭建“高效神經系統”
既然 AI 的“大腦”已經部署在手機端,是否還需要雲端和其他設備的參與?實際上,新一代智能手機之所以能實現流暢的智能體驗,恰恰依賴於“端—邊—雲”三者協同的分布式架構:端負責“馬上做”,邊負責“就近管”,雲負責“學得強”。
1、端(手機、智能手表等)
主要負責實時感知、即時反饋和隱私敏感任務。優勢是超低延遲、數據不出設備,保障用戶隱私。
2、邊(邊緣服務器、智能路由器、本地網關等)
作為區域中間樞紐,承擔多設備聯動、就近推理以及AI指令的分布式協同調度,既減輕了雲端的壓力,又比單純的雲端響應更快。
3、雲(數據中心)
承擔模型訓練、知識更新和超大復雜度計算任務。擁有近乎無限的算力資源,持續優化模型,並通過端邊同步實現能力迭代。
這場由機器人手機開啟的AI革命已經拉開了帷幕。我們可以預見,每個人都可能擁有這樣一個“懂你所需、為你而行”的物理智能體,而人與技術的互動方式也將重新被定義。
作者:小青 科普創作者
審核:劉相權 北京信息科技大學副教授,機器人工程系主任
策劃:閻冬
分享讓更多人看到
- 評論
- 關注



































第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量