12/26/25

鴻海科技日(1):人形機器人巿場

 【重點整理】

1. 智慧製造平臺:鴻海集團的智能製造平臺以AI工廠為核心,透過AIready平臺驅動製造AI代理、AI與物理AI三大能力,實現生成式AI的深度整合。

2. 物理AI三層級:第一層為固定動作與自動化,重視速度、精準與重複性;第二層加入感測控制,提升基本彈性與適應性;第三層融合感知、決策與學習,使系統能自我調整並解決複雜情境。

3. 多模態AI:在最高層級應用於人形及協作型機器人,能自主執行如智慧倉儲等複雜任務,展現高度靈活性。

4. 機器人數據挑戰:物理AI發展受限於缺乏大規模真實世界互動數據,需仰賴模擬、合成及多元化資料建構基礎能力。

5. 三電腦解決方案:實現自律機器人需訓練大腦(AI)、模擬物理環境(虛擬世界)、並部署至機器人硬體(真實世界)。

6. NVIDIA Isaac平臺:由開放式機器人基礎模型、模擬平臺與機器人學習框架組成,支援工業製造中的多元任務訓練與部署。

7. 視覺SLAM:ABB移動機器人具備視覺即時定位與地圖建立能力,可在無基礎設施下協同導航並共享地圖,實現群體智能。

8. Eye Motion平臺:結合視覺辨識與自動路徑規劃,讓機器人能自主避障並執行複雜組裝任務,降低程式設計與校正門檻。

9. 大型語言模型(LLM)與視覺語言模型(VLM):應用於機器人語言介面及物體辨識,提升操作便利性與智能化程度。

10. 超擬真數位孿生:ABB Robot Studio工具導入高精度運動模擬與物理特性,縮短設計週期、提升協同工程效率、減少實體原型需求。

11. 工廠未來雙支柱:自主多功能機器人與超擬真模擬技術共同推動靈活、可擴展、多樣化的智慧製造生態。

12. 生態系統合作:NVIDIA、鴻海、ABB等跨界聯盟共同打造數據管線與新一代工業自動化平臺,推動全球智慧製造發展。

13. 產品專用到通用自動化:透過與Alphabet Intrinsic合作,轉型為全廠協同自動化平臺,以達成全方位工廠調度目標。


【內容整理】

【智慧製造平臺架構】

講者首先介紹了鴻海集團的智慧製造平臺,其核心在於以AI工廠驅動的超級品牌,透過AIready平臺整合製造AI代理、生成式AI與物理AI三大能力。這些技術促使生成式AI能深度融入工廠流程,例如進行高階排程、彈性製造系統、工廠GPT及自主決策AI等八項應用,全面提升工廠智能化與運作效率。此平臺不僅最大化生產效能,也為未來工廠奠定數據驅動的基礎。


【物理AI分級原理】

講者強調物理AI(embodied intelligence)正在引領新時代,其本質是賦予機器人與自動化設備感知、理解及自主行動能力。在鴻海工廠中,物理AI分為三個層級:第一層著重於高速精準的固定動作;第二層加入感測與控制,使系統具備基礎彈性;第三層則融合感知、決策與學習能力,使系統可針對複雜場景自我調整。這一分級架構有效提升了機器人穩定性、靈活性及問題處理能力,並推動多模態AI在協作型和人形機器人上的應用。


【機器人數據挑戰與解決方案】

NVIDIA講者分析了物理AI面臨的數據瓶頸。相較於LLM可依賴大量人類書寫資料,物理世界互動數據極度稀缺。為突破此困境,提出「三電腦解決方案」,即訓練AI大腦、在精確模擬環境中進行虛擬學習,再將智能部署到真實機器人。NVIDIA Isaac平臺透過開放式基礎模型、模擬平臺和學習框架,使機器人能在加速環境中快速獲取多元技能,支撐複雜工業任務的落地。


【自主多功能機器人技術】

ABB代表說明工廠未來的兩大支柱:一是自主且多功能的機器人,二是超擬真的數位雙生模擬。ABB機器人涵蓋近200種機電化型態,包括Scara、大型並聯、協作型及移動型等。自主移動機器人利用視覺SLAM技術,不僅可實現3D環境即時定位和地圖共享,更具備語意理解能力,有助於避障和智能決策。Eye Motion平臺讓機器人能結合視覺辨識與自動路徑規劃,大幅簡化程式設計流程,提升組裝敏捷度。


【生成式AI與語言模型應用】

ABB正在將大型語言模型(LLM)和視覺語言模型(VLM)導入機器人領域。語音介面讓操作門檻降低,用戶可直接以自然語言指令操控機器人;VLM則結合網路影像資源,提升機器人的物體辨識和自主路徑規劃能力。這些技術推進了工業機器人的智能化及通用性,有利於多樣化任務的快速部署。


【超擬真模擬與數位孿生】

ABB Robot Studio工具正導入高精度運動模擬和物理特性,縮短產品設計週期並提升原型驗證效率。藉由模擬光影、合成資料和高保真運動行為,可進行離線設計和協同工程,有效減少實體原型需求。高擬真模擬有助於培訓AI模型處理各種邊緣案例,提高部署後的產能和靈活性。


【產業生態系統合作模式】

講者強調跨界合作的重要性。NVIDIA、鴻海、ABB等企業共同建構生態系統,攜手建立數據管線和自動化平臺,以解決工業智能化所需的資料收集、訓練和部署難題。此外,鴻海也宣佈與Alphabet Intrinsic成立合資公司,致力於從產品專用解決方案轉型為全廠通用協同自動化平臺,以實現全面工廠調度和智能協作目標。

鴻海科技日(3):德儀

 【重點整理】

1.人形機器人:具備類似人類外形,可執行生產、照護及危險環境作業,有望成為未來生活的重要助力。

2.協作型機器人:可與其他機器人及人類分工合作,需強化環境感知與動作預判能力以確保安全運作。

3.AMR(自主移動機器人):配備感測器與相機,能自主移動並執行包裹或零件運送任務。

4.系統核心晶片:負責機器人環境資訊運算及動作判斷,是機器人智能的關鍵元件。

5.Motor Driver(馬達驅動器):控制機器人各部位運動,根據部位大小和功能需求配置不同數量與功率。

6.C2000微控制器:適用於快速、低延遲反應的機器人馬達控制,提升精準度與安全性。

7.感測器(Sensor):包含相機、雷達、光達、溫度、壓力等,用於環境感知及觸覺回饋。

8.第三代半導體氮化鎵:用於電源管理與馬達驅動,有效降低元件體積與熱損耗,提升效能與電池壽命。

9.BMS(電池管理系統):監控機器人電池電量與健康度,確保穩定供電與安全運作。

10.高速通訊介面:包含CAN訊號、Ethernet、FPD Link、SPE Single Pair Ethernet等,用於機器人內部訊號傳輸,實現即時指令下達。

11.Functional Safety(功能性安全認證):保障半導體元件運用於機器人時的安全性,符合業界規範。

12.半導體產業商機:隨機器人技術發展,半導體需求大幅提升,成為臺灣重要產業。


【內容整理】

【半導體推動機器人智能與安全】

講者說明,近年物聯網、精密機械及AI運算的進步促使人形機器人成為生活中重要的智能工具。人形機器人不僅能執行工廠生產與危險環境作業,還能在醫院或家庭提供照護服務。隨著應用想像擴展,背後蘊含龐大商機。機器人的發展歷史從1950年代開始,初期僅能執行單一任務,隨感測與運算能力提升,逐步具備自主移動與學習能力,如掃地機器人便能透過相機與運算晶片避開障礙完成清掃。


【協作型機器人的技術進展】

協作型機器人已廣泛部署於物流倉庫等場域,實現機器人間及人類分工合作。這類機器人需大幅強化環境感知能力,能即時預判周遭物體、人類或其他機器人的移動,以確保安全並提升工作效率。技術進步使協作型機器人能應對更複雜場景,但也帶來高階感測與精密控制的需求。


【人形機器人的結構與驅動技術】

講者進一步拆解人形機器人的技術組成,包括四肢各部位所需馬達驅動器(Motor Driver)及微處理器(如MCU、C2000)。不同部位如手指、手臂、膝蓋等依功能需求配置不同瓦數與數量的驅動器,如手掌約需30瓦、手臂1500瓦、臀部膝蓋2400瓦,全身合計上百個馬達驅動器。馬達控制需高效且精確,確保各關節協同運作。


【環境感知與多元感測技術】

人形機器人需具備全方位環境感知能力,包括視覺(鏡頭、光達、毫米波雷達)、聽覺(音訊處理晶片)及多種sensor。舉例而言,觸覺sensor可協助機器人拿取物品時控制力量避免損壞;溫度sensor避免進入危險區域;壓力、電流sensor則負責監控運作狀態。多元感測技術提升機器人對環境的判斷能力。


【高速通訊介面與訊號傳輸】

講者介紹,機器人體內訊號傳輸如同人類神經系統,各關節間需高速且低延遲的通訊。局部訊號傳輸可用CAN bus,大範圍則採Ethernet,高頻寬影像傳輸使用FPD Link。新技術如SPE Single Pair Ethernet可減輕纜線重量,有助於整體結構輕量化。通訊效率直接影響機器人反應速度與任務完成度。


【電源管理與新型半導體應用】

為確保機器人長時間運作,自由移動需穩定電源供應。第三代半導體氮化鎵可有效降低元件體積與熱損耗,提高電源效能並延長電池壽命。BMS電池管理系統則負責監控電池健康狀態和剩餘電量,預防因斷電造成安全事故。高效電源管理是智慧型機器人落地關鍵。


【功能性安全認證與家庭部署】

講者強調,人形機器人在家庭等場域必須保障絕對安全。每個半導體元件需通過功能性安全認證,如私有安全規範,確保在緊急狀況下能做出正確反應。例如搬運重物時若即將沒電,邊緣運算晶片需即時做出決策避免危險。安全設計是未來智能機器人大規模部署的必要條件。


【半導體產業與未來展望】

最後講者指出,隨著智能機器人技術普及,半導體在感知、馬達驅動、高速通訊和安全領域的需求持續攀升。臺灣作為半導體產業重鎮,未來將因機器人發展而享有巨大商機,各項關鍵技術將帶動產業升級並推動智能生活普及。

鴻海科技日(2):鴻海CTO史喆

 【重點整理】

1.自動化產業發展階段:從早期固定動作的自動化,逐步發展至具備柔性協作的Cobalt協作機器人與雙臂機器人,未來預期朝向更高柔性的多臂及人形機器人。

2.Cobot協作機器人:具備安全性,可在人機共享空間協作,顯著提升自動化組裝與檢測的應用範疇。

3.工業機器人歷史:1961年起初為簡易搬運,1973年KUKA推出固定軸設計,隨後發展出六軸機器人,成為汽車等製造業的標準化產品。

4.AMR與AGV:傳統移動式機器人通常受限於固定路徑,難以因應高變動性產線需求。

5.Humanoid自由度問題:人形機器人因自由度高,需仰賴模仿性學習演算法與大量場景數據進行訓練,訓練成本較高。

6.IoT數據整合:藉由物聯網技術將各類機器人數據匯聚管理,實現基礎自動化管理與跨場域資料連通。

7.低程式碼機器人編程平臺:簡化機器人應用開發流程,降低使用門檻,提高產線柔性與複用性。

8.虛擬仿真技術:透過仿真工廠及Omniverse應用,加速新產品導入與自動化系統整合,提升設計效率。

9.Physical AI:定義為AI與機器人軟硬體的垂直整合,包括仿真、控制、硬體設計及軟體一致性,區別於單純AI+Robotics的分離式系統。

10.自動化密集到AI密集:製造業從經驗導向的自動化密集,逐漸轉型為以算力、算法和機器人柔性為核心的AI密集生產模式。

11.三層Physical AI等級:分為Level 1固定操作、Level 2彈性協作、Level 3複雜多模態自主操作,對應不同自動化與智能化需求。

12.人機協作與群體智能:強調Human Machine Interface編程入口、機器人間協作以及雲端與邊緣協同架構。

13.模仿性學習:機器人訓練依賴大量場景數據,以模仿人類操作達成泛化能力。

14.算力與AI工廠:利用超級大腦與AI工廠支持仿真、機器人控制及數據平臺建設,推動產業升級。

15.CAPX複用率:機器人的柔性設計提高產線設備投資的複用率,相較於傳統專用自動化設備更具成本效益。

16.標準化模型與任務拆解:建立工序標準模型、動作庫及典型場景,以支持多樣化製造需求與生產彈性。

17.產業生態系統:強調與自動化、數字化、智能化供應鏈夥伴協作,共同推動機器人技術落地。


【內容整理】

【自動化產業演進脈絡】  

講者解析自動化及機器人產業從最初固定運動的自動化設備,逐步發展到可協作且具柔性的Cobalt型協作機器人以及雙臂結構。隨著工廠內組裝環節愈趨複雜,尤其小零件組裝對靈活性要求極高,人力仍在許多電子廠扮演重要角色。因應穩定性、可靠性及成本壓力,大量生產場景逐漸轉向具備智能、視覺與觸覺的新世代工業機器人,以降低對人工的依賴並提升產能。


【工業機器人歷史與Cobot崛起】  

工業機器人的發展歷程由1961年首款簡易搬運型開始,1973年KUKA推出兩軸設計,之後六軸成為主流。隨著需求擴大,協作型Cobot在2008年問世,打破原有安全柵欄限制,使得機器人在產線上可直接與操作員協作。這一技術突破促使機器人在檢測、分揀等細緻環節獲得更廣泛應用。


【Humanoid訓練挑戰及模仿性學習】  

人形機器人雖具高度自由度,但傳統演算法難以處理其複雜運動,因此現今多採用模仿性學習,需要大量真實場景數據。企業普遍投入大規模數據收集工廠,由人類操作並記錄sensor資訊,以供機器人模仿並泛化至不同工作任務。此過程雖耗時費力,但在固定工廠場景下能加速智能落地。


【IoT平臺與低程式碼編程趨勢】  

物聯網技術成為機器人整合管理的基礎,講者強調建置IoT平臺以連接所有設備數據。透過平臺化、低程式碼編程工具(如Intrinsic合作案),即便非專業工程師也能快速部署機器人於生產現場,有效降低導入門檻並提升柔性生產能力。


【虛擬仿真與AI驅動自動化】  

虛擬仿真技術在汽車、化工廠已廣泛應用,有助於產品導入和工廠設計優化。結合AI模型(如YOLO),視覺引導物品識別和抓取變得極為簡單。隨著硬體和編程平臺成熟,視覺功能成為標配,大幅降低對專業視覺工程師的需求。這一變革促使鴻海加速智能機器人技術進入各生產場域。


【柔性製造與CAPX複用率提升】  

傳統automation設備僅能執行單一任務,而機器人則因柔性設計可跨產品、跨產線重複利用,顯著提高設備投資效益(CAPX複用率)。但大量自動化導入同時對速度、穩定性及系統集成提出更高挑戰。鴻海積極佈局於智慧交通、家庭照顧、商業服務等新興應用領域,期望拓展全球市場版圖。


【Physical AI系統理念】  

講者闡述Physical AI是AI與機器人軟硬體的垂直整合體系,包括仿真、控制以及一體化硬體設計,不同於傳統AI+Robotics分離架構。Physical AI能提升設計一致性及應用靈活度,是鴻海科技日主推主題。透過AI factory和Omniverse算力平臺支援,大幅增強工廠智能與自主決策能力。


【人機協作、群體智能與雲端架構】  

未來工業場景強調Human Machine Interface編程入口便捷性,以及多臺機器人在同場域協作的群體智能。數據供給(Data Pipeline)、多感知深度學習(如VLA)、邊緣及雲端分布式運算架構成為核心技術,使操作彈性和執行效率同步提升。


【三層Physical AI分級模型】  

鴻海提出Physical AI三層級劃分:Level 1為固定且簡單操作,追求穩定快速;Level 2為具彈性協作能力,包括雙爪視覺引導及利空調整,可取代部分人工;Level 3則具備AI智能調度、多模態感知及自主決策能力,可適應多場景並自主完成複雜任務。各級需建立相應模型庫和典型工序拆解。


【產業生態系統與未來規劃】  

鴻海強調建立完整合作生態,包括ABB、Yaskawa、Epson等國際自動化夥伴,以及NVIDIA等算力支持廠商,共同推動控制基礎、場景模型和AI平臺建設。未來將逐步跨越從單點到整線再至整體升級階段,並針對典型場景建立標準模型和任務拆解流程,以支撐多樣化製造需求,推進Physical AI於全球電子製造和電動車產業落地。

鴻海科技日(4):Solomon 陳政隆

 【重點整理】

1.機械手臂:最早於1954年問世,1961年由Unimate首次應用於汽車產線,主要執行危險、骯髒、無聊的3D(Dangerous, Dirty, Dull)工作。

2.協作機器人(Collaborative Robot):2010年後出現,可與人互動且不需隔離,安全性較高,能在非封閉空間運作。

3.自走車機器人:2010年後期發展,可移動但智慧有限,依照程式指令行動,缺乏自主智能。

4.Fragmented Intelligence:指機器人與車架手各自有獨立控制器,難以協同運作,功能上分散且不易整合。

5.物理代理人(Physical Agent):由AI教父黃仁勳普及,指能接收指令並執行實體動作的AI代理人,與純數位AI agent有別。

6.VLA模型(Vision Language Action Model):用於人形機器人,結合視覺、語言與動作決策,適應多關節複雜運動,無法用傳統逆向運動學(IK)解決。

7.逆向運動學(Inverse Kinematics, IK):傳統機械手臂控制法則,利用數學矩陣計算每個關節角度達到目標位置。

8.Semantic Understanding:語意理解能力,讓機器人能辨識任務、環境及目標物件,現階段VLM/LLM已進步但VLA仍有限。

9.機器人訓練方法:包括MR眼鏡教學、IMU感測器模仿、以及基於NVIDIA Jetson Thor平臺的自動化教學,三者可組合但訓練時間長。

10.直行程(Execution Pipeline):類似Android OS,串聯機器人理解、感知、行動三個層次,使開發者能以積木式方塊快速設計客製化應用。

11.機器人主流趨勢:輪型機器人下半身穩定,便於用IK控制,上半身可結合VLA應對複雜任務,人形機器人則面臨多軸與學習挑戰。

12.中美機器人競爭:美國軟體(LLM、VLM、VLA)領先但差距縮小,中國硬體進步快,供應鏈成熟且價格迅速下降,市佔率有望持續擴大。


【內容整理】

【機器人歷史回顧與產業演變】

講者回顧了機械手臂自1954年問世至今近70年的發展歷程。最初機械手臂主要應用於工業產線,執行危險、骯髒、無聊的3D工作。日本稱其為3K工作。隨著科技進步,2009至2010年出現協作機器人,其能在非隔離環境下與人互動,大幅提升了安全性與靈活性。2010年後期,自走車機器人問世,使機器人成為可移動的平臺,但智慧仍依賴程式指令而非自主判斷。這些演變反映出機器人產業從單一重複性工作逐漸擴展至多樣化場域,但核心智能尚未突破。


【人形機器人與物理代理人的興起】

近兩年來,人形機器人成為熱門議題。講者指出,人形機器人被期待成為未來最具潛力的物理代理人,其概念由黃仁勳推廣。物理代理人不同於純軟體AI agent,必須能理解指令並執行實體動作。舉例而言,人形機器人在接到「拿杯子」的任務時,需完成環境感知、目標辨識、路徑選擇和精確操作。這一過程模仿人類神經系統的高度整合能力,目前技術尚未達到類人直覺和靈活性。講者強調,人形機器人的設計需考慮人體工學和現有環境的適配性,而非僅僅拼接車架手臂。


【AI、感知與行動串聯的技術挑戰】

講者分析了人形機器人的智能架構,包括對任務的理解(大腦)、環境感知(眼睛)及動作執行(小腦),三者均需依賴AI技術。現階段的人形機器人在視覺感知上仍受限,多數只能處理眼前物件,缺乏完整的空間環境推理能力。此外,其學習速度慢,需要大量重複訓練才能掌握新技能,而且所學技能難以重複利用。語意理解(Semantic Understanding)雖因大型語言模型(LLM/VLM)而提升,但在視覺-語言-動作串聯(VLA)方面仍有明顯瓶頸。


【機器人訓練方法與技術革新】

目前主流的人形機器人訓練方式包含戴MR眼鏡進行教學、利用IMU感測器模仿動作,以及結合NVIDIA Jetson Thor平臺的自動化教學。這些方法雖可提升訓練效率,但仍需耗費大量時間與人工參與。講者分享其團隊在機械手臂領域已能讓機器人在30秒內識別新物件,並正嘗試將此快速學習技術導入VLA模型,以期提升人形機器人的學習速度與適應能力。


【執行平臺與客製化應用開發】

講者介紹直行程(Execution Pipeline)概念,類似Android OS,用於串聯理解、感知與行動三個層次,使開發者能以積木式方塊組合方式快速設計客製化視覺機器人應用。在工業場域中,由於每位客戶需求不同,此種模組化設計有助於因應多元場景並加速產品開發。該團隊正計畫將此平臺拓展至人形機器人領域,使未來用戶僅需下達指令即可自動拆解並執行複雜任務。


【主流趨勢及中美競爭格局】

未來幾年輪型機器人預計成為主流,其下半身結構穩定且便於利用逆向運動學(IK)控制,上半身則可結合VLA模型應對複雜任務。相較之下,人形機器人在多軸控制及學習速度上仍面臨重大挑戰。國際競爭方面,美國在軟體(LLM、VLM、VLA)領域領先,但中國在硬體供應鏈、組件自主研發及價格競爭上進步迅速,加上龐大的製造業基礎,有助於提升產品成熟度與市場滲透率。講者預測,中國未來在人形機器人市場的市佔率將持續擴大。

12/25/25

Aloha robot與 Hello robot

 這兩款機器人雖然都和「協助人類」有關,但 Aloha 和 Hello Robot (Stretch 系列) 在定位、來源、設計目的與技術焦點上都有很大的不同: 

一, Aloha Robot

是由 美國 Stanford(史丹佛大學)研究團隊 推出的機器人實驗平台/研究項目,重點不是商用產品,而是 機器人學術研究與示範。它的重點在於:

  • 模仿學習(Imitation Learning):透過人類示範少量動作(例如 50 次),機器人就能學習複雜家務任務。 
  • 開源硬體+軟體:整套系統供研究者與開發者使用和改進(目前仍屬於研究級開源項目)。 
  • 多任務家務能力示範:像是炒菜、清潔、拿東西、開櫃子等日常操作。 
  • 強調學習機制與遠端教學:可以遠端控制來收集數據訓練機器人,而不是只靠預先編程。 

👉 核心特色

✔ 研究級平台

✔ 領域探索(模仿學習、通用家務能力)

✔ 通常未面向終端消費者

✔ 需技術知識 + 開發者介入

🧠 總結一句話:

Aloha 是學術型/研究型機器人,重點在於推進機器人如何學習和執行複雜日常任務,而不是直接賣給普通消費者。


二,  Hello, Robot.: 

Design Between Human and Machine Hello Robot核心產品是 Stretch 系列移動操作機器人。

➡️ Stretch 是由 美國新創公司 Hello Robot 設計並商用的 輕量級、開源型家用/研究用移動操作機器人:

  • 移動機械手(Mobile Manipulator):底盤可移動,帶伸縮機械臂能抓取和操作物體。 
  • 專業感知與控制:配備 RGB-D 攝像頭、多種感測器、可程式介面、遠程操作等,適合科研、開發與實際應用。 
  • 開源與開發者友好:擁有完整軟體工具、SDK(如 ROS/ Python)、遠程操控支援。 
  • 定位商用/研究平台:已在科研機構、教育領域與特定應用場景被採用。 

👉 Hello Robot 最新版本 Stretch 3 特點包括:

✔ 輕量(約 24.5 kg)且安全設計適合人類環境 

✔ 機械臂具備 7 自由度與靈巧抓取能力 

✔ 強大的感知能力與遠程控制支援 

✔ 開源設計方便開發者創新 

🌟 核心差異是:

Hello Robot Stretch 比較像 可直接使用的機器人平台,不只在研究,而是已經對接到開發、實際應用與商用可能,可用於:

  • 家庭/辦公室協助
  • 研究機器人學與自動化
  • 教育與演示用途

三, 主要差異總結


比較項目

Aloha

Hello Robot (Stretch)

性質

研究原型 / 學術項目

商用/研究機器人平台

開發團隊

史丹佛大學研究團隊

Hello Robot 公司

用途

探索家務學習技術

可直接用於開發與實驗

是否商用

否(開源研究)

是(可購買) 

操控方式

重度依賴遠端教學與示範

支援遠端及 API 控制 

目標使用者

研究者、開發者

開發者、教育者、實務應用者



四,  簡單一句比較

  • Aloha 是 研究重點放在「如何讓機器人學會做事」的機器人學原型;
  • Hello Robot(Stretch) 是 能實際部署、可以買來做開發與應用的移動操作機器人平台。  


Physical Intelligence 公司(2) Pi 0.5的合作夥伴及未來潛在客戶

 根據您提供的來源文件(特別是關於 $\pi_{0.5}$ 模型的論文),Physical Intelligence (PI) 公司的研究實驗雖然沒有在文中直接引用「黃仁勳的三台電腦架構」這一特定名詞,但其技術開發路徑與該架構(AI 工廠訓練、模擬訓練、物理機器人執行)高度契合。以下為基於來源的詳細說明:

1. 合作公司與組織

根據來源文件,Physical Intelligence 的 $\pi_{0.5}$ 模型在開發過程中與以下機構有密切的數據或技術關聯:

  • Open X-Embodiment 協作組織: PI 使用了來自此開源項目的海量數據,該協作組織包含 Nvidia (輝達)Google DeepMindMicrosoft (微軟) 以及多所頂尖學術機構(如 CMU、史丹佛、柏克萊等),。
  • Google: $\pi_{0.5}$ 的模型骨幹(Backbone)是基於 Google 開發的 PaliGemma 視覺語言模型(VLM)進行優化與訓練,。
  • AgiBot (智元機器人): 論文參考文獻中提到了與 AgiBot 相關的大規模操控平台(Agibot World Colosseo),顯示其在數據與研究交流上有潛在關聯。

2. 機器人硬體設備

在 PI 的移動操控實驗中,使用的是以下硬體架構(如來源中圖 5 所示):

  • 雙臂移動操控器 (Mobile Manipulators): 平台配備了兩支 6 自由度 (DoF) 的機械手臂,並裝有平行爪夾具,。
  • 底盤與升降機構: 機器人擁有一個全向移動輪式底盤 (Wheeled holonomic base) 以及一個軀幹升降機構 (Torso lift mechanism),。
  • 感測系統: 全身配備了 4 個攝影機,包括手腕上的單目 RGB 攝影機、以及面向前方與後方的攝影機,。
  • 自由度: 根據平台配置不同,整機的狀態與動作空間總計為 18 到 19 個自由度,。

3. 未來應用場景與軟體潛在客戶

來源文件強調,PI 的目標是實現**「開放世界泛化」(Open-World Generalization)**,讓機器人能離開實驗室進入現實世界執行實務任務,。其軟體未來的應用與客戶群主要集中在:

  • 一般家庭環境 (Residential Homes): 論文展示了機器人在陌生家庭中執行清理廚房、整理臥室、鋪床、摺疊衣物掛毛巾等長時程任務(持續 10 到 15 分鐘)的能力,,。
  • 通用服務業與家務自動化: 軟體的核心價值在於其**「開箱即用」的泛化力**,能應對未見過的物件與環境布局,。這意味著其潛在客戶是需要機器人具備複雜多階段行為推理的服務供應商或終端用戶,。
  • 其他機器人實體製造商: 由於 $\pi_{0.5}$ 證明了可以從異質機器人數據(ME, CE, MM)中遷移知識,PI 的軟體(作為通用政策模型)未來可能授權給各類具體化人工智慧 (Embodied AI) 設備製造商,,。

總結比喻: Physical Intelligence 的做法就像是在打造機器人界的「通用作業系統」。他們不只讓機器人學會「跳舞」(特定動作),而是透過網路數據與各種機器人的經驗(跨實體協同訓練),讓機器人具備了「生活常識」;因此,無論是哪一家的硬體手臂,只要搭載這套軟體,就能在陌生的廚房裡知道該如何整理雜物。

Physical intelligence公司(1)Pi 0.5的VLA模型

 這篇由 Physical Intelligence 團隊發表的論文介紹了其研發的新一代視覺-語言-動作模型 $\pi_{0.5}$。該模型旨在突破機器人研究中的「開放世界泛化」難題,讓機器人能走進未曾見過的環境並執行複雜任務。

以下根據來源內容,為您詳細說明該論文的各個面向:

1. 論文主旨 (Main Theme)

本論文的核心主旨是開發一種名為 $\pi_{0.5}$ 的通用型 $\text{VLA}$ 模型,透過異質任務聯合訓練(Co-training on heterogeneous tasks),使機器人能夠在完全陌生的家庭環境中執行長時程(Long-horizon)且靈活的操作任務。該模型強調從非直接相關的數據(如其他機器人數據、網路多模態數據)中遷移知識,以達成廣泛的泛化能力。

2. 研究文獻 (Research Literature)

論文引用並基於多項前沿研究:

  • 基礎 VLA 模型: 參考了如 $\text{RT-1}$$\text{RT-2}$$\text{OpenVLA}$ 以及團隊先前的 $\pi_0$ 模型。
  • 數據集: 引用了 $\text{Open X-Embodiment (OXE)}$ 等大規模跨實體機器人數據集。
  • 技術組件: 使用了 $\text{PaliGemma}$ 作為骨幹網絡、$\text{FAST}$ 動作標記化技術,以及**流匹配(Flow Matching)**生成動作分佈的架構。

3. 研究假設 (Research Hypotheses)

  • 知識遷移假設: 假設機器人要具備泛化力,不能僅依靠單一實體的直接經驗,必須能從**多元化資訊源(如網路數據、不同類型的機器人數據、語音指令)**中轉移經驗。
  • 階層式推理假設: 假設將任務分解為「高階語義子任務預測」與「低階動作執行」的階層式架構,能有效提升機器人在處理複雜、多階段任務時的推理與規劃能力。
  • 數據比例假設: 假設即便 97.6% 的訓練數據並非來自目標移動機器人,模型仍能透過這些異質數據獲得關鍵的空間與物理常識。

4. 研究方法 (Research Methodology)

$\pi_{0.5}$ 採用了獨特的兩階段訓練流程階層式推理架構

  • 第一階段(預訓練): 使用 $\text{FAST}$ 標記化技術將所有動作轉為離散代幣(Tokens),並結合移動機器人數據($\text{MM}$)、非移動機器人數據($\text{ME}$)、跨實體實驗室數據($\text{CE}$)、高階子任務預測($\text{HL}$)以及網路數據($\text{WD}$)進行聯合訓練。
  • 第二階段(後訓練): 加入一個約 300M 參數的**「動作專家」(Action Expert),利用流匹配技術生成連續的精細動作序列,並引入人類監督員的口頭指令數據($\text{VI}$)**來強化子任務預測。
  • 推理模式: 運行時,模型先根據總體指令(如「清理房間」)預測下一個語義子任務(如「撿起襯衫」),隨後由動作專家根據該子任務輸出具體的控制指令。

5. 研究發現 (Key Findings)

  • 零樣本泛化成功: $\pi_{0.5}$ 首次證明了端到端學習系統能在完全未見過的真實家庭中,執行長達 10 到 15 分鐘的複雜清理任務(如整理廚房或臥室)。
  • 異質數據的必要性: 實驗顯示,若剔除網路數據($\text{WD}$)或跨實體機器人數據($\text{ME/CE}$),模型的泛化能力與對陌生目標的理解力會大幅下降。
  • 階層式架構優勢: 顯式預測子任務的表現優於傳統的扁平化 $\text{VLA}$ 模型,甚至在某些任務上超過了由人類引導的基準線。
  • 環境多樣性紅利: 隨著訓練數據中環境數量($\text{Locations}$)的增加,模型在語言跟隨與陌生目標操作上的成功率穩定提升。

6. 應用場景 (Applications)

$\pi_{0.5}$ 主要應用於日常家庭環境的自動化維護

  • 廚房清理: 包含將餐具放入水槽、將物品存入抽屜、關閉微波爐或櫥櫃。
  • 臥室整理: 包含鋪床、將衣物放入洗衣籃、將毛巾掛上架子、整理枕頭。
  • 精細操作: 執行如摺疊衣物、掃地等需要雙手協作或精確控制的任務。

7. 未來發展趨勢與挑戰 (Future Trends & Challenges)

  • 技術侷限: 模型在面對特殊形狀的把手、難以開啟的櫃子或存在視線遮擋(部分可觀測性)的環境時,仍可能出錯。
  • 指令複雜化: 未來研究趨勢將朝向處理更複雜、更具個性化偏好的指令發展。
  • 長短期記憶與導航: 引入更豐富的上下文與記憶機制,以應對跨房間導航或需要記住物體存放位置的長期任務。
  • 多元監督模式: 探索除了口頭指令外,更多讓人類與機器人互動並傳授常識的方法。

總結比喻: 這篇論文描述的 $\pi_{0.5}$ 就像是一位**「博採眾長的機器人學徒」**。它不僅練習自己的動作,還大量閱讀網路百科(網路數據)、觀察其他不同工種的師傅(其他機器人數據),甚至聽取導師的口頭提點(口頭指令)。正是這種「不拘一格」的學習方式,讓它即便被帶到一個完全陌生的廚房,也能憑藉學到的常識,冷靜地分析該先洗碗還是先收抽屜,並靈活地完成任務。

李飛飛(5)對現有VLA範式提供升級的觀點

 李飛飛教授對 VLA(視覺-語言-行動) 模式的評價,建立在她對「具身人工智慧」(Embodied AI)與「空間智能」的長期追求之上。她並非要推翻 VLA,而是認為現有的模式存在根本性的缺陷,並試圖透過她的新產品與「世界模型」來填補這些遺失的拼圖。

以下是根據來源文件的詳細說明:

1. 李飛飛對 VLA 模式的評價:感知與行動的「閉環」

李飛飛認為,目前的 AI(如大語言模型 LLM)雖然能言善辯,但對於物理世界卻是「盲」的,她稱之為**「黑暗中的文字匠」**。針對涉及行動的 VLA 模式,她的評價如下:

  • 現狀的局限: 她指出當前的機器人學習大多仍停留在技能級任務、短期目標以及封閉世界的指令中。雖然 AI 可以標註圖像或生成描述,但這不等於理解,因為「看到」是為了「行動」與「學習」。
  • 語言的損失: 她強調語言是世界的「有損壓縮」(lossy compression),許多人類智能(如空間推理、物理直覺)是非語言的。單純依賴文字訓練的 VLA 難以推導出深層的因果性或物理規律(如重力、碰撞)。
  • 必須閉合環路: 她主張技術上必須**「閉合感知與行動之間的迴路」**,讓機器人不僅能看到,還能理解 3D 空間並據此規劃長程行動。

2. 李飛飛的產品(Marble)與 VLA 的關係

李飛飛的公司 World Labs 推出的 Marble 並非另一種傳統意義上的 VLA,也不僅僅是推翻它,而是試圖為其提供一個更強大的底層——「世界模型」(World Model)

  • 是基礎(Foundation)而非替代: Marble 的核心是一個**「神經空間引擎」(Neural Spatial Engine)。它專注於生成具備「物體恆常性」(Object Permanence)的 3D 空間。相較於傳統 VLA 可能只是將指令映射到動作,Marble 提供了一個讓動作發生在其中的、物理上一致的數字容器**。
  • 三位一體的結合: 她理想中的模型(職業生涯的巔峰目標)是同時具備以下三種能力的模型:「看見」(感知)、「做」(規劃與行動)以及**「想像」**(將想像轉化為創造)。Marble 目前專注於「想像」與「生成」一致的 3D 世界,這是實現高級「行動」的前提。
  • 早期探索(VoxPoser): 在成立公司之前,她的實驗室開發了 VoxPoser,這其實就是一種高級的 VLA 嘗試。它利用 LLM 分解任務、VLM 識別目標,並生成 3D 價值圖來指導機器人行動。這證明了她認同 VLA 的方向,但認為需要更強的空間表徵。

3. Marble 是否「推翻」了 VLA?

與其說推翻,不如說是**「範式的升級」**:

  • 從統計模擬到物理推理: 她指出目前多數 VLA 或視訊模型的物理現象(如水流)只是海量數據的統計學湧現,而非真正的因果理解。Marble 試圖透過顯式的 3D 表徵,讓 AI 真正理解空間幾何,這將使未來的「行動」(Action)更加精確且符合邏輯。
  • 隱式與顯式的融合: 雖然有些流派(如楊立昆)主張學習世界的「隱式表徵」,但李飛飛的 Marble 刻意選擇輸出顯式的 3D 表徵。她認為這兩者最終必須融合,才能建構出全能的世界模型,進而賦能給人類創作者與機器人。

總結來說:李飛飛並非推翻 VLA,而是認為現有的 VLA 缺乏「空間智能」與對「世界模型」的深刻理解。她的 Marble 產品是為了建構一個具備幾何一致性與物體恆常性的 3D 底座,讓未來的 VLA 模型能從單純的「預測下一幀像素」進化到在「理解物理法則的空間」中進行推理與行動。

李飛飛(4) 她的公司及研究室的願景及主張

 根據來源資料,李飛飛教授目前最主要的商業實體為她創立的 World Labs,此外她也是史丹佛大學「以人為本人工智慧研究院」(HAI)的共同創辦人。

以下針對 World Labs 的產品、願景、價值主張及機器人領域的合作進行詳細說明:

1. 創立公司與主要產品:World Labs 與 Marble

  • 主要公司: World Labs 是一家以研究為主導的空間智能公司。
  • 核心產品: Marble。這是該公司的首個商業產品,定位為 3D 世界生成工具
  • 技術底座: Marble 背後的技術核心是 「即時幀模型」(Real-Time Frame Model, RTFM)
  • 產品特性:
    • 空間一致性: 與一般的視訊生成模型不同,Marble 致力於生成具有**物體恆常性(Object Permanence)**的 3D 空間,即當使用者在生成的空間中轉身再轉回來時,物體依然存在且保持原狀,而非隨機變形。
    • 多模態輸入: 支援純文字、單張或多張圖像、視訊,甚至是粗略的 3D 佈局作為輸入。
    • 高效能: 其目標是在單張 H100 GPU 的算力約束下,實現高效的 3D 空間推理與即時生成。

2. 願景與價值主張

  • 願景: 開啟 「空間智能」(Spatial Intelligence) 的新前沿,打造能理解物理世界、具備推理能力且能與之互動的 AI。
  • 核心價值:
    • 神經空間引擎(Neural Spatial Engine): 將 AI 打造為創作者(如遊戲開發者、建築師、影視特效師)的引擎,結合物理引擎的確定性與生成式 AI 的創造力。
    • 以人為本(Human-Centered): 堅持 AI 應是用於 「增強 (augment)」 而非取代人類能力的工具,保護人類尊嚴與能動性。
    • 數位多重宇宙: 透過大幅降低 3D 內容生成門檻,創造無限的數位平行世界,作為人類物理體驗的延伸。

3. 人形機器人與具身 AI 領域的合作夥伴

雖然 World Labs 目前側重於世界模型的基礎建設,但李飛飛教授及其史丹佛實驗室在具身 AI 領域已有深厚的合作佈局:

  • NVIDIA(英偉達): 在 Behavior Benchmark 專案中,李飛飛團隊與 NVIDIA 的 Omniverse 團隊密切合作,利用其模擬環境為機器人提供具備物理規律(如熱能、光影、碰撞)的高保真訓練場景。
  • 史丹佛醫學院及醫院: 在環境智能(Ambient Intelligence)與機器人輔助方面,與史丹佛醫學院、史丹佛兒童醫院及猶他州 Intermountain 醫院合作,開發能監控手部衛生、追蹤手術器械及協助搬運物資的機器人系統。
  • 國際學術與醫療機構: 正開始與泰國、新加坡等地的機構合作,探索將具身 AI 應用於高齡者居家健康監測。
  • World Labs 內部團隊: 該公司團隊包含在 NeRF(神經輻射場)、ImageNet、數字人生成等領域的頂尖科學家,致力於為具身 AI 提供所需的「世界理解」底層技術。

李飛飛認為,世界模型將成為機器人技術的突破點,因為它能提供無數虛擬訓練場景,解決現實數據稀缺的問題,讓機器人從「技能級任務」進化為能理解人類意圖的協作夥伴。

李飛飛(3)對人形機器人的論點

 李飛飛教授針對人形機器人(及更廣泛的具身 AI,Embodied AI)的發展有著深邃且系統性的論述。她認為,要讓人形機器人真正走入人類生活,必須從「空間智能」與「世界模型」出發,彌合感知與行動之間的鴻溝。

以下是根據來源文件整理的詳細說明:

1. 主要論點:具身智能與空間智能

李飛飛的核心觀點是:「空間智能」是通往真正 AI 的基石,而智能的本質是「感知與行動」的循環

  • 具身智能 (Embodied AI): 她強調 AI 必須走出文字的限制,透過視覺和行動去體驗物理世界。人類的學習本質上是具身的,是在沒有語言的情況下透過與世界的互動(感觸重力、空間關係等)獲得的。
  • 看是為了做 (Seeing is for doing): 視覺不只是被動地接收光線,而是為了學習與行動。空間智能將感知與行動連結起來,形成了「看見、理解、行動、再學習」的良性循環。
  • 以人為本: 機器人的開發應以**「增強 (augment)」而非「取代 (replace)」**人類能力為目標,將人類尊嚴與福祉置於核心。

2. 目前的痛點與瓶頸

李飛飛指出,當前的機器人技術仍處於早期階段,面臨以下挑戰:

  • 「黑暗中的文字匠」: 現有大語言模型(LLMs)雖博學,但對物理規律和空間關係幾乎一無所知,缺乏物理常識。
  • 任務侷限性: 目前大多數機器人仍掙扎於**「技能級任務」(單一動作)、「短期目標」「封閉世界指令」**(只能理解預設好的指令)。
  • 數據稀缺與缺乏標準化: 相比於視覺和語言領域,機器人學習缺乏大規模、標準化的數據集,實驗設置往往是實驗室特有的,難以推廣。
  • 感知與行動的斷裂: 機器人往往能「看見」物體,但無法準確預測動作後的後果,難以在三維空間中進行長程規劃。

3. 建議的解方

針對上述瓶頸,李飛飛提出了幾個關鍵技術路徑:

  • 構建「世界模型」(World Models): 打造具備生成性、多模態、交互性的模型。世界模型應能根據動作指令預測世界的下一個狀態,並協助機器人規劃路徑。
  • 大型數據基準測試 (BEHAVIOR): 她的團隊開發了 BEHAVIOR 專案,針對 1,000 種人類真實需要的日常家庭任務(如洗碗、摺衣服)建立標準化基準,讓機器人在虛擬環境中進行大規模訓練。
  • VoxPoser 框架: 利用大語言模型 (LLM) 分解任務指令,並結合視覺語言模型 (VLM) 識別目標與障礙物,生成 3D 價值圖來指導機器人的運動規劃。
  • 虛擬模擬與合成數據: 利用 3D 空間模型產生的模擬環境,提供機器人無限的訓練可能性,解決現實世界採集數據成本過高的問題。

4. 未來的發展趨勢及前瞻機會

李飛飛看好空間智能與具身 AI 在未來 5 到 10 年內將迎來巨大突破:

  • 醫療與照顧: 解決護理勞動力短缺問題。未來將有自主機器人運送醫療物資,或環境智能監控患者風險(如防止跌倒),甚至出現輔助手術的增強現實技術。
  • 腦機介面 (BMI): 李飛飛實驗室已展示透過 EEG 腦電波訊號控制機器人手臂完成煮壽喜燒等複雜任務,這為重度癱瘓患者重獲行動能力帶來希望。
  • 協作夥伴: 機器人將從工廠走入家庭,成為能理解人類意圖、與人類自然協作的夥伴。
  • 數位多重宇宙與遙操作: 透過大幅降低 3D 內容生成門檻,人類可以遠端操控具身化身 (Avatar) 在全球甚至外星環境協作工作。

比喻來說: 當前的 AI 就像是一個**「雖然飽讀詩書卻從未出過房門的學者」,而李飛飛的目標是為它裝上眼睛、大腦與手腳,讓它成為一個「能觀察物理規律、並在現實世界中幫你打掃客廳或做三明治的實幹家」**。

李飛飛(2)對AI的論點

 李飛飛教授(Dr. Fei-Fei Li)作為 AI 領域的先驅,其論點核心圍繞著如何讓人工智慧超越目前的文字局限,轉向對物理世界的深層理解。根據提供的來源文件,李飛飛對於 AI 的主要論點可以歸納為以下幾個面向:

1. 核心觀念:空間智能(Spatial Intelligence)

李飛飛認為,「空間智能」是通往真正人工智慧的基石,也是她整個研究生涯的「北極星」。

  • 認知的腳手架: 她將空間智能比喻為**「人類認知賴以建立的腳手架」**。空間智能並非僅是視覺辨識,而是支撐人類感知、理解、推理和創造的底座。
  • 感知與行動的循環: 她指出智能的演化始於動物為了生存而產生的「感知-行動」循環。空間智能將感知與行動連結起來,使我們能預測物體運動並協調自身動作。
  • 超越語言的知識: 她強調大量的人類智能(如空間推理、急救反應)是非語言的,語言只是世界的「有損壓縮」(lossy compression)。

2. 對當前 AI 的批判:黑暗中的文字匠

儘管大語言模型(LLMs)表現驚人,李飛飛對其局限性提出了深刻的觀點:

  • 黑暗中的文字匠: 她形容現在的 AI 是**「黑暗中的文字匠」**,意指它們擅長處理符號和模式,但對實體的物理世界缺乏真正理解。
  • 缺乏物理常識: 現有的模型在理解深度、距離、三維結構以及物理規律(如重力、碰撞)方面存在根本性局限。目前的生成式視訊多是基於「統計學湧現」而非對物理定律的「因果推理」。

3. 未來方案:世界模型(World Models)

為了賦予 AI 空間智能,李飛飛提倡構建「世界模型」,這被視為下一代的生成式 AI。她認為一個理想的世界模型應具備三大核心能力:

  • 生成性(Generative): 能生成完整且內在一致的世界,滿足幾何、物理與動態的連貫性。
  • 多模態(Multimodal): 必須是**「原生的多模態」**,融合視覺、聽覺、觸覺、語言等多種感官資訊來推斷世界狀態。
  • 交互性(Actionable): 模型能預測「動作」後的狀態,並根據目標(如打掃客廳)規劃動作流程。

4. 具身智能(Embodied AI)與機器人

李飛飛主張 AI 必須**「走出文字的限制」,透過視覺和行動去體驗物理世界,這種學習過程本質上是「具身」**的。

  • 閉合環路: 她強調技術上必須「閉合感知和行動之間的迴路」,讓機器人從單一技能的訓練轉向能在複雜、開放的環境中自主運作。
  • 協作夥伴: 機器人的最終目標不是取代人類,而是成為能理解人類意圖、與人類和諧協作的夥伴。

5. 以人為本的 AI(Human-Centered AI)

這是李飛飛一貫堅持的社會價值觀點:

  • 增強而非取代: AI 的價值在於**「增強 (augment)」**而非取代 (replace) 人類的能力。
  • 核心價值: 在討論 AGI 或 ASI(超級智能)時,必須將人類尊嚴、能動性與福祉置於技術研發與政策制定的核心。
  • 繁榮與分配: 她指出 AI 創造價值是技術問題,但財富與價值的分配是政策與社會問題,全球生產力的提高不一定能直接轉化為共享的繁榮。

6. 對「超級智能」與「創造力」的審慎態度

李飛飛質疑當前的 Transformer 架構是否能達到人類級別的抽象創造力。

  • 牛頓/愛因斯坦測試: 她認為 AI 或許能擬合資料規律,但目前尚無證據顯示其能推導出如「相對論」般深層的因果抽象概念。
  • 算法突破: 要實現真正的超級智能,可能需要一次算法上的根本性突破,而不僅僅是擴大現有模型的規模。

比喻來說: 如果說目前的大語言模型(LLM)是一位博覽群書但足不出戶的「書呆子」,只能在紙上談兵;那麼李飛飛所追求的空間智能與世界模型,則是希望把這位書呆子帶到現實世界中,讓他能真正用雙眼觀察三維空間、用雙手感觸物體質地,並學會如何在物理世界中生活與行動。

李飛飛(1)生平及經歷介紹

 李飛飛(Fei-Fei Li)博士被譽為**「AI 教母」,是當今人工智慧領域最具影響力的科學家之一,現任史丹佛大學教授**,並共同創立了史丹佛以人為本人工智慧研究院(HAI)

生平與學經歷: 李飛飛擁有傳奇般的奮鬥史,早年隨家人移民美國,曾有過艱辛的打拼歷程,甚至在紐澤西州經營過乾洗店。她在 2005 年獲得博士學位,隨後投身電腦視覺研究。其職業生涯最卓越的成就之一,是主導開發了規模宏大的 ImageNet 數據集,這項工作直接點燃了深度學習的火焰,奠定了現代電腦視覺的基石,並開啟了當代 AI 的爆發式成長。除了學術界,她也曾於 2017 至 2018 年間跨足產業界,擔任 Google 副總裁及 Google Cloud AI/ML 首席科學家。

現況與發展: 目前,李飛飛將其研究重心轉向**「空間智能」(Spatial Intelligence)「世界模型」(World Models)**,認為 AI 必須超越目前的語言模型局限,學習理解並與三維物理世界互動。為此,她創立了初創公司 World Labs,並於近期推出了首個商業產品 Marble。Marble 主打 3D 世界生成,強調具備「物體恆常性」,能產生在幾何與物理上保持一致的可視化空間,賦能遊戲、影視與建築等領域的創作者。

學術影響力與價值觀: 李飛飛目前也積極參與公共政策,擔任聯合國秘書長特別顧問,並協助白宮推動國家 AI 研究資源任務小組。她始終提倡**「以人為本」的 AI**,強調技術應增強(augment)而非取代(replace)人類能力,並堅持將人類尊嚴、福祉與主體性置於技術研發的核心。她在 2023 年出版的回憶錄《我看到的物理世界》(The Worlds I See),詳盡記錄了她對科學的好奇心與探索 AI 領域的歷程。

12/24/25

VoxPoser (3): 線上經驗優化動力學模型

  VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models   Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li1,, Jiajun Wu, Li Fei-Fei

在處理如開門、開窗或開冰箱等接觸密集型任務(contact-rich tasks)時,VoxPoser 透過將其零樣本(zero-shot)生成的軌跡作為先驗知識(prior),引導線上經驗的採集,從而高效地優化動力學模型,,。

以下是該優化過程的核心步驟與機制:

1. 利用零樣本軌跡作為探索先驗 (Exploration Prior)

在複雜的接觸任務中,如果機器人僅進行隨機探索(隨機採樣動作),效率會非常低下,因為大部分動作無法與目標物(如門把手)產生有意義的互動。

  • 知識引導: VoxPoser 利用大型語言模型(LLM)內化的常識知識(例如「開門前需要先按下把手」),預先合成一條零樣本路徑 $\tau^r_0$,。
  • 縮小搜索空間: 這條路徑雖然在物理細節上可能不夠精確,但它提供了一個非常有價值的動作分佈先驗,能將機器人的注意力集中在任務相關的區域。

2. 局部探索與數據採集

機器人不會在整個動作空間中盲目搜索,而是圍繞著預合成的軌跡進行局部探索

  • 添加噪聲: 在線上互動過程中,系統會在預合成路徑的每個路徑點(waypoint)中加入微小的噪聲 $\epsilon$(例如 $\epsilon \sim \mathcal{N}(0, \sigma^2)$),。
  • 數據收集: 透過這種受限的探索,機器人收集環境的轉換數據 $(o_t, a_t, o_{t+1})$,其中包含當前觀察、執行的動作以及產生的新觀察。

3. 動力學模型的迭代訓練

收集到的數據被用於訓練一個動力學模型(例如一個多層感知器 MLP):

  • 損失函數: 訓練目標是最小化預測觀察值 $\hat{o}{t+1}$ 與實際觀察值 $o{t+1}$ 之間的 L2 損失,。
  • 循環優化: 代理人會在「數據收集」與「模型訓練」之間不斷交替,隨著數據增加,動力學模型對物理接觸細節(如阻力、摩擦力)的理解會變得越來越精確,。

4. 學習效率與成果

這種方法顯著提升了學習效率:

  • 效率對比: 實驗證明,使用 VoxPoser 提供的先驗,機器人可以在不到 3 分鐘的線上互動中學會有效的動力學模型並成功完成任務。
  • 無先驗對比: 若不使用先驗進行探索,即使經過 12 小時也無法學會如何處理這些複雜的接觸任務。

總結比喻: 這就像是一位**「看過教學影片的學徒」**去學開鎖。傳統方法是讓學徒在黑暗中隨機亂摸,可能花上幾天都碰不到鎖孔;而 VoxPoser 則是先讓學徒在腦中記住「手要放在把手上往下壓」的大概位置(先驗軌跡),學徒只需要在那個位置附近輕微嘗試(局部探索),就能在幾分鐘內掌握開鎖的精確手感(優化動力學模型)。