挖貝網(wǎng)> 產(chǎn)業(yè)> 詳情
卓世科技具身智能大腦Tri-Core:從“端到端”到“三核協(xié)同”的架構演進
在具身智能的落地進程中,行業(yè)長期受困于泛化能力與控制精度的權衡。傳統(tǒng)的控制論方法精度高但缺乏語義理解,而基于大模型的端到端方案雖然具備了一定的效果,卻往往受限于推理延遲,難以應對物理世界的瞬態(tài)變化。卓世科技構建了行業(yè)首個集成直覺(System 1)、邏輯(System 2)、共情(System 3)的“三核協(xié)同”具身大腦解決方案Tri-Core。本文將從架構設計、核心算法實現(xiàn)及數(shù)據(jù)訓練策略三個維度進行深度解析。

一、架構總覽:三核閉環(huán)
相比于目前主流的單一VLA(Vision-Language-Action)模型架構,我們采用了類腦的模塊化設計,受認知心理學中雙系統(tǒng)理論的啟發(fā),并構建了以下三核協(xié)同的層次化的系統(tǒng):
●System 1 (小腦): 基于VLA的反應式控制,負責實時生成高頻率動作。
●System 2 (大腦): 基于VLM的長程規(guī)劃,負責因果推演和復雜任務拆解。
●System 3 (共情系統(tǒng)): 負責情感計算與倫理安全,賦予系統(tǒng)“擬人化”的思考。
這種架構的核心優(yōu)勢在于異步計算,即System 1在邊緣側高頻運行以保證實時性,而System 2在云端或高算力單元低頻運行以保證邏輯正確性以及深度推理。
二、System 1:基于流匹配的VLA模型
System 1的定位是“小腦”,負責動作的執(zhí)行,其核心指標是響應速度與魯棒性。
該VLA模型采用了Mixture-of-Transformers (MoT) 架構,將視覺語言模型(VLM)和動作專家(Action Expert)統(tǒng)一建模。
動作專家:早期的VLA模型(如 RT-2)通常采用離散化的Token進行自回歸生成。然而,這種方式在處理連續(xù)的人型臂動作時,往往會出現(xiàn)動作不平滑的問題,且推理速度較慢。我們在 System 1 的動作專家中引入了 Flow Matching(流匹配) 生成范式。不同于擴散模型需要繁瑣的去噪步數(shù),F(xiàn)low Matching 通過學習從高斯噪聲到目標動作分布的向量場,能夠以更少的推理步數(shù)生成高質(zhì)量的連續(xù)動作軌跡。
視覺專家:System 1的小尺寸VLM由System 2的大尺寸VLM通過知識蒸餾獲得。
訓練策略:為了使得VLA模型獲得足夠的泛化能力,我們進行了2階段的訓練
(1)Stage 1: 跨具身預訓練。這一階段使用開源具身數(shù)據(jù)集,包含多種形態(tài)機器人的數(shù)據(jù)。雖然這些數(shù)據(jù)對應的動作空間不一致,但能極大提升模型的泛化認知能力。
(2)Stage 2: 單一具身后訓練。這一階段使用目標機型的任務導向數(shù)據(jù),針對特定的垂直場景進行微調(diào),進一步強化模型在目標機型上的穩(wěn)定性和準確性。
三、System 2:具備物理世界能力的邏輯規(guī)劃器
System 2是基于璇璣玉衡大模型構建的“大腦皮層”,是一個大尺寸的視覺語言模型(VLM)。它的核心任務是將用戶的自然語言指令以及捕捉的視覺圖像轉(zhuǎn)化為System 1可執(zhí)行的原子動作序列。
為了使其具備物理世界能力,我們在通用多模態(tài)理解、具身規(guī)劃、空間感知等數(shù)據(jù)集上進行多階段微調(diào)。
此外,為了提升“大腦”的思考能力,我們并未直接讓System 2輸出指令,而是強制其進行隱空間模擬。在執(zhí)行不可逆操作(如“打碎雞蛋”)前,System 2會基于物理常識預測后果。
例如,面對“清理桌面”的指令,System 2 會構建如下思維鏈:
識別物體(水杯, 書) -> 判定物理約束(書在水杯下) -> 預測風險(直接抽書導致水杯傾倒) -> 生成修正計劃(先移開水杯,再拿書)。
這種具備物理一致性的推理能力,是目前通用大模型所不具備的。
四、System 3:情感中樞
這是卓世科技架構中獨特的一環(huán)。在傳統(tǒng)的機器人學中,人機交互通常是基于規(guī)則的硬編碼。而我們將其提升到了模型層面。
System 3是一個并行的輕量級多模態(tài)模型,負責多模態(tài)情感感知,它實時處理視覺(面部微表情、姿態(tài))和音頻(語調(diào)、語速)信號。
通過對這些非語義信息的分析,系統(tǒng)能夠計算用戶的情感狀態(tài)向量,如[焦慮, 放松, 憤怒, 快樂]。從而影響System 2的推理決策。
此外,System 3還充當了倫理安全過濾器的作用,它擁有比System 2更高的中斷權限。一旦 System 2 的規(guī)劃路徑觸犯了預設的倫理邊界(如檢測到路徑上存在生物體且存在碰撞風險),System 3 會直接在底層熔斷控制信號,確保絕對安全。
五、Benchmark

在具身行業(yè)權威基準測試SimplerEnv和LIBERO中,卓世具身大腦Tri-Core均取得了SOTA水平,超過了π0、英偉達GROOT N1.5等前沿模型。
基準測試介紹:SimplerEnv 是一個專為評估機器人真機策略而設計的閉環(huán)仿真環(huán)境,旨在解決“Sim-to-Real(仿真到真機)”和“Real-to-Sim(真機到仿真)”之間的鴻溝。LIBERO是專為終身學習和知識遷移而設計的基準測試集。
六、結語
卓世科技具身智能大腦的研發(fā)初衷,是試圖回答一個核心問題:如何讓AI不僅具備“智能”,更具備“本能”與“人性”。
通過System 1的極致快思考、System 2的深度慢思考以及System 3的價值對齊,我們正在重新定義智能體與物理世界的交互方式。這不僅僅是算法的創(chuàng)新,更是系統(tǒng)工程的突破。
探索永無止境。未來,卓世科技將進一步加快具身大腦的迭代進程,堅定不移地加大對 VLA 模型與世界模型的研發(fā)投入。我們將持續(xù)深化模型對復雜物理規(guī)律的理解與泛化,引領具身智能邁向更加通用、智能與安全的新紀元。
相關閱讀
- 勁方醫(yī)藥公布2025業(yè)績:營收增近25%、現(xiàn)金儲備超20億
- 400顆中出一顆、一年只賣36天,京東生鮮電白千禧12°小番茄
- 凈水器加盟免加盟費:IMRITA愛瑪特低門檻入局,以賦能助力創(chuàng)業(yè)
- 晶泰控股發(fā)布 2025 年年度業(yè)績報告
- 神州信息斬獲TOP級城商行對公場景大模型應用項目
- 全球采購商云集 cippe2026搭建油氣產(chǎn)業(yè)精準對接平臺
- 共筑海洋強國新征程 第十六屆北京國際海洋工程技術與裝備展覽會隆重開幕
- 七十余年真實音畫積淀再跨越:東芝電視開啟“原色RGB Mini LED”新紀元
- 數(shù)字賦能 文創(chuàng)破圈 第 53 屆北京禮品展開幕 激活北方禮采新動能
- 2025-2026年辦公室裝修公司推薦:科技公司研發(fā)實驗室裝修靠譜企業(yè)及案例解析
推薦閱讀
快訊 更多
- 01-28 11:21 | 啟佑志愿重磅升級:首創(chuàng)“就業(yè)導向型”志愿填報新模式,破解升學與就業(yè)脫節(jié)難題
- 07-09 13:16 | 三重煥新,啟航未來——Pivotal中文品牌發(fā)布暨喬遷新址、新官網(wǎng)上線
- 04-10 11:21 | 為“首發(fā)經(jīng)濟”注入創(chuàng)新動力,CMEF見證寬騰醫(yī)學影像技術革新
- 02-20 18:53 | 手機也要上HBM芯片?三星計劃推出移動版HBM,預計首款產(chǎn)品2028年上市
- 12-30 16:40 | 國產(chǎn)首款DDR5內(nèi)存問世!價格戰(zhàn)開啟,復制長江存儲擊敗三星路徑!
- 12-30 16:36 | 華為手機回歸第一年:全年銷量或超4000萬臺 有望憑借Mate 70在高端市場擊敗蘋果
- 11-26 18:19 | 眾興菌業(yè)擬與漣水縣人民政府簽訂《招商引資合同書》 擬投資設立漣水食用菌產(chǎn)業(yè)園項目
- 11-26 18:16 | 美芝股份中選vivo全球AI研發(fā)中心-精裝工程采購項目(標段二)
- 11-26 18:14 | 健之佳擬用不超1億回購公司股份 維護公司價值及股東權益
- 11-26 09:53 | 格靈深瞳收購深圳市國科億道科技有限公司部分股權并增資5000萬
