人形機器人邁向“具身智能”的核心瓶頸——高質量訓練數據,迎來了規模化供給。近日,國內最大的人形機器人訓練場——人形機器人數據訓練中心在京啟用,憑借萬平空間與年產超600萬條數據的能力,為行業注入寶貴“數據燃料”,旨在破解模型從仿真到真機的“現實落差”難題。
圖:人形機器人數據訓練中心
超萬平方米多元場景,搭建未來產業“練兵場”
步入訓練場,仿佛提前看到了“未來世界”。上萬平方米的空間內,1:1還原了工業智造、智慧家庭、康養服務和5G融合四大類共16個細分場景。
從中興的智能生產線到一汽集團的汽車車間,從順豐快遞的稱重打包到聯合利華公司的洗發水裝箱,以及海晨物流的紙箱打包等場景,每一個細節都真實還原實際作業環境。這里也是國內覆蓋場景最全、仿真程度最高的訓練場之一。
訓練場內,還能看到身高1.66米、全身40+自由度的“夸父”(Kuavo)人形機器人正在各個場景中刻苦“練習”。通過VR設備、動作捕捉系統等先進裝備,機器人學習著空箱回庫、物料分揀、稱重打包、產品裝箱等實用技能,執行成功率95%以上。目前,這些機器人已掌握20多項原子技能,能夠勝任搬運、巡檢、導覽、配送等多種任務。
圖:臺面清潔
圖:垃圾分類回收
政府企業協同,共筑具身智能“數據引擎”
作為落實國務院《關于深入實施“人工智能+”行動的意見》中“加強高質量數據集建設”要求的具體實踐,該訓練場由石景山區政府牽頭,聯合區屬產業公司、北京銀保產業園及人形機器人領軍企業樂聚機器人共同運營。項目通過整合政府、產業、高校、科研與金融多方資源,構建協同機制,為打造自主可控的具身智能基礎設施提供系統支撐。
“就像教孩子學走路需要大量練習一樣,機器人也需要在多種場景中反復訓練才能變得更聰明。”項目負責人介紹,“訓練場就是要解決機器人行業目前面臨的數據短缺問題。”
圖:快消品裝箱
圖:SMT料盤架下料
全流程數據閉環,實現具身智能數據“高質快產”
據了解,該訓練場年均可產出超600萬條高質量數據,規模居全國人形機器人訓練場首位。通過全國跨區分布式數采生產,平臺已與蘇州、濟南、合肥、鄭州等多地訓練場聯動,形成全國數據中樞,預計月數據產能可達5000小時。
負責人表示,該訓練場所有數據均來源于真機運行,具備跨本體、跨場景的遷移能力,有效應對了行業中存在的數據質量差、成本高、遷移難等痛點。依托自研數采平臺,通過采集、清洗、標注、導出四步流程,結合“自動+人工+模型”三重質檢機制,實現高質量數據交付,經專業機構認證,單條數據合格率達99%。
“以往各企業分散采集訓練,就像‘小作坊生產’,數據質量參差不齊。”技術人員介紹,“現在通過標準化、規模化的數據生產,我們能夠為整個行業提供高質量、低成本的數據服務。”未來,依托海量真實數據,團隊還將進一步推進數據標準制定和模型訓練工作,通過交互式訓練等方式,構建從單機控制到群體協作的完整訓練體系。
圖:小件工裝上料
突破數據瓶頸,賦能具身智能產業標準化發展
數據是人形機器人實現智能化的核心要素。當前,具身智能行業面臨數據質量參差不齊、多模態數據采集門檻高、數據規模與場景泛化能力不足等痛點。盡管視覺語言動作模型(VLA)為機器人實現跨平臺、跨場景泛化能力提供了技術路徑,但其性能很大程度上依賴高質量、大規模訓練數據的支撐。同時,仿真數據、合成數據等無法完全復現真實物理交互、傳感器噪聲、環境動態擾動、執行器延遲等細節,而真機數據是模型從“紙上談兵”走向“現實落地”的關鍵橋梁。
據負責人介紹,該訓練場已建立全流程標準化數據體系,正積極推動異構數據融合與開放合作,所提供的數據集可直接用于訓練通用型機器人基模型(Base Model),為行業構建跨本體、跨任務的數據公共基礎,助力我國人形機器人產業實現標準化、規模化發展。
“訓練+應用+孵化+科普”四位一體,打造全國具身數據服務平臺
訓練場創新構建“訓練+應用+孵化+科普”四位一體發展模式,致力打造全國具身智能公共數據服務底座平臺。不僅推進具身語料服務與數據交易,同時聯合北京通用人工智能研究院等機構加強“具身大腦”研發與應用;通過產業基金支持創新孵化、舉辦“第一屆具身智能操作任務挑戰賽”等高水平賽事,并面向社會開展科普教育與人才培養,積極構建開放協同的產業生態。
圖:“訓練+應用+孵化+科普”
該訓練場的投用,為我國人形機器人產業按下了快進鍵。它不僅是機器人的“技能培訓學校”,更是推動其從實驗室走向規模化應用的基石。隨著機器人在這里完成“實訓”并走向市場,一個智能機器人與人類協同工作的新時代正加速到來。