

在噪声中宝石作念难而正确的事。
作家|刘杨楠
裁剪|栗子
具身智能行业,数据一直是要害卡点。模子厂商需要多数来自物理世界的确实数据试验模子,让机器东说念主变得更明智,能够更快走进家庭和工场。
于是,各方大建数采中心,具身数据正在越来越多,一些公司则定下了在2026年发布百万小时级数据集的主见。
但是,在这海量的数据中,实在能用于试验具身模子,让机器东说念主“明智”起来的数据,却仍然稀缺。因为大多数数据处于一种“综合景色”:时间戳无法对皆、模态不同步、标注信息不齐全、数据结构不合并。
变成这种“综合”的原因很复杂,当今还是有一些初创企业运转在其中寻找解法。2025年12月成立的智域基石,恰是其中十分有特色的一家。
智域基石提议了“数据编译”的全新理念,把在软件工程领域还是练习的“编译”观点引入具身智能数据处理,搭建了一套包含“质检、底座、编译、检索、请托”五个设施的数据编译管线。
这套管线既不是传统的数据标注,也不同于自动驾驶的数据清洗,它是一个需要同期长入机器东说念主实质、具身模子算法以及大数据工程的数据新基建。
当今,智域基石已完成数千万元天神轮融资,本轮投资方由四家代表性机器东说念主厂商——灵初智能、穹彻智能、浙江东说念主形、智平素(拼音序),以及紫江集团控股的紫竹高新区旗下VC投资经管平台小苗朗程共同组成。
近期,「甲子光年」与智域基石CEO杨哲轩、CTO徐良威、COO张计业进行了一次深度交流,试图理清在具身智能这场漫长的竞赛中,智域基石遴荐的数据编译赛说念,究竟是一门怎么的生意,又将走向何方?
1.具身智能需要“数据编译”
杨哲轩进入具身智能行业的时间不算长。

从左至右轮番为智域基石COO张计业、CEO杨哲轩、CTO徐良威,图片来源:智域基石
徐良威有腾讯、小鹏机器东说念主的从业布景,是实战告诫丰富的机器东说念主软硬件巨匠,熟悉具身智能算法对于数据的需求,也有丰富硬件落地的告诫。张计业则为前华为地市总司理,曾担任具身智能公司穹彻智能生态负责东说念主。
三个东说念主在行业里不雅察了快要两年。他们在意到,整个具身智能领域的“插足产出比”并不可不雅。2023 年,成本多数涌入具身智能赛说念,投模子、投实质、投零部件,但实在在产业端落地的效果却乏善可陈——不管工业场景如故家庭场景,并未出现非常亮眼的打破。
在杨哲轩看来,具身智能之是以难以落地,实践上在于它与物理世界的交互方式与大谈话模子或自动驾驶完全不同。
“大谈话模子的打破背后,有一个容易被淡薄的前提,它是罕有据的。”杨哲轩向「甲子光年」诠释,“GPT-3.5出来之后,国内投了几百亿,很快模子厂商就有所打破。为什么?因为算法是练习的,算力诚然病笃但不会成为中枢矛盾,要害在于数据还是存在了。”
自动驾驶亦然访佛的逻辑。说念路资源由政府提供,算作一种普惠的基建存在,主机厂只需把车立异后出发,汽车行驶过程中当然能够进行数据汇聚,简直莫得过多额外的数据汇聚成本。
“但具身智能不同。”杨哲轩说,“它是所谓的‘千行万业’,每进入一个场景都有成本、有门槛,因为你要跟物理世界斗争,要采数据、要跟东说念主调换、要处理多样价值分派联系。”
因此,场景越是碎屑化,单一模子公司或实质厂商自建数采体系的旯旮成本就越高。 一家作念工业拣选的公司,很难为了试验一个拧螺丝的技能,再去买通一个五金车间的入场权;一家作念家庭陪同的公司,也很难为了一次厨房场景的数据汇聚,去惩办千门万户的诡秘授权问题。
物理世界的非标与封锁,决定了大多数玩家很难靠“自力新生”拿到所需场景的高质地数据。恰是基于这一判断,三东说念主在一个月内马上达成共鸣:在物理世界的职业与数字世界的模子之间,必老助长出一个安祥的中间层,一个很是作念具身智能数据的“编译层”。
这一层不参与模子的阶梯之争,也不介入实质的硬件博弈,只专注于一件事:用工程化的工夫妙技,把确实场景中碎屑化的物理交互数据,调度为模子可消化、可实行的通用养料。
2.“数据编译”难在哪?
大概有东说念主会猜疑,自动驾驶或大谈话模子试验也需要多数数据标注责任,所谓“数据编译”是否仅仅万变不离其宗?
对此,徐良威诠释说念,机器东说念主试验所需的数据和自动驾驶、CV模子或NLP模子所需的数据类型有实践不同。
后者数据类型相对单一,频繁使用程序化剧本或者线性管说念,就能把原始数据变成模子可用的款式。但具身智能需要的数据的两个特色使得数据处理难度极大进步:第一是数据种类的多模态;第二,任务结构和操作语义的非程序化。
当今,合成数据、遥操数据、真机数据、东说念主类数据(Ego Centric 数据)是常见的四类数据类型。
在杨哲轩看来,数据的价值取决于试验的主见维度。
若是从“径直教机器东说念主动起来”这个角度看,机器东说念主遥操数据仍然是最径直灵验的。因为它们有动作监督,跟机器东说念主实行空间更近。
若是从“让模子变明智、懂任务、懂交互、懂长程逻辑”这个角度看,东说念主类数据(Ego Centric数据)的价值会越来越大。因为机器东说念主改日不可能只靠清脆真机数据堆出明白才略。
若是从“作念界限化膨大”这个角度看,仿真与合成数据不可或缺,但不可脱离确实世界校准。它更恰当膨大、补长尾、作念压测;但若是莫得真机闭环,仿真很容易越作念越漂亮、越作念越脱离请托。
因此,杨哲轩觉得,实在高效的机器东说念主试验数据不会只押一种形态,需要构建一套齐全的“数据配方”——用第一东说念主称/互联网数据学语义和技能先验;用遥操作数据学动作映射;用仿真数据扩展闪避面;用真机数据完成最终校准与闭环。
这个过程中,“要害问题不是比例,而是什么数据在什么阶段最有价值。”徐良威补充说念。
事实上, 这个要害判断还是成为一种行业层面的共鸣。本年年头东说念主类数据的爆发,是这项行业新共鸣的有劲印证。
不管是π0.6如故Generalist Intelligence 1(GEN-1),都让行业看到了一个共同论断:模子要具备泛化才略,要提高奏效力,必须依靠多层面、多阶段、多级别的数据。
为此,在智域基石的编译管线中,东说念主类(Ego-Centric)数据在管线中的攻击性会越来越高。因为Ego-Centric数据正在补足机器东说念主和物理世界交互的空缺。
智域基石正在自研Ego-Centric汇聚开导,试图从四个维度汇聚多模态、多维度、全场所的信息,涵盖实质(东说念主/机器东说念主)、器具(手/夹爪/聪惠手)、物体(操作对象)、环境(空间重建)四个方面。
以“拿杯子”的场景为例,一个东说念主用手去拿一个杯子,手和杯子之间产生了斗争联系。对应到机器东说念主,即是夹爪或聪惠手去操作杯子。Ego-Centric开导要作念的,是同期汇聚东说念主看到的信息、听到的信息、触摸到的信息,以及环境的空间重建信息。“这么才调产生一套齐全的数据对应联系。”徐良威说。
但是,东说念主类数据比传统真机数据更难处理。
“二者实践上莫得区别,都是确实数据,即发生在物理世界中、与环境有交互的数据。”徐良威诠释,“但Ego-Centric需要更多的算子来相沿从中索求结构和语义信息。因为它是通过东说念主的第一视角来不雅测,通过东说念主使用器具的决策来试验模子,这中间有一个‘翻译’的过程。”
机器东说念主试验对数据的尖刻需求,使得传统数据标注模式决然失效。
数据标注是职业密集型的责任,壁垒在于东说念主力成本和经管效力;数据编译是工夫驱动的责任,壁垒在于整个管线的算法才略和系统工程才略。
智域基石正但愿构建整套数据编译管线,把多种类的数据变成大多数模子不错径直使用的款式。就像此前C谈话、Go谈话、Rust谈话,最终十足被编译成Windows、Mac或Linux不错运行的方法。
不外,在智域基石的编译管线中,真机遥操示教数据和东说念主类第一视角数据将共同存在,对准不同的模子试验需求。真机遥操示教数据对准后试验或者是访佛π0.6的异构试验的需求,东说念主类数据则对准模子的预试验。正如GEN-1所展现的那样,基于新一代VLA架构的念念路,把连气儿物理交互当成一等公民来建模,可衣服开导在物理世界的交互算作模子的燃料。
但要作念成这件事,并回绝易。
因为具身智能的数据处理自然位于“机器东说念主硬件、模子算法、大数据工程”三者交织处的空缺地带。
跟着具身智能数据量级正迎来指数级的跃升,“懂算法的不懂工程量产,懂量产的不懂机器东说念主硬件”的结构性错位,不仅推高了行业的试错成本,更成为了制约具身大模子卓绝物理鸿沟的最大制肘。
而智域基石的团队天禀,决定了他们具备打造具身智能数据“新基建”的先决条目。智平素曾对智域基石赐与高度评价。他们觉得,智域基石的中枢上风,不仅仅作念数据,更在于能把确实场景中的数据汇聚、加工和末端反应闭环连续跑通,这对于具身智能产品迭代来说,具备非常现实的协同价值 。
当今,智域基石正在搭建了一条齐全的数据编译管线,开云并已取得市集初步认同。
3.具身智能的“数据编译”怎么作念?
智域基石搭建的数据编译管线包含五个要害设施,折柳为“数据质检-数据底座重构-数据编译-智能检索与组配-程序化打包与弹性请托”。
其中,第一环是数据质检,但它的攻击性恒久被行业淡薄。
原始传感器数据被纪录下来后,开端要靠近一起全量筛查,举例录像头是否丢帧、IMU是否漂移、要害数据是否齐全。
不同于行业内因成本所迫而浩荡继承的抽检模式,智域基石通过云原生疏散式架构,将质检拆分为细粒度狡计单位,在可控成本内完成对每一帧数据的“来料检测”。
杨哲轩补充说念,这种将质检收复为分散式狡计问题的念念路,使得同等自动化水平下的资源成本仅为传统决议的三分之一以致更低。
质检通过的数据,会进入具身数据底座。底座设施的中枢任务是时空对皆。
时间对皆相对容易长入,需要将不同频率的数据合并时间基准。录像头可能是15Hz或30Hz,IMU可能是200Hz以致500Hz,底座需要将这些不同频率的数据在时间维度上对皆,确保每一时刻的数据都能准确对应。
空间对皆则更复杂。机器东说念主与物理世界交互时,需要知说念“手在那里”“眼睛在那里”“操作对象在那里”,这些信息都必须通过开导外参来进行坐标系变换,对皆到唯一的物理空间中。“对皆之后,数据就从狼籍的、无步骤的景色,变成相对有序的、可被后处理的数据了。”徐良威说。
在底座进行时空对皆后,数据就精致进入“编译”设施,这是整套管线的“灵魂”。
徐良威诠释说念,底座惩办的是几何与时间上的对皆,但数据此时仍不具备语义信息。
编译设施的主见,即是从中索求出模子实在可用的特征。以机器东说念主提起杯子的任务场景为例,智域基石的数据编译才略不仅仅标注“用左手提起杯子”的动作标签,更包括杯子在桌面上的位置、周围物体联系、执取意图乃至从视觉数据中推理出的斗争景色。
数据编译的实践,是让原始数据产生出原来无法径直抒发的语义与物理交互信息。
编译完成后,数据进入第四个设施——检索。这是影响数据请托效力的要害设施。
从宇宙以致大家汇聚数据,涵盖数千上万种场景和操作对象,组合之后的数据种类是这个数字的无数倍。面对这么的数据海洋,模子公司需要从中精确挑选出特定场景、特定物体、特定技能的数据包,用于模子试验任务。这不仅是具身智能问题,亦然一个复杂的大数据工程问题。
智域基石通过自研的查询引擎,用访佛SQL的方式,每一份数据都带着丰富的元数据和语义标签,让客户能够从海量数据中高效定位所需素材。
终末一个设施是请托。检索与组配完成后,系统会将索求出的结构化片断自动打包为带版块号(如 v2.4.0)的程序化试验数据集,竣事开箱即用。
面对单次请托动辄数百TB的超大界限数据体量,智域基石还构建了一套弹性请托体系:既相沿兼容S3等云原生条约的专线直连与授权调用,也能针对极高安全等第的场景,继承高吞吐的物理阵列(硬盘)进行线下流转。
这种双轨并行的资产分发模式,绝对买通了从数据精粹厂到客户算力集群之间的“终末一公里”。
这条管线的中枢才略也备受投资东说念主认同。穹彻智能曾评价说念,智域基石的价值不仅仅补凑数据供给,更在于“能够把分散的场景需求千里淀为可程序化、可加工、可连续复用的数据资产”。灵初智能相同敬重其“将参差数据自动化编译成能径直进步任务奏效力的高质地试验输入”的才略。
拆解智域基石的数据编译管线后,「甲子光年」发现,数据编译带来的交易想象力,不啻在于数据交游的一锤子买卖,其实践是向模子或实质公司提供一种可连续迭代的“数据服务”。其中,涵盖三个极具张力的增长飞轮:
开端是工夫重构带来的复利效应。 编译管线每练习一分,处理新数据的旯旮成本便递减一分,这是一条典型的学问与工夫复利弧线。
其次是霸占界说具身智能数据程序的先机。 当模子厂商的试验代码运转依赖于特定的数据款式与接口表率,移动的成本将不仅是财富,更是时间与工程重构的隐性代价。
终末则是更恒久的生态价值。 一朝成为具身智能领域事实上的“数据款式界说者”,平台将实在成为运动上游物理世界与下流数字智能的必经阀门,其粘性将随生态蕃昌呈指数级跃升。
从这个真谛上说,智域基石这套数据编译管线还是具备了“具身智能数据新基建”的低级形态。而实在让它从“形态”走向“实质”的,是能否在真金白银的交易订单中跑通闭环。
至少在这极少上,成立仅四个月的智域基石还是交出了第一份答卷。
4.从工业场景切入,霸占数据进口
当今,智域基石成立仅4个月,但得手订单已达近亿元界限。
其中,天神轮的四家产业股东孝顺了首批需求。但杨哲轩强调,公司客户来源不啻于此,当今正在激动与更多模子厂商或场景方的和洽。杨哲轩坦诚地说,“算作一门户据公司,从一运转就有客户,瑕瑜常攻击的。”
因为数据本人不是产品,唯独在确实的模子试验任务中被考据为“灵验输入”之后,它才调实在开释价值。 一家莫得客户锚点的数据公司,极易堕入“拿着锤子找钉子”的工夫盲区,采顾虑的数据不知为谁所用,也不知是否合适最新的算法需求,最终沦为数据废物。
而智域基石将客户需求前置到公司搭建数据管线的过程中,股东中的四产品身智能企业既是出资方,亦然需求界说方。这意味着,智域基石的数据编译管线从想象之初就在确实的模子试验任务中打磨,并非闭门觅句。
在落地场景方面,智域基石遴荐从工业场景切入。
在杨哲轩看来,工业场景的界限显著、任务结构化、容错空间明确,更适配具身智能刻下的工夫练习度弧线。
对于公司的发展旅途,智域基石策画了显著的三个阶段。
第一阶段是2026-2027年,中枢任务是霸占数据进口。 具体计策是通过为头部客户提供定制化的结构化试验输入,设立市集口碑和信任联系。这个阶段的要害目的是场景闪避度和数据质地,在确实客户需求中打磨管线,设立程序化的数据处理经过。
第二阶段是2027-2029年,主见是程序化资产订阅。 当编译管线满盈练习之后,数据的组织方式、元数据款式、索引结构都不错程序化。客户不再需要定制化开发,而是不错遴荐订阅特定类型的程序化数据资产。
这个阶段亦然整个交易旅途中最难的一步。因为它要求数据处理才略满盈练习,能够在算法阶梯快速变化的具身智能行业中保持踏实输出。
第三阶段是2029年之后,主见是灵通API和开发者生态。 届时,智域基石的数据编译才略可能以API的神色对外输出,第三方开发者不错在平台上构建我方的数据处理器具和哄骗。
这条显著的阶梯图,是智域基石对自身改日的策画。但通往尽头的赛说念,从来不会唯唯一位参赛者。
「甲子光年」梳剪发现,刻下具身智能数据赛说念上至少已拥入四类玩家:
实质公司自建数采团队(如智元、宇树),上风是离场景近,残障是短少界限效应与跨实质通用性;互联网大厂入局(如京东),挑战在于大厂的组织架构能否稳健数据紧密化运营的“脏活累活”;传统数据标注公司转型,有东说念主力经管告诫但短少机器东说念主领域的垂直明白;以及与智域基石正面交锋的同类数据创业公司。
对于越发拥堵的赛说念,杨哲轩的格调稀疏坦然。他但愿行业不要过早关爱竞争。“咱们更关爱怎么匡助具身智能进入工业场景,怎么让增量资金进入行业。竞争是之后的事情。”他说。
在决定投资智域基石之前,小苗朗程里面对具身智能数据赛说念有过一次全面评估。小苗朗程发现,刻下国内约有一百产品身智能企业、大厂和产业方在自研硬件、尝试汇聚数据,整个产业在重叠造轮子,效力低下。实践是短少第三方能提供跨实质、跨各样模子需求的高质地数据,智域基石是业内少有的既具备工夫才略、交易前瞻性、又有显著阶段性落地念念考的团队。
而浙江东说念主形觉得:“智域基石最凸起的价值,在于其复合型团队能够实在深切工业现场,买通数据进口、加工处理到末端场景考据的齐全链路。这种面向工业落地的系统才略,能够与浙江东说念主形形成高效协同,共同推动东说念主形机器东说念主在确实场景中的试验与落地。”
谈及公司的中枢壁垒,杨哲轩一忽儿念念索后,给出了两个谜底:
“一是回味。咱们全员都配备顶级AI Coding Agent的研发东说念主员,连行政都要求有AI Native的责任俗例。咱们积极拥抱最初的器具,并把它调度为日常责任的一部分。二是团队,一个尊重事实、勇于自我批判和迭代的团队。咱们不彊求一运转就正确,但要求能够快速发现问题、修正标的。”
事实上,这亦然「甲子光年」在这家成立仅数月的公司身上所看到的,一种在当下具身领域十分稀缺的安详与求实。
他们描摹了一幅对于具身智能数据基础设施的稠密愿景,站在具身数据这个全社会高度关爱的风口上,但具体到落地上,他们莫得夸张的融资PPT,也莫得振奋东说念主心的愿景宣言,创举团队似乎并不喜线路太多对于“改日”的故事,更但愿聚焦当下的每一步——打磨工夫、 一步一个脚印地拿下订单。
“讲故事讲到终末,若是莫得实在创造价值,行业也就没了。”杨哲轩说。这大概恰是智域基石的生计玄学:在风口上保持澄澈,在噪声中宝石作念难而正确的事。
(封面图来源:AI生成)开云app登录入口
亚博体育中国官网注册登录