2024年11月12日
300年汽车史:艰难创新突到全球普及
从 1712 年纽科门发明的蒸汽机,到 1896 年福特 T 型车。岁月匆匆,一晃而过 184 年。
这 184 年,有无数人的名字写在了汽车的发展史上。法国人居纽于 1769 年制造了世界上第一个款蒸汽驱动的三轮汽车。这辆被命名为“卡布奥雷”的汽车,速度只有 3.5 千米每小时,和人步行的速度接近,但远远赶不上马车的速度,不奇怪这样的发明会被当时的人们各种揶揄。
“卡布奥雷”号,虽然缓慢,但确实人类开始思考如何利用更有效能量利用的方式。放到更加宏观的背景里,这种尝试和第一次工业革命共振,为后续的发展奠定基础。
蒸汽汽车无法发展的根本原因在于能量转化效率过低。利用高温蒸汽推动机械运转需要烧很多的开水。如果能量转换效率过低,就需要携带大量能源。通过燃烧煤炭烧开水,产生蒸汽驱动装置前进,这往往在载货量很大的火车上有发展。
好在,人类的创造力是无穷的。1866 年,德国工程师奥托成功的试制出划时代意义的立式四成冲程内燃机。而可燃气体的构想则是由 72 年前,由英国人斯垂特,在 1794 年提出。
此后汽车行业的发展开始了加速。短短 19 年后,德国人本茨在 1885 年研制成功世界上第一辆汽车。这一时刻距离开始福特汽车公司成立,只有 11 年。距离福特汽车发明 T 型车,只有 12 年。距离奠定全世界汽车工厂生产方式的流水线,只有不到 6 年。
从蒸汽时代到内燃机时代,汽车工业想要解决的是可用性问题。大部分的从业人员日思夜想想要解决的是能量转移效率和有效载荷的问题。
从内燃机时代到流水线制造的时代,汽车开始从旧时王谢堂前燕,开始飞入寻常百姓家。这个时候需要解决的是生产效率和成本的问题,流水线生产应运而生。流水线生产的成功,大幅削减了汽车生产制造的成本,从而让家庭驾车从神话变成了现实。福特 T 型车在 1927 年停产前共售出 1500 万辆,这是 T 型车和流水线生产共同创造的辉煌,也奠定了美国汽车工业的基础。流水线生产汽车工业的发展史上是一个重要里程碑。
自 1914 年后,汽车工业开始进入了发展的快车道。客户需求开始多样化,催生了服务不同客户需求的细分品牌。汽车原材料开始演变,催生了薄钢板轧制、玻璃、颜料的快速干燥等一系列新技术。汽车作为一个国家或地区的支柱性产业,深远的重构了所在地的生产关系。
不同地区,基础设施的不同,天气条件的不同,对于汽车的需求也不尽相同。在意大利,因为国民收入低,油税较高,街道下闸,停车条件首先,二战后则重点发展了小型车。相反在瑞典,油料税低,国民收入高,城市人口密度小,冬天寒冷,驾驶条件恶劣,大功率发动机,耐寒汽车则得到了更多的发展。
随着人们生活的水平日益的提高,结合碳中和意识的兴起,叠加自动驾驶的智能化趋势,这才有了以美国特斯拉和中国“蔚小理”、BYD和吉利这样的电车的一席之地。
具身智能:30年的风起云涌,落地之路需你我同行
回顾汽车早期发展历史,汽车之所以能进入千家万户是解决了两个核心问题。第一个核心问题是能否产生价值,第二个问题是能否规模化生产和制造。
那么具身智能呢?可能也绕不开这两个核心问题。但解决的顺序可能稍有不同。具身智能和汽车有共同点。首先他们都是工业制造,需要真的建设工厂和产线,来生产和制造产品。但他们有一个很大的不同点:汽车是在发展后期才有智能的概念,但具身智能一开始就有智能的概念。如果说汽车的发展史是人类驯服能源,驯服冶炼工艺的过程,具身智能可能除了这些以外还需要对智能压缩也需要进行一系列驯服过程。
在真的展开讨论之前,先回顾一下具身智能(EAI)的历史:
1991年:罗德尼·布鲁克斯发表了《没有表征的智能》,提出了行为主义智能的概念。
1999年:罗尔夫·普费弗和克里斯蒂安·谢尔发表了《理解智能》,提出了具身智能或具身认知的理论。
2005年:琳达·史密斯提出了具身假说,强调了身体与环境互动在认知过程中的作用。
2012 年:基于深度卷积神经网络 CNN 的 AlexNext 首次在 ImageNext 图像分类竞争中被引入。
2020 年:OpenAI 发布 GPT-3 模型,模型参数量达 1750 亿,展现出涌现能力,成为认知智能领域的标志性突破
如同前文提到,具身智能从一开始在学术界讨论时就已经蕴含了智能的概念,这点是和早期汽车工业发展初期最大的不同。从自动驾驶的领域来看,智能的产生需要不断迭代的模型和源源不断的数据。这些数据不是简单的数据,而是像错题库一样的场景数据。只有积累足够多的场景数据,才能像 Tesla 的 FSD 一样有令人惊艳的表现。回顾早期 Tesla 的发展历史,他的核心战略目标是先将带着传感器的车卖出去,然后通过 OTA 的方式更新软件,创造性的提出了软件定义汽车的交付新形式,通过不断的迭代 OTA,提高了消费者的满意度,从而完成了公司增长飞轮的搭建。对于 Telsa 的擎天柱,马斯克大概率也想重复这样的路线。
对于具身智能行业来说,可能最佳的路线也是如此。现阶段,大家都有的共识是:数据对于具身智能至关重要。但是在如何获取数据上,路径没有收敛。有坚持合成数据路线,有坚持真实数据路线,也有以有限真实数据辅以大量合成数据的混合路线。对于刻行时空而言,我们认为这几者并不冲突。合成数据路线可快速获得大量数据,可能在位姿估计,抓取等偏控制逻辑的场景中有很好的表现。而真实数据在如何理解环境和应对新应用场景场景时的作用又无可替代。合成数据主要面临“现实差距”的挑战,即模拟环境与现实世界之间的差异,这些差异包括物理、光照和意外交互等方面。在需要高度真实交互的场景中,如精密操作和复杂环境导航等,仿真环境通常无法满足需求。
不管获取数据的路线如何,有一点是明确的:大语言模型中的规模效应,在具身智能领域也一样有效。换句话讲,真正的核心问题不是数据的路线问题,而是数据的数量与质量的问题。对于数据的数量问题,需要解决的第一步是如何让不同构型的机器人能被使用起来,能证明其“可用性”。只有这样,具身智能才能开始真正的积累数据。而这应该是行业的需要一起解决的问题。只有这样,才能和 Tesla 一样开始打造具身智能的飞轮,才能真正开始收集时空多模态数据,才能真正让机器人具备智能化的特征。
合成数据的获取路径相对简单,只要搭建相应的模型,在仿真器里进行渲染即可。但真实世界的数据往往没那么简单。真实世界的数据获取往往需要依赖遥操作的方式在机器人本体上进行操作来获取数据。在刻行时空与行业客户共创解决方案的过程中,我们发现如下问题:
数据能在不同构型的机器人上复用么?
如何才能搭建最小的场景,快速低成本的采集数据,同时让具身智能真的发挥价值?
合成数据与真实数据如何管理,数据如何与算力进行匹配?
软件生态如何与硬件更好的结合来提升具身智能的能力?
数据能在不同机器人上复用么?这个问题真的想问的是,具身智能的数据集的获取的成本能否指数级下降?如果能有一套训练框架,只要提供同样构型机器人(所谓构型,定义可以是双臂,自由度相同)的数据进行训练,其训练结果可在不同平台的机器人使用,那么具身智能的智能成本便可以迅速下降。可喜的是,清华大学朱军团队的 Songming Liu 和 Lingxuan Wu 在 RDT 论文里正在作这样的探索。随着行业的努力,这个问题是一定能被部分甚至完全解决。
如何才能搭建最小的场景,快速低成本的采集数据,同时让具身智能真的发挥价值?这个问题更多和场景方相关。我们注意到一些头部的主机厂正在和头部的具身智能公司展开联合实验。但是场景是否最小,数据采集成本是否可控,数据链路是否闭环,这些可能都还在非常早期的探索。刻行时空也有幸与一些行业头部正在探索这一问题的解决。利用团队在自动驾驶和服务机器人行业的经验,帮助行业一起来解决这些疑难杂症。
合成数据与真实数据如何管理,数据如何与算力进行匹配?当数据只有 1 万条,可能一台笔记本电脑就可以管理。但是当数据变成几十万条,在多个团队之间的时候,如何管理数据便成为了一个很大很痛的问题。很多人会觉得一开始不需要管起来,但如果一开始就用一个正确的打开方式将数据有效的管理起来,可能未来数据量增加的时候,企业应对企业也能更加游刃有余。就具身智能行业现状来讲,创业团队大部分都来自于高校和实验室。有过真正企业管理与经营经验的人不多,这往往造成的问题是他们更多的重视的是眼前的问题而忽视了一些长远的规划。正是因为对于长远规划问题的忽视,往往会造成企业长期竞争力的缺失。管理学之父德鲁克很早的时候就说过一个很重要的观点“做正确的事情往往比正确的做事更重要”,那些长远的规划,比如数据管理能力的建设,就是正确的事情,更需要领导层更加关注。另外一个重要的点就是具身智能的数据量还远没有达到一个特别大的量级,但是从大语言模型的经验来看,数据量是一定会上升,到那时我们一定会遇到数据如何与算力进行匹配的问题。
软件生态如何与硬件更好的结合来提升具身智能的能力?软硬结合的问题已经成为具身智能能力提升的关键挑战。具身智能系统的软件不仅要能够高效地处理和解释由硬件传感器收集的数据,还要能够与硬件平台紧密集成。首先机器人缺乏统一的操作系统和标准化软件开发工具链,目前市场上存在多种机器人操作系统,如 ROS 或基于 Linux 自行开发等,由于采用了大量开源组件,常会出现兼容性或版本升级导致系统不可用的情况,增加了开发难度,带来开发时间和成本的增加。其次算法成熟度不高。虽然学术界的算法不断迭代,推陈出新,但在实际应用中仍面临挑战。例如,在3D 场景中的情景问答(SQA3D)任务中,当前最先进的模型也只能达到约47.20%的准确率,远低于人类的 90.06%。最后是软硬件解耦难题,硬件在移动空间需要做到厘米级别,手眼协调的空间做到毫米级别,具身智能模型才能够实现动作控制算法与产品形态的紧密耦合。
一个新行业在发展的过程中,仁人志士怀揣热情,挥洒热血,一定能将行业的边界往前推进。刻行时空也希望能与诸位一起共创,解决行业的一些疑难杂症。基于自动驾驶的行业经验和大数据领域的经验,刻行时空已经在和一些行业客户共创最小数据飞轮方案,希望能快速的降低数据采集成本,将机器人的智能往前推进一大步。