AIGC 施展“物理魔法”，3D视觉突破“精度极限”

文｜姚悦，编｜王一粟

“没有艺术，全是物理！物理让你快乐，不是吗？”

近日，在世界计算机图形会议 SIGGRAPH 2023 上，英伟达创始人、CEO 黄仁勋宣布，将生成式AI与仿真模拟平台Omniverse结合的时候，如同他宣布“AIGC是iPhone时刻”一样兴奋。

不同于大语言模型只能应用在图文，有了基于物理规律的仿真模拟平台，生成式AI就可以直接用到现实世界。

除了黄仁勋，美国斯坦福大学李飞飞团队，近期也将大模型接入机器人，不仅使得机器人能够与环境有效交互，还能够在无需额外数据和训练的情况下完成各种任务。

“基于物理世界模拟的生成式AI，是生成式AI 2.0”，跨维智能创始人、华南理工大学教授贾奎对光锥智能表示，与具身智能的结合，生成式AI 将发挥出更确定性的作用。

而随着通用能力的增强，AI也有望打破商业化的“魔咒”。

01 当生成式AI学会物理

将生成式AI与物理世界结合，并不容易，这里面涉及的技术链条非常长。

首先，需要对物理世界基本规律的掌握，才能将真实世界建模到仿真模拟平台。

仿真模拟平台，不仅可以仿真物理场景，还可以模拟真实世界中物体之间相互作用、运动和变形。

而生成式AI的加入，会让仿真模拟平台拥有“预演”能力。

“人类从小就知道的物理常识，AI却不知道。”黄仁勋表示，“生成式AI和仿真模拟平台结合，就是要让AI的未来能够在物理上扎根。”

黄仁勋进一步解释，让AI在虚拟世界中学习如何感知环境，并通过强化学习来理解物理行为的影响和后果，让AI实现特定目标。

这就需要用生成式 AI，预测物理世界中的千万种、甚至上亿种可能性，形成有价值的合成数据。

比如机械臂需要通过3D视觉的“眼睛”才能精准抓取，但如何排除环境变化的干扰，认出待抓取的物体（比如工厂里的零部件）？

通过仿真模拟平台掌握了“光线对场景目标的反射、折射影响”等物理规律，生成式 AI就能预测模拟出一个瓶子，在不同场景光照下，周身不同的反光程度；同一光照下，金属、塑料、木制品等不同材质物体表面呈现的状态；一堆钉子，所有可能出现的散落状态……

再次，需要将所有数据，都在仿真模拟平台中用AI都跑一遍。

这一步，就是在训练3D视觉大模型。区别于大语言模型，3D视觉大模型对于理解和推理视觉场景的组成特性至关重要，需要处理对象之间的复杂关系、位置、以及现实环境中的变化等。

最后，再连接上机械臂等具身智能的硬件，才能让其学会智能化操作。

可以看到，生成式AI与物理世界结合的整个技术链条，不仅涉及物理学、图形学、计算机视觉、机器人多学科交叉，还包括数字孪生、几何深度学习、运动学解算、混合智能、智能硬件等多维前沿技术。

相应的，整个产业的链条也比较复杂，需要从数据到模型，再从模型到部署。

在这些环节中，有一个节点和此前AI的路径非常不同，那就是“合成数据生成”。

用基于物理规律的生成式AI合成的数据，去训练大模型，将给实体产业带来跨越式的革命。

02 不用一张真实图片，训练3D视觉大模型

为什么不直接用真实数据训练大模型？

目前，行业内多数基于3D视觉的机械臂，其控制系统的算法训练所使用的就是真实数据。因为商业隐私等问题，这些真实数据很难在通用数据中获取，基本都是企业自行采集。

然而，自采真实数据，首先在“效率和成本”这两个运营的关键指标上，性价比就非常低。

这是因为，终端应用场景碎片化，数据根本不能通用。采集真实数据，企业就需要一个一个行业，一个一个工厂，一个一个场景的“地毯式”采集。而且，采集回来的数据也不能直接用，还需要进行一系列处理。

这个过程中，甚至产生了“人工智能悖论”。

“采集真实数据，AI技术的成本构成中，半数以上都是数据成本，而对数据的采集、清洗、标注、增强等处理过程，往往是大量人力堆积的结果。”有分析人士就曾指出，人工智能的本质是代替人工的智能。“讽刺的是，这样的AI具备显著的劳动密集型产业特征。”

如果用合成数据呢？

“用五六年、上千个案例积累的真实数据，通过合成数据，几天几周就能完成。”贾奎告诉光锥智能，相比于人工采集与标注数据，合成数据的成本能够实现几个数量级的降低。

最关键的还是，在训练效果上，合成数据能够更优于真实数据。

由于本身就是基于物理规律合成，合成数据天生自带绝对精确的标注，这就意味着，AI学习起来效率非常高。

另外，合成数据的“全面性”是真实数据难以比拟的。“生成式AI 2.0可以创造无数个世界，而且可以让这个世界快速演进。”贾奎表示。

而落地到3D视觉行业，机械臂就犹如有了“上帝之手”，可以掌控一切过去未来。

“当然，这不能是物理世界的规律之外的。”贾奎强调。

“目前，我们不使用一张真实图片，就可以完成机械臂复杂场景作业的3D视觉模型训练。”贾奎告诉光锥智能，完全使用合成数据训练的模型引导机械臂的柔性操作，可以实现现场99.9%以上的稳定抓取。

也正是因为此，合成数据，被称为大模型的“数据永动机”。

当前，除了3D视觉领域，许多领域也都因通用数据缺乏和噪点多等问题，开始尝试使用合成数据。但也有对合成数据抱有强烈质疑的观点，称如果没有经过精心调试，在训练时大量使用，会引发模型崩溃，造成不可逆的缺陷。

从技术演进的角度，合成数据不会是大模型的唯一解。

但贾奎指出，“没有找到更好的办法之前，合成数据就是目前能够解决实际问题的最好办法。如果还采用人力堆砌的真实数据，在包括3D视觉在内的很多领域，AGI（通用人工智能）永远不可能实现。”

03 打破AI的商业化“魔咒”

在机器视觉领域，对合成数据的需求更加旺盛，生成式AI 2.0能够释放的价值也就会更大。

作为机器视觉非常重要的感知手段，3D视觉对于合成数据的需求就十分迫切。

“在一堆相似的零件里‘找不同’，物体换一个材质、颜色，都需要去调整参数。”一位3D视觉从业人士表示，不同领域的需求不同，使得落地场景过于碎片化，只能做完一个项目再重新定制另一个项目。

这就意味着，企业很难通过着力解决一个或几个项目需求，就能形成标准化产品。也就无法进而通过快速复制，打入并拓展市场，追求利润规模。

边际成本难以降低，会将一家技术公司，变成项目公司，最终拖垮。

“魔鬼”藏在细节中。

传统3D视觉感知有多脆弱？贾奎向光锥智能描述，“机械臂在抓取过程中，如果有人路过产生光线变化，任务就可能失败。”

这是由硬件3D相机的成像原理造成的，3D相机成像容易受环境、物体形状、材质、颜色、散射介质等影响，而且这一问题短时间内难以解决。

“解决一个问题可能是一百步，但最后一步付出的努力可能跟前面99步加起来是一样的。”商汤科技联合创始人杨帆曾表示，企业大部分的精力都需要用来应对小部分长尾问题。

但现在，“通用性能力很强的生成式AI 2.0，能够解决长尾问题，对于产品标准化至关重要。”贾奎表示。

相较于行业传统定制化开发的模式，企业基于生成式AI 2.0，就可以利用通用大模型，实现产品模块化开发，做到开箱即用地部署，进而实现同行业直接拓展，不同行业也能有效复用。3D视觉行业的商业化难题也就迎刃而解。

与此同时，数据、开发、部署、硬件、行业拓展，每一个环节的成本也都实现骤降。

而在生成式AI 2.0的催化下，3D视觉一旦爆发，也就意味着，在机械臂、机器人、无人驾驶、元宇宙等等高度依赖3D视觉技术的垂直场景，都将加速吃到AI的红利。

不少数据已经印证了这一点，像数据标注、合成数据、工业机器人、机器视觉等领域，全球市场规模都在高速增长，尤其是合成数据的年复合增长率甚至都超过了30%。

这背后，实际上是生成式AI 2.0的战略价值，已经受到了科技和众多制造业巨头的高度重视。

从西门子、福特等老牌制造企业，到英伟达、特斯拉、谷歌等一众科技巨头，再到Waabi等明星初创公司，都开始纷纷在工业、机器人、无人驾驶、医疗、零售等诸多领域，探索生成式AI 2.0更大的可能。

与此同时，资本的热情也被极大地调动起来。据不完全统计，近年来，国外合成数据的相关融资，累计已接近8亿美元。

在国内，合成数据相关企业也同样引起了资本的注意。2022年6月，跨维智能宣布完成Pre-A轮融资，融资金额数千万元，成立不到一年时间累计融资近亿元；今年7月，光轮智能也宣布完成天使+轮融资，融资金额累计数千万元。

可以说，从会作诗到学物理，生成式AI 2.0正在开启一个产业数字化的宏大未来。

欢迎关注光锥智能，获取更多科技前沿知识！

推荐内容

AIGC 施展“物理魔法”，3D视觉突破“精度极限”

工采电子受邀参加：聚焦数字经济· 赋能产业发展[2023全球数字经济产业大会]

【深度】生物甲醇应用领域广泛 我国相关企业数量较少

5年期LPR维持不变，房贷利率还有多大下调空间？

折叠屏手机成为新的风口 上半年折叠屏市场销量同比增长72%

安心宝妈必备，德国medisanaV0-13电子体温计，孩子专用省心利器！

港股科网股走弱 中国有赞跌超3%

美国家气象局：受飓风“费尔南达”余波影响，夏威夷或将强降雨

目前量比排名前5的是这些个股

央国企领航、小微企业紧追 大模型重塑企业数智化转型路径

沃尔沃汽车中国管理层调整：钦培吉将加盟吉利汽车集团，潘鹤松接任大中华区销售公司总裁

【好物分享】预约考前直播0元领2023中级会计考前冲刺备考急救包

农业农村部发通知要求建立牛蛙养殖尾水治理模式

雪人图片简笔画简单（雪人图片简笔画）

云南普洱市墨江县发生3.1级地震，震源深度10千米

8月21日午间涨停分析

罗格朗模块化数据中心解决方案，让机房空间大有可为

上海机场：网传公司将与中免重签免税协议内容不属实

广东旅控集团牵手海康威视，共同推进文旅产业数字化升级

“浪漫经济”再升温 黄金饰品抢占消费潮 商家消费者共享双赢盛宴

8月LPR出炉！一年期下调10个基点、五年期以上维持不变 分析师：“调整优化房地产信贷政策”可能会单独出台具体措施

行业风向标丨政策密集出台，聚焦算力板块再度活跃

国家图书馆：避暑长知识的好去处

科瑞德高毛利另一面：销售费用率48.03%，市场推广费连年大增

小鹏毛利血崩？涅槃前的最后“狼狈”

微盟复苏路：巧借AI东风，一路艰难掘金

5年增长25倍，青岛造船产业垂直崛起背后

降价潮对销量刺激有限，但不想买车，不止因为缺钱？

查理·芒格的投资之道:用做生意的方法做投资

京东开展“文具奇妙之旅”线下活动 新潮文具一站式省钱省心购首选

真我Buds Air5官宣8月28日发布，颠覆千元级旗舰降噪

a类基金适合长期持有吗？

深圳人才房放宽申购条件：3人家庭可买三房 学历要求降低

科华数据与中国联通达成生态伙伴战略合作

国元股权投资参与瀚科迈博A+轮融资

算力、次新股大涨！前两名选手冲刺50%收益率！报名结束倒计时，上车赢大奖！

突发闪崩！上海机场、白云机场齐跌停，公司最新回应

夏季行动 | “她”力量 ，让反诈“声”入人心

考乡镇公务员有多难（考乡镇公务员有前途）

泰和新材2亿元于烟台新设智能装备子公司

李兴浩涉案 志高空调渡劫

扫地机行业加剧内卷：左手专利战 右手价格战

iPhone 15究竟是开足马力冲刺，还是产能缩水？

小鹏第二季度财报出炉，G6成最后遮羞布，真正的考验将在下半年？

蔚来用降价击溃了自家二手盘

期中考之后，谁下调了年终分数线？

半年报 | 2023上半年中国XR市场总结与展望 产品篇

炸鸡连锁Popeyes三度入华 傍上咖啡这次有戏吗

唐河县湖阳镇：开展交通安全劝导​

8月21日上证指数早盘下跌0.38%，创业板指下跌0.62%

【深度】生物甲醇应用领域广泛我国相关企业数量较少

折叠屏手机成为新的风口上半年折叠屏市场销量同比增长72%

港股科网股走弱中国有赞跌超3%

央国企领航、小微企业紧追大模型重塑企业数智化转型路径

“浪漫经济”再升温黄金饰品抢占消费潮商家消费者共享双赢盛宴

8月LPR出炉！一年期下调10个基点、五年期以上维持不变分析师：“调整优化房地产信贷政策”可能会单独出台具体措施

京东开展“文具奇妙之旅”线下活动新潮文具一站式省钱省心购首选

深圳人才房放宽申购条件：3人家庭可买三房学历要求降低

夏季行动 | “她”力量，让反诈“声”入人心

李兴浩涉案志高空调渡劫

扫地机行业加剧内卷：左手专利战右手价格战

半年报 | 2023上半年中国XR市场总结与展望产品篇

炸鸡连锁Popeyes三度入华傍上咖啡这次有戏吗

唐河县湖阳镇：开展交通安全劝导