ChatGPT出现之后,大模型在人工智能领域的地位进一步提升。众多AI应用方向都开始寻求与大模型的结合,以争取更高效率的产品落地进程,自动驾驶也不例外。
7月6日到8日,2023年世界人工智能大会在上海举办。在“AI与新一代车载智能感知融合创新论坛”上,大模型成为学界与业界人士的共同话题。
清华大学计算机系教授、清华大学人工智能研究院视觉智能研究中心主任邓志东,从技术底层视角提出了大模型的“云-边-端”自动驾驶部署框架——以“ChatGPT/GPT”为云端,以垂域BEV(Bird"s-eye-view,鸟瞰图视角)多模态GPT为边缘端,以局部自主及传感执行为移动端。其中,云端理解为具备知识理解、预测以及决策能力的“大脑”,边缘端理解为进行动态感知与理解的视觉智能。
【资料图】
邓志东认为,整个过程中最大的挑战在于如何构建垂域多模态GPT。
对此,他表示可以将自动驾驶算法设定为一系列任务,包括感知、预测、决策/规控三大主任务,以及环境监测、在线建图、多轨迹预测、占用栅格预测等一级任务(顺序模块)。而解决这些任务可以通过三条路径:
第一条路径是设定多任务,进行联合预训练,但这条路径如果用弱人工智能的方式来操作,比如没有通过语言建模将这一系列的数据模块串联起来,就可能缺乏语言智能;
第二条路径是构建自己的多模态通用大模型。“但是我觉得这个事情挑战很大,因为我想我们中国现在最大的任务是怎么追赶上ChatGPT,做到我们自己的GPT 4.0。”他说,“这个就已经很了不起了,但这也是比较困难的,目标比较远大。”
第三条路径是利用已有的ChatGPT/GPT 4.0构建自己的垂域多模态GPT。邓志东表示,可以利用这种“还不是非常完美”的通用语言模型作为“骨头”,将其能力视为“云”,通过对通用语言模型进行微调(知识迁移)在云上做一个操作系统——这也是他认为比较现实的一条路。
邓志东认为后两条路径都利用了大模型和人类共有的语言智能,也正是这种语言智能可以将顺序模块进行一体化串联。“没有多模态的语言智能就没有灵魂。”他说。同时,他例举了大模型语言智能能够贯穿的各个环节,包括从多摄像头多帧输入到向量空间的3D感知等等。
此外,邓志东还例举了大模型将为自动驾驶带来的其他方面影响,包括基于大模型的人车语音自然交互和远程安全接管预测,以及自动驾驶生成式数据闭环和云边端AI算力需求。
“总之,对跨界的自动驾驶来说,我们应该更多去关注大模型的使用。”邓志东表示,“在进化史上,语言智能是人类与动物之间的根本区别,因此机器模拟并利用语言智能,就可以获得与人类观察与思维一致的感知、预测、决策及规控能力。与此同时,我们也可以利用人类驾驶经验去完成相应的行为对齐及反馈矫正。”
事实上,在ChatGPT爆火之前,大模型已经开始影响自动驾驶领域。
觉非科技创始人兼CEO李东旻表示,智能驾驶解决方案的第一阶段是各个小模型的堆叠,到第二阶段,以特斯拉为企业代表的大模型+大数据方案开始受到重视——特斯拉在自己的AI DAY上发布了transformer+BEV方案,并带动了行业趋势。
“当时所有人都在谈论BEV+transformer,行业从来没有如此达成共识过。”他说。
不过,站在企业视角,李东旻给出了非常切实的想法和建议。“大模型的落地非常非常难,大家真的不要低估这件事的技术难度和资金难度。”他展示了参考特斯拉做的数据对比,得到的结论是“大算力是基础,大数据是前提”。
“如果一台车辆不能收集大量数据,或者说你靠花很多钱才能收集大数据,(那就)别做了,踏踏实实把城市NOA/NGP功能做好,其实也是挺好的一件事。”他提到,做大模型的间接投入比小模型大上百倍。这里的间接投入指买云服务、买算力、买数据、买标注等难以像硬件成本一样清晰的费用。
“激光雷达一张照片要200元,但各位,训练大模型至少是一亿帧起步,没有一亿帧你连玩牌的资格都没有。”李东旻说,“所以大家不要低估这件事情——大模型的确是未来,也一定值得我们所有人投入,但是我们要怀着一个谦卑的心态来迎接它和应对它。”