商汤(00020)通用人工智能元年:商汤「绝影」如何进化成「天赋型运动员」雷峰网
2023-04-30 08:02:09 65
$三六零(SH601360)$ 商汤(00020)
通用人工智能元年:商汤「绝影」如何进化成「天赋型运动员」
雷峰网leiphone
2023-04-23 20:15鲲鹏计划获奖作者
关注
这一整周,新智驾团队都泡在上海车展里,充分浸润中国汽车行业的新气息,沿着“电动化”和“智能化”大风向,也嗅到了相较往年,新能源汽车行业更为鲜明的喜好。
一个字可以形容今年的上海车展——卷。
“智能化”无疑是“卷之又卷”的红海区。
城市领航功能、全域智能架构、基于AI大模型算法的更新、舱内语音交互......车企也好,供应链企业也好,如果不亮出智能化相关的新产品、新技术或者量产交付新进度,那么就会在众多“喜新厌旧”的媒体人和专业观众的目光中,迅速沦为背景板。
实现汽车智能化是行业共识,但其实在几年前,主机厂们对智能车舱、智能驾驶功能,包括对技术和测试方案的理解都还没有一个特别清晰的概念。
而当下,各种智驾方案已进入大规模量产阶段。
比如在今年上海车展,新智驾发现,光是搭载了商汤绝影智能驾驶和智能车舱产品的车型诸如蔚来ES7、极氪X、东风猛士917、广汽埃安AION LX Plus、传祺E9、影酷、M8宗师、哪咤S等等,就差不多有30款展出。
商汤财报显示,仅2022年,商汤绝影的智能驾驶和智能车舱产品新增汽车定点数已超过800万台。
主机厂们也渐渐搭建起自己内部的大规模测试团队,对智驾产品的形态、功能的体验、技术的认知,也有了更深入和更成体系的理解和需求。
商汤的联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚告诉新智驾,如今主机厂们正对智能化提出更高的要求:
“首先,更看重智能驾驶的实际价值,之前是'从无到有',现在则是'从有到优',强调高效交互,要给消费者带来更'拟人化'的智能驾驶体验;
其次,智能驾驶方案量产上车后,要进一步普及,就要求进一步降低成本。”
如何在保障需求性能的基础上,尽可能降低成本,这是一门关于省钱的精妙平衡艺术——
而商汤绝影抓住的关键致胜武器之一,是通用人工智能。
从“刻苦型”运动员到“天赋型”运动员:更“拟人化”的智驾体验
先来看看通用人工智能是如何提升智能驾驶体验的。
犹如婴儿一声响亮的啼哭,ChatGPT的亮相和火爆,宣告了通用人工智能元年的到来。
什么是通用人工智能(AGI)?
一般而言,现有人工智能系统输入的是多模态数据,输出也可以是多个任务,但是这些任务都是预先设计好的,一旦遇到新的任务,就要重新设计AI系统,采集样本,对模型重新训练。
而一个AGI模型,在给定合适的提示词作为输入后,就能生成多模态数据,再加上用自然语言描述的任务,就可以在不改变模型本身,仅通过设计合适的提示词的情况下,覆盖海量复杂的开放式的任务,包括各种长尾任务,也包括一些主观描述性的任务。
以一个智能驾驶场景为例,比如在给AI系统一幅图后,系统希望知道车辆是否应该减速。
在现有的AI系统中,系统首先要进行物体检测,得到检测框,再进行文字识别,最后做出“要不要减速”的决策判断,所有这些模块都是预先设计好的任务。
在这种模式下,系统需要通过终端设备不断采集并且标注大量的数据去更新模型,模型再反馈到前期终端设备,去获取更高质量的数据,这就是过去几年常被提及的“数据飞轮”。
而在AGI系统中,给到系统图像后,终端可以问AGI任何问题,比如“这个图标是什么意思?我们应该做什么?”。
AGI系统会给出答案和中间的推理过程,比如看到了前方100米每小时30公里的限速,这是学校区域,有小孩活动,所以需要小心小孩,将车速降到30公里每小时以下。
可以这么理解,在AGI的系统当中,人对于模型的输入是对齐人的意图的——即通过人的调教、指导甚至方法论的输出,不断地解锁新模型的新能力,这个过程是人和模型共创的。
AI模式,王晓刚视之为“资质平庸”的苦练型运动员,AGI模型则是“天赋型”运动员。
王晓刚认为,以往的一些模型,无论是中模型或小模型,它是一个专属模型,可以把它理解为一个比较刻苦的运动员,天赋不是很高,但通过勤奋和努力也能达到一定的水平,但这就需要教练一招一式一次次地去演示给模型看,或者是需要更有天赋的大模型的演示,这意味着需要采集更多的训练数据。
“优秀的大模型就像非常有天赋的运动员一样,作为教练,人并不需要一招一式地去演示给他,只要输出一些方法论,给予恰当的引导,甚至是在一些关键的地方给予指导,它就能够学会甚至创造新的动作,见招拆招,无招胜有招。”
什么是智能驾驶技术的本质?
自动驾驶技术的本质,是解决时间(When) 与空间(Where) 交叉发生的综合场景问题:
这就需要利用感知融合、建图定位、决策规划、运动控制等自动驾驶全栈技术,解决好自动驾驶运行期间的日夜差别、逆光、雨雪雾等不同时间场景(When)及高速公路、城市道路、停车场、园区、港口、矿山等各类空间场景(Where)。
高价值数据获取+高效率数据利用,则是自动驾驶技术致胜关键。
由此商汤绝影提出了自己的量产智能驾驶公式:
自动驾驶技术能力=场景数据x数据获取效率x数据利用效率 =场景数据x数据获取效率x先进算法x先进算力。
商汤研发体系正逐步完成从“苦练型”大模型到“天赋型”大模型的转变,也意味着其数据获取效率的大幅提升。
所谓更高的数据获取效率,即如何更快地去获取这些数据,这有两个维度:
一方面是如何基于新计算平台快速地使车辆跑起来,实现闭环迭代;另一方面是如何快速实现数据回流。
比如基于“苦练型”AI模型,如果在客户端或者OEM端发现了系统对车型的识别不够好,就要花大量的时间和金钱,采集大量数据,再去做标注、重新做训练和验证,一般以月为时间单位进行优化。
而基于AGI系统,商汤绝影智能汽车事业群智能驾驶副总裁石建萍介绍,这一流程就能被大大加速,商汤已经可以做到每两周迭代一个版本,至于对特定场景数据的筛选和获取,还可缩短至3-5天完成。
同时,基于AGI系统,数据标注成本也能降至原来的十分之一。
以激光雷达为例,过去各公司通过激光雷达做感知时,当拿到一个新的型号,要想获得可靠的感知结果,一般需要标注几十万帧数据,这对应着几十万甚至上百万个的检测框,整个标注成本会达到近百万元,如果要覆盖更多异常场景、目标或者天气,数据还要再积累几十倍,成本也会高达几百万元。
另外,由于激光雷达对标注员、标注工具的要求比较高,现阶段完全熟练的数据标注员也不多,因此构建一套完整可持续工作的数据集,即使调度了几十甚至几百人的标注团队,也得花费将近半年时间。
“现在商汤绝影通过AGI大模型做激光雷达数据的打标签、预标注、筛选,基本能把数据标注的量级降至小于十万张。”石建萍透露。
那基于AGI大模型实现高效数据闭环所需要的原料——海量数据又是从何而来?
商汤绝影有三类渠道:
智能交通+智能驾驶多行业数据汇聚:通过以往不同的业务场景(比如路端的智能感知产品、车端侧的车城网平台等)汇聚多行业数据,拥有广泛的时空场景数据。
L2+和L4多产品线形态覆盖:绝影的产品线覆盖了量产行车场景、量产泊车场景、园区自动接驳场景、运营区自动载客场景等,也能够实现规模化、泛化场景量产数据和复杂任务场景高精度数据互相反哺。
广泛车企合作:商汤绝影已与 30 多家车企建立合作关系,到 2022 年底,绝影智能驾驶技术已在多个车型实现量产。
果实成熟:还需与产品方案“双向奔赴”
数据获取效率提高的背后,是算法和算力的快速优化和迭代。
在算力方面,商汤做了件核心工作:建立人工智能数据中心。
目前商汤AI大装置SenseCore基于2.7万块GPU的并行计算系统实现了5.0 exaFLOPS的算力输出,可支持最多20个千亿参数量超大模型(以千卡并行)同时训练。
在算法优化方面,基于AIDC基础装置,商汤早在2021年底就发布了名为书生(Intern)的超大模型,是视觉模型领域业界最大的模型。
车展前夕,商汤又发布了“日日新”大模型体系,这个体系下包括了感知、AIGC、图像生成、自然语言、多模态等一系列模型,每个方面的模型,都可以不断延伸。
“比如商汤的感知模型最早在2019年是十亿参数的模型,到今天已经有320亿参数,是世界上最大的视觉感知模型。”王晓刚表示。
而为了解决智能驾驶、智能车舱中的各种问题,基于以上通用大模型,商汤又逐渐训练出专用小模型。
以业内这两年提得比较多的BEV感知算法为例。
在使用BEV算法之前,大部分智能驾驶公司的车辆位置感知流程,一般是先去感知2D图像中的一些特征,比如说车在哪里、车轮的接定点在哪里、车的长宽比例是多少,由此拿到一些图像层面的信息,再根据相机的一些3D标定几何参数,获得目标在三维空间下的准确位置信息。
但在这过程中,整个空间位置会出现很多误差,因为一旦标定过程中的一些输入要素不稳定,就会导致最终感知结果的不稳定,从而使得系统在基于这些位置信息,在后续对车辆做优化控制时,出现很多异常的表现,比如车辆急刹等等。
BEV感知方案,则是整个流程还要为下游的车辆规划控制服务,所以会直接端到端输入3D信息,避免了上述过程中需要一步步转换目标感知信息造成的误差,除此之外,BEV的目标感知,还包括了对车道要素的感知、对可行驶区域的感知。
因此基于上文提及的商汤在AI算法和模型方面的积累,绝影训练出了自己的BEV环视感知算法。
“我们是第一批真正上线了BEV算法方案的公司,在不同的算力芯片上都有部署实施,而且已经进到了量产项目的流程中去,同时整套长尾目标的识别体系也是已经量产上车的。”石建萍表示。
根据介绍,现在商汤已经可以实现2D与3D数据的自动标注与校验,即基于超大模型完成图像2D和Lidar 3D数据自动标注,绝影标注效率可与标注员保持一致。
与此同时,BEV感知在落地量产时,会面临多车型传感器选型和配置存在差异的问题,而商汤绝影采用Domain Adaption算法,也解决了BEV感知在面临量产多车型时的跨域泛化问题,进一步提升了数据利用效率。
大模型的突破正引来新一轮研究范式的变革,商汤绝影的研发体系也正快速迭代,从基于规则的“苦练型”运动员往基于数据的“天赋型”运动员演进。
而基于通用大模型,商汤绝影蒸馏出智能驾驶专用小模型,使得商汤绝影不管是对智能驾驶所需要的场景数据利用效率、数据获取效率都大幅提升,从而进一步带来了智能驾驶方案研发和量产上车过程中,成本的降低和驾驶体验的优化。
我们正处在汽车智能化变革当中非常重要的时间点,随着智能化功能开始大规模进入量产阶段,智能驾驶概念普及,不管是主机厂还是消费者,都对汽车智能化提出了更高的要求。
“通过通用大模型,再快速地对小模型进行更新,产品的研发和交付效率能有上百倍的提升,综合来看,这是能做到智能驾驶相关方案的成本和性能平衡的。”
王晓刚透露,今年商汤绝影的目标,是在智能驾驶L2+方案量产交付后,在提升体验方面,树立标杆案例,再逐渐形成低成本的标准化方案。
“商汤在通用人工智能大模型领域已有5年的积累,今年又是通用人工智能的元年,这到了商汤发挥通用大模型的作用的时候,我们要去树立商汤绝影在通用人工智能领域核心供应商的地位。”
雷峰网#雷峰网#雷峰网
本文作者可以追加内容哦 !