阿里大模型!

2023-04-06 08:00:15 33

事件:4月4日,B站一则阿里版ChatGPT全网首测视频流出,引爆全网,同日下午,记者得到一份邀请函,内容是在4月11日的阿里云峰会上,将正式推出大模型,内测目前已经在进行中。

此次视频内容十分劲爆,我们梳理下来,认为其中有三点超预期:

1、首次用智能音响作为模型入口,不只局限在聊天框内,应用更加灵活,整体入口逻辑捋顺,随着未来chatGPT的发展,智能家居会类似手机一样成为每个家庭最少一台的入口端,将极大的带动智能家居产品放量。

2、“音色”“文风”“情绪”都可改变,定制化属性显现,受众面大幅增加。视频中博主先是运用了脱口秀演员“鸟鸟”的声音作为模型交流,然后并要求ChatGPT接下来用“猫娘”的身份进行后续对话, 整体定制化特征明确,不再局限于固定形式,代表着后续每个人可根据自己的需求定制属于自己的“性格”不同的ChatGPT,几乎可满足所有受众群体。

3、成熟进展超预期,视频中我们可以明确看到,博主向ChatGPT提问了15个问题,其中10个的回复都明显好于目前国内已公布的竞品,并且突破了双工对话,之前机器与人的声音是不能重叠的。机器需等人讲完才会回复,人也只能等机器说完才能提出下一个问题。视频中的ChatGPT明显突破了双工对话,会在人说话的途中增加“嗯”“让我想一想”之类的承接语句, 我们也可以随时打断机器说话, 不在枯燥乏味,整体带入性更强。我们认为此次阿里的测评视频中的GPT已经处于3.5级别的水平。


投资方向上,此次视频标志着AI交互体验进入新时代,首先关注入口端;其次,作为电商系的阿里,避不开的主题必然是AI+电商。篇幅原因,这里分享“AI显性化”系列的第三篇:AI+电商。       系列其他主题、阿里大模型专家解读、阿里大模型产业链、智能音箱产业链梳理等更多内容详见星球。


一、阿里对AI布局情况

阿里的商业逻辑是技术驱动商业,在电商商业链的背后存在一系列技术架构支撑,技术决定了该领域公司的领先地位。

         

(一)两条技术架构

1、Tensorflow

2017年早期谷歌的技术,阿里邀请Facebook的AI架构总监贾扬清等加入团队,沿着这条线建设一条独立的基础线路PAI(机器学习平台),包括开拓技术底座、训练框架、深度学习框架等的技术,目前在阿里云上已经发展了三年多。

此类技术2020年前主要做技术底座,2020年开始建设,已经形成了独立的产品线,并在阿里有独立产品发布,以TOB的业务场景为主。此类产品相对比较成熟,在行业内广泛使用。

PAI平台及Tensorflow的一系列分布式接口,帮助需要用到人工智能深度学习模型的开发者和企业在平台上构建自己的AI模型,包括提供数据的标注模型构建、模型训练、模型优化推理、全链路的工程化服务等;平台集成140+种算法,覆盖文本、图像、大数据分析、内容制作、获取、训练等一系列的算法。

         

2、“通义”大模型

以Transformer为技术底座和框架去构建的模型,由三种模态组成,包括通义-M6、通义-AliceMind和通义-视觉。

通义-M6:主要解决的是文本图像生成构建的相关技术,包括图文理解、图文生成、语音理解、语音生成。通义-M6是目前主要迭代的大模型底座。从2020年开始建设;经过两年多发展,从最早期以Transformer为底座,在GTP-1、GTP-2开源后追踪其训练集、算法和先进的模型结构。中间也发布了一些中介版本,2020年发布千亿参数级别的中文预训练语言模型,2021年3月发布千亿参数级别的M6模型。

通义- AliceMind:NLP预训练模型,内容场景包括包括文本生成、文本理解、智能对话、多人对话等。

通义-视觉:应用场景包括视频表征、图像生成、物体检测、视频分割等;计算包括视频生成等。

未来的通义大模型基本上按这种架构迭代。2022年10月,公司开始将这些大模型放进“魔搭社区”平台,面向开发者和中小企业为服务对象,将文本、语音、图像生成等数十个模型开源在“魔搭社区”。开发者也可以把自己的模型放在社区让更多人共享共创。

         

(二)电商领域应用

1、发展时期

AI在电商领域的应用具体分为2016年前后两个阶段。

2016年前。公司使用CNN、RNN等传统的深度学习技术,用到推荐系统、搜索引擎、自然语言处理、图像处理、智能客服、数据挖掘、数据分析等场景。具体应用于传统电商的客服电话、商品推荐、活动营销、订单管理、图片搜索商品、营销图案生成等业务场景。老一代技术中,NLP可以做文本处理、帮助客户快速找到商品、用户行为分析、图片分析处理和推荐等。

随着大模型技术逐渐成熟,公司将一些大模型技术在电商领域进行更进一步应用的探索和试用。

         

2、新老技术的差别

1)泛化能力方面

过去NLP算法是数亿级别的参数量,大模型技术的信息参数是千亿级别,远超之前的中小模型。大模型的泛化能力比较强,利于电商领域的相关应用。

传统电商的推荐算法为例。过去包括协同过滤技术和内容推荐技术,协同过滤技术用来分析用户过往历史、商品属性以及用户感兴趣的商品预测,从而给客户推荐具体的兴趣商品。内容推荐技术根据商品属性和描述信息,对商品的相似性进行计算,为用户推荐浏览或者购买过的相似商品,更多是根据用户在同一电商平台上做的购买行为来进行分析。

目前,大模型相较于老一代技术的优势包括:

一是现在很多客户的数据集是多维的,可以根据外部数据源、社交网络、浏览器等其他平台数据来综合分析用户行为,横向扩展到整个生态上的各种应用数据,都可以用来做推荐算法的优化。

二是能够处理复杂的数据关系。过去更多是处理用户跟商品之间的关系,包括常规的商品用户信息变化等。多模态的新技术挖掘更多用户和商品之间的隐含关系。

三是精细化的个性化推荐,根据不同的业务场景进行配置,根据用户兴趣做更细致的分析,通过不同的训练方法来实现不同的推荐策略。同时,大模型可以跟传统技术进行融合,包括深度学习、强化学习等,提升整体推荐效果。

         

2)应用场景方面

过去的技术主要应用在,一是营销文本的生成、商品摘要的生成、商品文图生成,由AI根据产品特征等生成图文并茂的营销素材。二是智能推荐、直播、智能客服、内容风险的控制等。

现在的大模型从传统场景中切入,应用场景包括:

一是推荐。“千人千面”在大模型时代会发挥得更好,基于用户的行为分析和建模实现个性化推荐,从而实现购物体验提升、购买力的转化。使用的深度学习算法超越了协同过滤和神经网络技术,对过往的购买历史、浏览记录、搜索行为进行分析,进行更精准、个性化的单品推荐。商品搜索方面,通过对用户行为和商品信息进行建模,提高整个搜索的召回率和排序质量,用深度学习方法对关键词和商品进行分析和匹配,大大提升搜索结构的精准性和相关性。用户画像方面,构建更完善的用户画像,根据过去的购买历史等进行个性化推荐,给予数据库用户信息,并建模提高收入量,提高搜索相关性。

二是用户的评论分析。依托大模型对文本理解的泛化能力,对用户评论数据进行拆解和分析,帮助商家快速收集和呈现用户评论的建议;基于用户中的情感判断、文本意见等分析,快速提取用户评论的整体概要,生成分析报告。

三是自动化商品分类。基于对商品图片的分析建模,快速对不同商品进行分类,提高商品信息的准确度和可靠性。

         

3、M6大模型应用

M6大模型在电商领域的应用产品包括:

一是推荐文案生成。过去商品通过广告公司、专业写手来生成推荐文案。现在依托于M6技术根据图像生成推荐理由,并且能够构建比较强的卖点文案。

二是图像快速检索,通过拍照快速检索相似商品。这些技术已广泛应用在电商平台、支付宝、犀牛智造、斑马智行、每平每屋等平台。支付宝平台,主要做支付宝过滤业务的智能文案生成。每平每屋平台,主要做线下装修推荐,用3D技术基于毛坯房快速构建出客户要的设计图,从示意图里镶嵌家具、电器挂画等软装,并且可以一键下单进行购买。犀牛智造平台,结合电商平台数据为犀牛生成细节清晰、样式丰富的高清服饰图片,让下游的买手、设计师从中挑选心仪款式进行生产,这是在制造行业的应用场景。

三是跨语言翻译。淘宝它本身有跨境电商全系列的商品,人工生成商品描述是非常大的工作量,这套工具能够自动在跨境的卖家和买家之间翻译语言。生成商品推荐和描述给消费者,形成各国家多模态的翻译。

四是虚拟人技术。公司提供2.5D或3D的虚拟人技术,应用于淘宝直播等场景,跟用户进行交互。通过技术驱动虚拟人在现场实时互动,动作驱动、多媒体解决方案、AI生成新闻稿、24小时的数字人播报等方面都由M6支持。

五是NLP相关的技术,包括智能语音客服、电话机器人、快递资讯、智能外呼等。在语音领域,行业内前三的公司分别是百度、阿里巴巴、讯飞。

         

4、AIGC领域

AIGC领域的应用还在早期探索阶段,尚未大规模商用。其中包括场景内容购物、虚拟形象推荐直播等,其中文本、图片生成等应用已广泛应用至电商领域,视频生成还在试用。

AIGC在电商领域的应用空间包括以下几块:

(1)文本

包括商品描述生成、客户评论生成和分析、营销文本生成等,已广泛应用至电商领域。

(2)3D图像

通过虚拟人直播、商品3D数字化等技术广泛帮助商家提高效率、降低成本。

公司推出平台“每平每屋”,给毛坯装修的客户在线提供设计方案,客户只要把客厅毛坯的角度拍出来并将图片输送到平台,AI可以快速地制作成样板间,按照尺寸将地板、窗户、壁纸、灯、沙发等家装部署到房间,家具可以更换、在线手动拖拉拽、快速升级,通过实景图自己调整方案,最后可以从平台中直接购买成套地地板、灯、窗户等家装,并生成图片储存。

(3)商品数字化

自动生成3D商品:在天猫、淘宝手机APP中可以看到很多商品已经有3D的展现形式,让客户能够360度观察商品细节,包括高端服装、奢侈品、手表、电器等。

虚拟试装技术:用户可以在平台挑选,根据自己的身高、体重、发型等构建出一个跟个人形象相近的,把单件衣服放在上面,观察试穿效果。一是可以提升购物体验、商品转化率和购买力。二是统计用户的客体数据,让商家比较准确知道客户的体型、偏好尺寸、造型等,并根据数据分析来优化商家的产品设计。

XR电商:2022年疫情导致买家无法前往中国订货,平台将展厅、商品搬到云上,让海外卖家持续看到产品状态,了解产品基础形态。其中包括构建虚拟服装秀场,包括虚拟街区、虚拟品牌店、虚拟户外影音店等。

(4)淘宝直播

现在已经用到2.5D技术,非真人的偏卡通形象,但比卡通更细腻一点。

AI技术生成直播形象,通过真人驱动或是文本驱动,让主播站在台前带货、讲解产品,同时观察用户反馈并及时响应。另外还有新闻播报、政策演讲、课件演讲等,平台能够提供整套的主播解决方案。

         

二、对GPT-4的观点

2020年底前,公司对此类技术的部署尚未上升到战略层面。2023年1月份,高层重新开始审视此类技术对电商的影响;经过2个月的梳理思考,电商会积极拥抱技术,从技术赋能核心业务。

未来,阿里定位是去做一个基础大模型。国外的模型可以用,但不能大规模商用。原因在于:一是数据的量太大,使用海外API支撑数据不太现实,仍然需要国内本土的大模型来支撑。二是公司需要去做技术领先来赋能更多的中小企业,提升他们的科技竞争力和生产力。

         

相关的战略变化:

一是CEO开始以两周为单位关注技术发展,并制定路线图。最近Tensorflow这条线的人会合并到大模型这个方向,大模型之前的人员配置是360+人,现在是600+人。

二是在算力、人力支持进一步提升,资源投入和人员配置都会向其倾斜。

         

三、ChatGPT Plugin接口发布对电商行业的影响

从商业模式看,Plugin代表着新的流量打法。目前流量入口包括搜索引擎、APP、内部变动增设的流量入口等。未来,新的流量入口会随着人们的习惯变化向大模型的新入口转变。阿里每年花在各种流量上的费用都是几十亿级别。许多用户是由第三方跳转到淘宝电商进行购买,因此需要思考如何做新的流量入口。

大模型想做得好必须走开源道路,例如,GPT-1及GPT-2均通过参与者进行早期模型的测试和改进。阿里未来也会开源,未来会在魔搭社区进行中小型模型和大模型的开源,更多使用这个模型,从而在使用过程中提取用户反馈,进行改进并迭代。

         

四、问答环节

1、电商领域应用

Q:目前大模型降本增效的成果有量化评估吗?

A:22年双十一,公司进行过测试。过去,头部卖家(1亿级别)依赖于广告公司在内容生成上的推广费用大约在200+万,文案策需要从9-10月就开始布局。22年,公司将AI工具提供给头部卖家,包括文本生成图片、图片生成单个视频等,测算大概能节省40%的广告投入。其中一部分需要人工梳理,而基础类图文可以用AI生成替代。23年目标成本降低40+%。

         

Q:23年推出了魔搭社区后,相较于22年有哪些边际变化?终局来看,如果模型成熟到和GPT-4相似的水平,对电商行业有怎样的影响?

A:涉及到大模型未来是怎么样商业化落地。大模型的商业化包以基础模型存在于阿里云上,作为基础设施,让企业在上面构建自己的专属大模型。对于专属大模型有两种做法:

第一,很多企业有自己的数据,比如说过去做小模型的行业客户拥有自己的垂类数据,而这些数据是不开放的。那么会有两种选择,一是放弃过去的小模型,把数据喂到新的大模型里,发挥大模型的价值进行训练和调整,再重新用在商业场景里。二是租用阿里的大模型算力部署到公有云上,如果用户觉得不放心也可以选择购买计算集群,把大模型安装在计算集群内,部署到自己的服务器和数据中心。

第二,可以调用阿里基础模型的能力,基础模型本身会开放很多的API给到开发者和企业去调用,通过流量计费(1k个字符几分钱),再应用到自己的模型去向用户收费。

相当于是,公司做底座,中小企业做中上层来构建自己的商业模式,拉动算力消费。

         

Q:最近海外电商平台Shopify接入ChatGPT,怎么解读这个行为?

A:现有产品只要跟文本相关的场景都会去积极接触ChatGPT技术,Shopify是其中一个案例。具体到商业场景,Shopify作为电商平台,跟公司的逻辑是一样的。过去是用老一套的方式提供客户推荐、营销文案生成、智能对话等功能,上一代技术仍存在缺陷。因此,需要更进一步从过去的场景中提升用户体验,把大模型对文本理解的泛化能力、用户评论分析、商品图片分析等场景都得到广泛运用。此后,会陆续看到很多电商把技术用到自己的商业场景,由于过去的推荐算法比较简单、推荐参数比较少、精度也不够高,而大模型可以使用超强的语言泛化能力替代分析,所以这是一个必然的趋势。

         

Q:从商业模式角度看,AI对于传统的搜索电商和以推荐算法为主的内容电商而言,将分别带来哪些变化?

A:传统电商用更多是老一代的技术,过去几乎已经发挥到极致,坦白说可能已经到了天花板,没有可提升空间。现在就面临一种新技术的渗透。

首先,大模型本身没有这么快地成熟和商用,估计要到未来1-2年才能达到老一代技术的渗透率水平。

在这个过渡阶段,中小电商可能会观望,不会太快切入。大型电商会先做试用,比如像阿里巴巴不会直接一次性把整个老技术替代掉,而是找一些老技术做得不太好的场景去做尝试,包括文案生成、推荐内容生成等纯内容生成类的场景。而对于传统的推荐、搜索等方面,大模型现在还没有发挥出最佳状态,还处于一个试验阶段。

大厂自己试验好之后,会把这些技术放出去给中小电商使用。在这过程中,中小电商可能还在用传统技术,不会这么快被新技术替代。整体的大方向上,电商所有和文本图像相关的场景都会被大模型技术植入,来提升之前老技术做不到的体验和效率。

         

2、国内大模型竞争格局

Q:国内大厂的大模型布局情况、落地进度及应用场景有什么区别?

A:国内的第一梯队:腾讯、百度、阿里巴巴和华为。共同特点一是都做云计算;二是在这个领域都在持续投入,且有不错的产品陆续发布;三是人员配置在数百人以上,腾讯100+人,华为500+人,阿里巴巴600+人,百度150+人。

1)百度在节奏上抢跑,虽然技术现在还没这么好,但毕竟已经迈出了第一步,应该会保持一段时间领先;同时,因为已有早期客户在使用,模型本身的第一个飞轮已经转起来了。


2)阿里巴巴:a)应用场景:可能出来就是面向To B,因为阿里云本身是一家偏To B的公司,未来发布的方式是把它集成在钉钉里。钉钉本身已有三个入口在集成:一是钉小蜜,过去能够让员工去咨询企业内部的产品信息、知识图谱、政策活动等信息,现在把这个能力植入进去后,员工可以问更多通用能力的问题。二是钉钉会议,目前钉钉会议已经提升了能力,比如说开1-2个小时的会议,钉钉会议会把一些口水话过滤掉并迅速生成100-200字的精要会议纪要。三是文本智能,比如说在线协同办公软件等都已广泛使用这些能力来提升员工在文本生成、文本创作过程中的生产效率。

b)技术路径:,第一条线(Tensorflow)会逐渐淡出,未来以第二条通义大模型下的三个板块为主。文本方面,首先会对标ChatGPT的文本生成能力;作为第一梯队,阿里对标ChatGPT文本的能力大概在60-70分之间(百度稍强一些),跟国外还有一年以上的差距,主要在文本理解(20-30分,取决于将文言文翻译的准确度)、复杂问题推理(20-30分)、代码生成(空缺)、多人对话(文心一言运行到20-30行会丢失,阿里巴巴是到100行,ChatGPT不会丢失)、角色扮演(国内没有)这几个方面,需要在未来一年中去补上这些能力。

         

3)华为:应用场景定位是中国的英伟达,以做TOB的基础大模型为主,将服务构建在算力基础设施上,重新角度分四层架构,从而在大模型时代有竞争力。节奏上,华为22年发布的盘古大模型是千亿级别,在23Q2可能会发布盘古大模型新版本(数千亿级别),定义下一代云计算的游戏规则。华为生态链也比较完善(算力、框架、模型、应用等)。

         

4)腾讯是第一梯队中相对较慢的,过去的团队规模在70人左右,23年到100人左右。23年的混元大模型还没有要发布的消息,参数停留在千亿级别。落地层面会比较直接,在微信、腾讯会议等场景镶嵌相关的能力,例如聊天辅助、生成自动回复文本等。

         

5)字节会把节奏放在24年,因为还没来得及把技术底座构建好。

         

6)其他像澜舟科技等公司,以及老牌的NLP公司可能不会那么快出来。

         

整体来看,国内会形成这种你追我赶、3-4个大模型相互竞争的格局。预计在未来一年内,会出现3-4个以大厂发布为主的基础模型。大家都会有自己的To B用户群,形成各自大模型为主的生态。即使大模型同时存在于市场上,文本领域在23年会率先进入商用,第二季度、第三季度陆续会有几家出来。24年,可以预期下一个竞争格局会是字节跑出来,因为字节在23年可能不会参加文本领域的竞争,但已经在构建文本大模型的基础设施;第一步做完后,手上有大量高质量、标注过的图片及视频数据来训练模型$阿里巴巴-SW(HK|09988)$$阿里巴巴(NYSE|BABA)$

追加内容

本文作者可以追加内容哦 !