腾讯的大模型价值观:实用主义|甲子光年

2023-09-12 08:02:27 53


落地方能检验技术真章。

作者|武静静

编辑|栗子

9月7日,在一年一度的腾讯全球数字生态大会上,腾讯自研的通用大语言模型混元大模型正式亮相,并宣布正式通过腾讯云对外开放。企业用户可以直接在腾讯云上调用混元API,或者将混元作为基底模型构建上层应用。

与市场上很多厂商都在争先恐后的优先推进对话式大语言模型不同,腾讯在大模型落地探索上有着明显不一样的节奏和坚持。

最直接的节奏体感是腾讯的“不着急”——在厂商纷纷抢占今年三、四月份的第一波大模型时间卡位时,马化腾直言“腾讯不急于做半成品”。所以直到6月,大众才第一次正式看到腾讯的行业大模型,彼时,市场上已经在风风火火的上演着“百模大战”。

细究这种“不着急”背后,也许并非是因为腾讯在战略上“轻视”大模型的机会,而是他们认为大模型的价值核心不在时间窗口上,而在落地实践中。毕竟,在马化腾看来“大模型是互联网百年不遇的机会,是类似发明电的工业革命一样的机遇。”

这种更倡导落地的价值观在当下正逐步成为行业共识——随着更多大语言模型对外开放,科技公司除了在不断打磨模型能力之外,也相继走进了各行各业,踏上了场景落地探索的新征程。目前,云厂商在大模型的产业落地思路上基本已达成共识:MaaS(Model-as-a-Service)模式,落地行业,走在场景中,和客户一起合作做垂类大模型。

如果大模型的价值核心在场景落地上,腾讯的解题思路是什么?

1.腾讯的选择:实用主义

不同公司在发展大模型技术上思路不同,选择的优先级也不同。有的公司更关心技术、参数,把追赶ChatGPT定为首要目标。有的公司更关心场景闭环,在早期阶段就选择把场景验证纳入技术探索的必经之路上。

腾讯的答案明显是后者。从6月19日发布行业大模型之初,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生就强调了腾讯的大模型价值观:“通用大模型不一定是满足行业场景需求的最优解。企业需要有针对性的行业大模型,结合自己的数据做训练或精调,在合理的成本下,打造实用性更高的智能服务。”

腾讯的这种价值可以用四个字来概括——实用主义。这也是腾讯做大模型贯穿始终的一条暗藏的主线。

一方面,实用主义意味着,腾讯云更关注大模型如何解决场景问题而不仅仅是参数大小。腾讯云副总裁、腾讯云智能负责人吴运声曾直言:“几亿、几十亿、几百亿还是一千多亿,我们并不关心模型参数的那个数字,我们更关注的怎么解决客户的问题,希望用最有效,最低成本的手段去解决客户的问题。”

另一方面,实用主义意味着,要更关心应该用什么技术组合?如何更有效率的解决问题?吴运声提到:“就像举重运动员要举200斤的杠铃,但作为游泳运动员举100斤就够了,作为体育室,我们提供200斤的杠铃,但对于不同类型的运动员或者更多普通人,他们没有必要都要用200斤的杠铃练习。”

在他看来,在一些行业和具体的领域,数据量本身就没那么大,用小参数成本低,效果也会更好。“我们希望以最低的成本,最合适的模型,最好的服务去让客户真正把技术用起来,解决它在场景中的问题。”吴运声说。

他认为这是腾讯云一直在贯彻的技术实用主义:“从大模型整体思路来看,我们并不特别关注形式,而是注重技术产生的实际价值,以及在客户业务中的价值体现。我们的核心出发点都是基于此。”

这种经验和判断来源于腾讯云在to B领域的多年深耕——大模型技术需要基于产业场景,与企业数据融合,才能释放出最大的价值,“智能化的后半场,腾讯云智能在坚持投入AI技术研发的同时,一直专注于产业实践,强调技术的务实可行和产品的安全可靠。”吴运声提到。

对外,所有的技术最终都要面对场景的发问。深度学习之后,上一波AI热潮的归向也是如此。过去几年中,更多AI公司在已经放下“标榜自身有多牛”的身段,转而走向更落地的方向,寻找真正可规模化的场景。

对内,腾讯云也一直在践行落实这种技术实用主义。作为腾讯云承担大量前沿探索工作的关键部门,腾讯优图实验室也一直在坚持“研究和落地并重”的方针:一方面需要站在科技前沿探索更多的可能性,另一方面需要考虑技术能解决的实际问题,而非纯粹的技术至上和论文至上。“研究、落地两条腿走路,这是优图从成立的第一天开始就在强调的重点方向。”吴运声说道。

他认为,关心落地并不意味着不关注前沿研究。“我们的研究恰恰是以解决在落地中遇到的实际问题为前提,每年我们也会发布很多论文,但和其他家不同的地方在于,优图几乎70%、80%论文原点都是我们在实际场景中遇到的问题。基于问题,我们进行探索研究,最终抽象成学术层面的东西。”

技术要更实用也能显现出价值,并不是一句空话。

2.实用主义的源头:一线用户的需求

实用主义并非是腾讯云的一家之言,腾讯依靠的是来自一线企业需求的真实反馈。正如汤道生所言:“企业需要的是在实际场景中真正解决了某个问题,而不是在100个场景中解决了70%-80%的问题。”

今年以来,腾讯云一直泡在一线和用户沟通具体的需求。腾讯云副总裁、腾讯云智能研发负责人吴永坚告诉「甲子光年」,当前,企业客户对于大模型的技术需求正在逐步变得更理性。“客户在张开怀抱拥抱技术的同时提出了更多实用性的需求:有人关心大模型技术能够结合产品上做更定制化;有人希望拓宽大模型更多元的知识来源,也有人希望生成精准的行业知识,准确率要有保障。”他认为,技术需要结合多种因素组合考量:“安全性、部署、成本等多重因素交织下,再去考虑技术的可达性。”

这些多样化的需求意味着,单一模型很难满足所有需求。“我们不会去强调技术有多强,而更侧重于产品如何去解决客户的实际问题。”

基于此,腾讯云打造了支撑实用主义落地的全套MaaS服务体系,并持续根据用户需求进行迭代:基于自研的腾讯混元大模型,同时支持业内主流的开源模型应用,从技术底座、平台能力和智能应用三个维度,助力客户构建专属大模型和智能应用,推动大模型在产业中的落地应用。

腾讯云MaaS解决方案,图片来自腾讯

技术底座层包含算力工具和行业模型。算力方面,包含腾讯云今年4月发布的专为大模型训练设计的新一代HCC高性能计算集群;依托自用的向量引擎(OLAMA)腾讯云也已经推出向量数据库(Tencent Cloud VectorDB);以及自研的星脉计算网络架构。“通过存储、计算、网络整体的升级,我们今天实现了训练一轮万亿参数的模型在4天之内就可以完成,并让训练效率得到大幅提升,训练时间得到保障,训练成本下降很多。”腾讯云副总裁、腾讯云智能负责人、优图实验室负责人吴运声提到。

平台方面,腾讯云TI平台是腾讯云大模型能力在行业落地的技术“杀手锏”:不仅包含此前就有的数据标注、训练、评估、测试和部署等工具,还有可以进行更优训练和推理加速“太极Angel”,以及从“业务分析、数据处理、大模型选择”到“模型评测”的一体化完整方法论。吴运声称:“我们对企业在做模型精调过程中的精调、部署等方面的工具做了全栈式打造,可以让每个想做自己模型的企业,基于TI平台,用腾讯云的加速框架、基础算力、开源工具,让构筑行业模型变得更简单。”

在2023年腾讯全球数字生态大会上,腾讯云对这套技术底座进行了新的升级:

平台层,一方面,TI平台也全面接入了Llama 2、Falcon、Dolly等主流开源模型,支持系列模型的直接部署调用、应用流程简单。

工具链层,腾讯云为客户提供了多款即插即用的产品,客户只需加入自己独有的场景数据进行精调训练,就可快速尝试多种大模型,并根据自身业务场景需求,就可以在短时间内精调出专属的模型方案。

加速方面,升级后太极Angel大模型加速框架,通过异步调度优化、显存优化、计算优化等方式,相比行业常用方案性能提升30%以上。

应用层,腾讯企点继续升级了全新一代智能客服,提升了管理端配置能力、知识构建效率,优化C端用户体验;同时腾讯企点分析AI助手,覆盖对话式分析,辅助数据配置、提取智能结论、一键生成报告四大场景,该功能正式在9月向大客户开放内测申请。

这些多样的技术组合支撑着腾讯云将大模型落实到千行百业。

3.践行实用主义,把大模型落地实体经济

对于眼下的腾讯云而言,究竟如何真正将实用主义落地真实的场景中?

从战略优先级上来看,当前腾讯云已经有一套清晰的思考:第一步,锚定标杆客户第二步,辐射整个上下游产业链的腰部企业。“眼下,我们会挑选若干个关键场景,结合客户需求做深做透,形成标杆,之后就能够往腰部覆盖,开展规模化。”腾讯云副总裁、腾讯云智能研发负责人吴永坚告诉「甲子光年」。

其次是重要行业和领域。这个答案从腾讯云此前的大战略就可以得出——实体经济。

实体经济是大模型必争之地。工信部提出,到2025年,70%的规模以上制造业企业基本实现数字化网络化。腾讯云也在2021年进行了全面的调整来持续开拓实体经济市场。腾讯对自己的角色定位一直是——实体经济的数字化助手。工业、制造、能源、零售等都是腾讯云的核心阵地,目前三一重工、富驰高科、国家电网都是其客户。

腾讯集团副总裁、政企业务总裁李强在分享中称:“腾讯会坚定的推动大模型走入产业全链条。比起聊天、答题、内容生产等,大模型在产业的具体场景应用,对实体经济将带来更大价值。”在他看来,机会巨大:“中国拥有智能化落地的丰沃土壤和场景,我国的制造业规模已经连续13年居世界首位。中国信通院预测,到2030年,中国产业智能化的规模会超过10万亿元,智能化还将推动劳动生产率提升20%。”

目前,腾讯云已经携手政务等行业的头部企业,在二十余个行业探索了超50个行业大模型的应用解决方案。以腾讯云数智人工厂为例,腾讯云MaaS能力可以让数智人分身复刻缩短至24小时,大幅降低成本。在文旅领域推出的文旅大模型,金融领域打造的OCR大模型都是已经在落地的案例。

比如,腾讯云OCR大模型可以提升非结构化内容识别、理解能力,企业可以通过TI平台对OCR大模型进行精调。这是一种极大的能力跃迁。此前传统的OCR深度学习模型需要经过检测、识别、结构化等多个阶段,很难突破监测识别难点,且不具备阅读理解和推理能力,更难以进行标准化,企业的定制成本高昂。新的大模型技术让这些难题不再是障碍,能够让图像到文字直接生成,使得任务间能力互补,泛化性更强,场景更丰富。

OCR大模型提升了很多场景的工作效率,比如工业质检场景下,工厂可以让大模型识别电线规格、零部件规格说明书,物流快递场景下,物流公司可以让大模型识别集装箱规格、电子显示屏读数,这种端到端理解图片的能力,极大的提高了流程效率。

这只是腾讯云推动大模型在实体经济的一小步。

更多关于实用主义的探索正在路上。腾讯正持续推动大模型走入产业全链条。随着技术在千行百业的扎根,从田间到产线,从实验室到便利店,大模型将无处不在。


追加内容

本文作者可以追加内容哦 !