阿里进入大模型时代-虎嗅网

出品｜虎嗅科技组

作者｜齐健

编辑｜陈伊凡

头图｜阿里云

AI大模型的浪潮，似乎正将所有互联网厂商拉到同一起跑线上。

“面对AI时代，所有产品都值得用大模型重做一次。”在4月11日的2023阿里云峰会上，阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇说。

在本届阿里云峰会上，张勇宣布，阿里巴巴所有产品未来都将接入大模型，全面升级。

这样的动作，意味着在阿里云，AI大模型将更像是一个应用型平台，行业分析师仓剑将其比喻为“超级APP”。阿里想打造的，正是这样一个App的底座，云业务则是这个生态的基础。

“阿里云非常幸运，我们赶上了中国过去十几年互联网产业热潮。”张勇如是说。根据第三方市调机构Canalys最新发布的2022年中国云市场数据显示，阿里云在2022年占中国云市场份额的36%，排名第一，虽然业绩稳定增长，但增速持续放缓。在云业务这样的新兴市场，相比近两年快速增长的“其他云”，阿里云的关键词更像是“守业”。

而就在阿里云缓步前行时，ChatGPT从天而降。

在这波AI技术的爆发中，ChatGPT依云而生，Azure在ChatGPT训练、运行过程中表现出色。AI大模型能力，成了全球云厂商追捧的焦点，也成为了未来云业务最核心的竞争优势之一。

眼下，对于云厂商来说，不论前期发展如何，这波AI热潮，的确是一个换道超车的机会，模型能力、基础设施、开发者生态，都有可能决定云厂商的未来。

算力仍是重点

算力、算法、数据是AI大模型研发的三大要素，在AI大模型的竞逐中，主流云计算厂商显然在算力方面有着更强的实力，但一项创新技术的研发必然面临诸多复杂的问题，有时候优势亦是挑战。

“阿里云未来核心要做好两件事情：第一，让算力更普惠；第二，让AI更普及。”张勇提出，云计算是AI大规模普及的最佳方式，他说，“我们希望在阿里云上训练一个模型的成本，能够降低到现在的十分之一，甚至是百分之一。即使是中小企业，也能通过云平台获得AI大模型的能力和服务。”

据周靖人介绍，过去十年里，阿里云提供的算力成本下降了80%，存储成本下降了近9成。2023年，阿里云将推出一款更接近云计算终极形态的算力产品，这款被命名为通用Universal实例的产品进一步屏蔽了传统IT的硬件参数，让数据中心真正成为一台超级计算机，为中小企业和开发者提供普惠的算力。通用Universal实例的价格有大幅降低，对比上一代主售实例最高可下降40%。

降价、普惠的确是推广云服务、普及AI的有效路径，但普惠算力能满足大模型的研发需求吗？

AI大模型的研发对算力需求很高，而算力的强弱，取决于多个条件，包括硬件性能、硬件数量、系统和网络、软件优化、算法效率以及能源供应和散热等。

OpenAI的公开资料显示，GPT-3模型的研发采用的全部是英伟达A100显卡。而目前国内算力服务商在A100的囤货量上，并不乐观。

“AI的训练、运营都需要算力，无论传统的AI模型还是现在的预训练大模型，算力肯定是云计算厂商的核心优势。”仓剑告诉虎嗅，GPU芯片是影响AI大模型训练算力的重要条件。国内服务商缺芯问题目前还不是很明显，因为从运营、发展的角度来说，国内厂商都会在算力方面进行长期储备。

此外，对于云厂商来说，服务器对芯片技术的要求相比手机低一些，主要是体积和能耗方面的问题，部分国内自研芯片基本也能满足60%-70%的AI大模型研发需求。

然而，对于AI大模型研发来说，虽然没有高端GPU也能研发AI大模型，但训练效果和效率必然会大打折扣。首先，如果GPU现存不够的话，就需要对大模型进行架构优化、使用模型并行技术或降低批量大小来适应显存限制，但这可能会影响模型性能和训练稳定性。

阿里云研究员、阿里云官网负责人蒋林泉表示，“对于大模型研发来说，高端GPU芯片意味着数据的存储能力更强，对于用到大量数据的AI大模型训练更加友好。但如果没有足够先进的GPU，就需要扩大GPU集群，通过分布式训练等手段，来做大模型训练。”

然而，对于云厂商来说，要扩大GPU集群的分布式训练，就需要在构建GPU集群的过程中，保证高速通信和同步的能力，这对于云计算厂商来说同样存在一定的技术门槛。

阿里云并没有透露大模型使用的芯片情况。目前，国内大模型训练使用的芯片多是英伟达的A100。

虽然云服务商的存货能满足一时的需求，但随着AI大模型的迅速发展，算力缺口可能会呈几何级数上涨，而且随着AI技术、芯片技术的迭代更新，国内厂商的“库存”或许很快就不够用了。而单纯低端显卡并联，很难满足更高级的研发需求，且很快也会面临能耗、成本的问题，未来算力市场要如何算账，自研芯片要如何开发，都是摆在云厂商面前的难题。

生态是制胜的关键

算力之外，生态是大模型争夺的战场，各大厂商正在跑马圈地。

在阿里云峰会上，周靖人正式公布了阿里云的大型语言模型产品——通义千问。

虽然在几天前，通义千问就已经上线进行了邀测，不过测试的邀请码申请只开放了半天，多数申请用户似乎都没有收到邀请码。周靖人介绍说，目前通义千问的测试主要针对定向的企业用户。

本次展示的通义千问能力比目前的邀测版本更丰富，不仅包括了大规模语言模型（LLM）的对话功能，多轮交互及复杂指令理解。还提到了与GPT-4的“识图”能力相似的多模态融合，以及支持外部增强API的功能。

阿里的AI大模型能力与阿里云成立之初一样，第一步都是服务“自己人”。在本届阿里云峰会上，张勇宣布，阿里巴巴所有产品未来将接入大模型，全面升级。他表示，要建设全新的AI开放生态，需要从阿里内部开始。

以钉钉为例，在周靖人的演示Demo中，钉钉接入通义千问之后可实现近10项新AI功能，用户可通过快捷键，随时随地唤起AI，开启全新工作方式。在钉钉文档中，通义千问可以创作诗歌小说、撰写邮件、生成营销策划方案等，全面辅助办公。在钉钉会议中，通义千问可以随时生成会议记录并自动总结会议纪要、生成待办事项。通义千问还可以帮助自动总结未读群聊信息中的要点。

一个趋势是，AI能力将会成为SaaS软件的硬指标。“有人曾说国内SaaS卷不动可以出海试试。不过现在恐怕也没戏了，在国内你面对的是钉钉等产品，但是到了海外，可能就要面对带GPT-4的团队了。”某国内协同办公软件公司高管对虎嗅透露，短期来看SaaS、协同办公软件上的AI功能可能还要等一阵，毕竟成本摆在那儿，不过如果微软、谷歌不计成本地“卷起来了”，国内厂商的好日子可能就要到头了。

“AI大模型可能更像微信、支付宝这种超级APP，它是一个应用型平台。”仓剑认为。国内大厂不太可能共享自己的数据，因此也不可能共享一个通用AI大模型，更不会依托于其他厂商的大模型。

生态竞争将成为各厂商AI大模型的制胜关键之一。“对于以大模型为主业的企业来说，主要的客户或合作伙伴应该会是AI能力不强的行业企业。通过加入某一个大模型的生态，绑定某一个重要的服务商，实现AI大模型的赋能。”仓剑说。

抓住用户，让企业加入自己的生态，光有价格优惠还不够。对于企业和用户来说，无论何种数字化、智能化转型，目的无非是“降本、提质、增效”，一直以来，云技术都在努力从企业的业务中找到能够实现这三个目标的场景。然而在今天，任何一种生成式AI大模型，要找到这样的场景，首先要面对的就是“降低成本、提高稳定性”这两个重要问题，对ChatGPT、GPT-4如是，对通义千问亦如是。