在BATH等科技大厂中,华为是最晚官宣大模型进展的巨头,并选择了一条与OpenAI不同的道路。华为背后到底是怎么思考的?

文|赵艳秋

编|石兆


(资料图)

7月7日下午,华为云在东莞举办的华为开发者大会2023(HDC.Cloud 2023 ) 上,宣布推出盘古大模型3.0,这是华为云自2021年4月正式发布盘古大模型后的最新进展。

由于华为是BATH等科技大厂中,最晚官宣大模型进展的企业,又选择了一条与OpenAI不同的道路——定位产业、大模型包含三层架构、多个模型。由此,华为的路线选择、大模型在行业市场的可商用性、华为发力点等,都引发业界广泛关注。

01

为什么不是一个大模型?

与OpenAI聚焦于GPT一个大模型不同,华为云盘古大模型3.0包含了三层架构、多个模型。为什么华为大模型与OpenAI的不一样?

在大会上,华为常务董事、华为云CEO张平安系统介绍了华为云盘古大模型的情况。华为云于2019年投入AI大模型研发,并于2021年发布了基于Transformer架构的盘古NLP中文大模型和阿语大模型。华为云称,与2021年发布的盘古大模型 1.0相比,此次主要在架构、训练方法上进行了升级。

在华为云盘古大模型3.0架构中,第一层L0层有5个盘古基础大模型,不仅有今年最火的自然语言大模型,还有视觉大模型、多模态大模型、预测大模型、科学计算大模型。第二层L1层目前有多个行业大模型,既有基于行业公开数据训练的行业通用大模型,如政务、金融、气象等,也有基于行业客户自有数据,在盘古L0和L1上训练而来的企业专有大模型。第三层L2层是针对更多细化场景的模型,可以开箱即用。

为什么华为云会选择这样的道路?实际上,此前也有企业采用类似做法,“本质上是更容易实现行业闭环落地”,有业界人士认为,这是一个更平滑的技术路线。通过不同层模型间的飞轮效应,既可以把模型越做越大,也可以形成真实的行业落地和用户反馈闭环,让模型越来越有用,“而不是一上来就是万亿参数的大模型,却形不成用户反馈闭环”。

这轮大模型变革以语言大模型为主,但有人士注意到,从华为云基础大模型来看,除了语言大模型之外,还有预测、科学计算大模型这类比较专用、解决特定问题的模型。业界人士告诉数智前线,这些基础大模型之间能形成互补,也是目前演进的一个趋势——这一轮以语言大模型发起,逐步衍生出CV、多模态等大模型。张平安介绍,他们是考虑到行业客户不同应用场景、不同时延、不同响应速度的多样化需求而来。

值得注意的是,盘古大模型采用了“完全的分层解耦设计”,这是盘古3.0全新做的架构设计,也是此前各大企业推出大模型时未涉及的。根据张平安的介绍,这是为了更好地构筑一个商业模式——适配行业不同场景,必须要做到完全解耦。比如,有些企业只需要图像分析,不需要文案生成,基础大模型和能力集解耦后,他们就可以按需调用;甚至还有数据解耦,模型升级时,数据就可以复用;这个解耦架构,也实现了模型的并行迭代。

02

为什么做行业大模型?

业界观察,自从OpenAI推出ChatGPT之后,美国绝大部分创新应用集中在C端。在中国市场,百度、阿里、商汤、科大讯飞、华为等科技大厂先后公布大模型最新进展。截至7月,全球已发布数百个大模型,中国有80多个。

业界观察,国内企业在大模型落地时,都结合自身在已有业务上的积累,虽然有些模型看着较为类似,但落地思路上有较大差异。比如,百度“文心一言”大语言模型,正在搜索、地图、音箱等方向上探索;同时也推出“文心千帆”大模型平台,争夺产业级市场。科大讯飞一面将大模型技术叠加到教育、办公智能硬件等成熟业务中,另一面也介入此前一直在做的医疗、教育等企业数字化市场。

华为云此次发布的盘古大模型3.0,则聚焦在行业市场,这也有赖于它在政企市场上的长期积累。张平安称,“AI for Industries”是华为云坚持的方向,“盘古大模型,不作诗只做事”,这在一定程度上代表了产业界的声音。资深业界人士认为,ChatGPT核心并不是“Chat”,而是它的思维链、智能涌现、从感知到认知这些巨大的变化,它让人工智能的通用性有了眉目,而不像过去一个场景、一个场景地去提供AI技术。

实际上,虽然这一轮大模型是先在消费级市场引发风潮,让每个人意识到大模型的价值,但业界也达成共识,大模型是可能引发类似蒸汽机产业革命的技术范式变迁,因此,企业级市场也是商业竞争焦点。

张平安告诉数智前线,他们注意到OpenAI也有动作准备进入行业,“我觉得这才是正确的道路”。

03

大模型在行业是否达到可商用?

虽然业界在进军行业,但由于目前大模型在企业级市场落地还处于早期阶段,各种问题也引发了“大模型远未达到可商用化程度”的说法。不过,从本次华为开发者大会上看,大模型落地的各种问题正在逐步解决,在产业中确实在发挥出价值。

举例来说,大模型的最大弊端之一是擅于“一本正经地胡说八道”,这对于严谨的行业应用是致命的。而这次华为云演示了对准确性要求严苛的金融业和制造业的落地进展。

在金融行业,工行在全国有4万多个网点、20多万网点的柜员,经常要帮助客户解决各种问题,需要在不同系统中进行多次查询。工行和华为正在紧密合作,通过盘古打造工行的金融大模型。

华为云EI服务产品部部长尤鹏介绍,在合作中工行首先提出,大模型协助网点员工办理业务时,第一要做到合规,这就意味着在用生成式大模型时,必须要能够溯源。第二是要准确,年利率如果是3%,绝对不能说成3.5%。由此,基于盘古大模型的的银行网点助手,将大模型的生成能力和检索能力进行融合,自动生成的办理流程和操作指导,都提供了检索来源。目前,原来需要平均5次的操作降低为1次,办结时间缩短5分钟以上。

在制造行业,无论是高精工艺,还是生产计划,都需要分毫不差,一旦出现错误,可能会酿成事故。盘古大模型已走进华为生产线,在学习了各种数据,包括能准确理解发给计划员的邮件,并转化为调度指令,再通过天筹AI求解器进行运算,现在1分钟可准确做出未来3天的生产计划。

大模型如何在要求精准的行业应用中不跑偏,仍是行业性挑战。目前业界都在进行探索改进。华为云战略与产业发展部总裁黄瑾称,除了要不断提升大模型的水平外,依赖现有高质量知识,包括外挂插件、搜索引擎、相关数据库、知识图谱、行业知识库等,都能在一定程度上保障大模型应用的精准和专业。而此前,包括微软在内的业界认为,当下大模型的定位“还是一个专家助手”,并非完全替代人。

一些行业企业还有一个疑惑,他们关注到一些应用如矿山,用的最多的是摄像头和图像分析,这真的需要大模型吗?业界人士告诉数智前线,实际上,大模型的出现,提升了政企客户的期望值。他们应用大模型,不再为解决单点问题,而是期望大模型充当企业智能化的“一个底座”。

从这次华为展示的盘古矿山大模型来看,覆盖煤矿的采、掘、机、运、通、洗、选等业务流程下的1000个细分场景,大模型将充当底座。在华为与深圳福田区政府的合作中,此前在数字政府1.0项目中,福田区建设了很多感知系统。现在,将这些系统接入大模型后,相当于给政务系统配上了智慧大脑,客户认为这才是数字政府2.0。

大模型在行业中的应用才刚刚开始,由于行业数据的可获得性及开放度不高,行业Know-how复杂等挑战,大模型在行业的落地进展较慢。张平安称,未来随着不断深入行业,华为云会推出更多行业大模型。而这也是当下竞争的关键。

04

百模大战,华为的发力点在哪里?

业界看到,在推出大模型的企业中,他们的投入重点各有不同。在7月7日开发者大会上,张平安强调了大模型所需的各项根技术。他称,一方面大模型的创新来自模型本身创新;另一方面则必须依靠AI各项根技术,“如果没有算力技术、没有算子,没有开发框架,没有开发平台、工程平台,没有开放性,很难做到大模型好用,给各行业赋予价值”。

业界观察,华为不仅提及昇腾芯片,更强调上述软硬件根技术组成的昇腾云底座。由于行业中最成熟的GPU以及相关软件,华为都不可用,它转而发展全栈根技术:最底层是鲲鹏、昇腾为基础的AI算力云平台,之上是异构计算架构CANN、全场景AI框架昇思MindSpore,以及AI开发生产线ModelArts。“现在基于华为的AI根技术,我们大模型训练效能不仅不落后,还可以调优到业界主流GPU的1.1倍。”张平安在大会上透露了这个业界关注的数字。

7月7日,华为云也将昇腾AI云服务对外开放。华为云2000P Flops单集群的昇腾AI云服务在乌兰察布和贵安同时上线。昇腾云服务除了支持华为的AI框架Mindspore外,还支持Pytorch、Tensorflow等主流AI框架,框架中的90%算子,可以通过华为端到端迁移工具从GPU平滑迁移到昇腾。

有业界人士称,目前GPU之所以一卡难求是因为大家都急着用,未来随着多样化算力走向商用,AI算力将更为多元化。据悉,美团用30天时间,已将70多个AI应用迁移到了昇腾AI云。华为还与美团的开发人员一起,将美团30个算子进行了深度优化,AI算力的效能比原来提升了30%。

AI算力是一个堪称比摩尔定律发展速度还快的领域。目前,包括英伟达在内的企业都在风暴般研发新框架,拉升AI算力。张平安称,华为对AI根技术堆栈的发展是一条长期道路,除了大量自身技术外,还要与客户应用场景、算子结合。

张平安表示,为了帮助全球客户、伙伴、开发者训练和使用大模型,华为云致力于为全球客户打造世界AI另一极,为所有AI开发者提供新的选择。

05

盘古大模型未来怎么走?

目前,业界大模型处于快速演进状态。业界人士称,在过去几个月时间中,大模型在训练、推理方面,每天都有很大变化。

“我们内部做了一个非常激进的roadmap(技术路线图)。”张平安说,华为云现在是“All in盘古大模型”,目标图制定得密密麻麻。他透露,这一阶段的路标更多的不在盘古大模型参数提升等方向,比如,在昇腾AI云服务上,华为云刚刚发布的2000P Flops单集群,如果按照一张加速卡算力是400T的话,集群规模是6000张卡。

另外,更为重要的是向行业深处的挺进速度,“这也是我们价值最大的路标图”。

张平安称,盘古大模型在中国市场成功之后,在海外也会继续拓展。在海外,既可以部署在华为昇腾云上,也可以经过合作伙伴的改造,部署在其他任何算力平台上。“盘古更加是个软件,它是一个AI的软件系统。”数智前线获悉,今年以来,华为在软件发展战略方面,内部也进行了多次大范围研讨,华为有意在软件领域成为一家成功的企业。

此外,华为云CTO张宇昕针对业界关注的盘古大模型开发问题进行了回复。盘古大模型没有采用开源技术,全栈技术为自主创新。

他介绍,从数据角度,L0基础大模型训练采用业界开放数据集。L1和L2面向行业的模型,采用了行业公开数据集以及行业客户授权的数据。在这个过程中,他们需要采用多项技术保证数据处理过程中的隐私保护、安全合规要求,确保知识产权等。而基于此,华为盘古大模型也将走商业闭源道路。

推荐内容