前些天ChatGPT的崩溃,着实让广大用户体验了一把AI软件的“算力危机”。而事实上,除了算力危机外,ChatGPT一类的人工智能聊天软件,竟然也会有“饿肚子危机”,一旦陷入该危机,将出现有算力也给不出合适答案的情况。ChatGPT尽管并非生命体,不需要进行生物学意义上的进食以获得营养,但是其需要大量的数据来训练,特别是语料,即一定数量的文本资源集合。有了这些语料的训练,类似于ChatGPT的人工智能软件才能对用户的信息做出正确的反应,并给出正确且语句通顺的回复信息。事实上,这些软件吃得越饱,吃得越好,工作的效果一般也会越好。大致明白了这类软件要吃的是什么之后,在我们的A股市场,又有哪些公司,可以参与这项“做饭”的工作呢?
(相关资料图)
01
人民网、浪潮信息
食材提供者
“高端的食材,往往只需要最简单的烹饪方式”——《舌尖上的中国》第一季。
对于ChatGPT来说,什么是高端的食材?来看下面这个例子。
假如向ChatGPT提问:2022年,中央网信办举报中心指导全国各级网信举报工作部门、主要网站平台受理网民举报色情、赌博、侵权、谣言等违法和不良信息1.72亿件,如何看待这一数据?
食材1:不良网络给人们的生活带来的危害是多方面的。虚假信息往往使人上当受骗,不仅造成经济上的损失,而且还会给受害人带来精神上的伤害。造谣传[遥]会混淆是非,使人真假难辨,易引起思想混乱,影响社会和谐。总之,不良网络其社会危害性不可小觑。因此净化网络空间除了相关部门加大督察整治和打击的力度外,对于各网站及我们每个人来说也是责无旁[带]的。
食材2:网络违法和不良信息的出现与存在,是“冰冻三尺非一日之寒”,清除有害信息、根治顽瘴痼疾也很难一蹴而就。这就需要找准治理的重点,平台需要加大优质信息供给,多平台、多渠道、多形态提供群众需要的网络内容及信息服务,做到用正能量驱散负能量。使网络空间清朗起来,不是一时的事,而是一直的事,需要网上网下集众智、汇合力,为文明办网、文明用网、文明上网、文明兴网保驾护航。
无论网上还是网下,无论大屏还是小屏,都没有法外之地、舆论飞地。综合运用法律、监管、平台、技术等手段,坚决遏制各类违法违规问题,不断提升网络空间治理效能,做到利刃出鞘、精准打击、发力增效、久久为功,让网络不良信息无处遁形,让清风正气分外充盈。
是的,第一份食材出自一段普通的针对网络有害信息的问答,里面还有两个明显的错别字,而第二份食材,则是出自人民网针对网络有害信息的时评。而这,正是中央级别大型媒体的优势:尽管这些文字显然还不能作为聊天机器人最终的答案,但如果语料更为优质,后续加工出来的食粮需要的加工程序也会更少,输出效果也会更佳。
不过,中央级的媒体,也并非只有人民网一家,为何人民网会成为语料提供者的排头兵呢?
答案就在人民网,对于数字经济的布局。其中,特别是人民数据已经布局了新型数据中心和新型算力中心,进而人民网可以轻松地基于知识图谱、自然语言处理和人工智能等技术,深度挖掘自由的核心数据资源(优质语料等)。
图片来源:人民网2022年半年报
自己拥有大量优质语料,又有着数据提供的布局,那自然而然,论优质语料,人民网是当仁不让的食材提供商。
除了人民网之外,浪潮信息的源1.0,同样是食材的宝库,只不过相比于人民网来说,浪潮信息是以量取胜。
2021年9月28日,浪潮人工智能研究院在京发布全球最大规模人工智能巨量模型“源1.0”。“源”的单体模型参数量达2457亿,超越美国OpenAI组织研发的GPT-3,成为全球最大规模的AI巨量模型。
这个模型的数据量大,并非是他适合作为原材料的理由,更重要的是,这款“源”是中文巨量模型,其蕴含的中文语料极为丰富,浪潮信息基于源1.0发布了4个技能大模型,对话模型源晓问、问答模型源晓搜、翻译模型源晓译、古文模型源晓文。这些模型,特别是有中文特色的对话、古文等模型,对于发展国内对标ChatGPT的智能聊天产品有着至关重要的作用。
去年,浪潮“源1.0”大模型登顶CUGE(一款清华北大领衔的中文机器语言能力评测基准)总榜榜首,并获得语言理解(篇章级)、语言生成、对话交互、多语言、数学推理等5项评测最佳成绩。足见这款模型在中文语料领域强大的优势。
02
拓尔思、博彦科技
我们来做饭、喂饭
和做饭类似,有了原材料,还需要一定的加工烹饪,才能成为真正的数据食粮,让AI系统能够学习、消化。
事实上,有专门的学科去做这块的业务。自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。按照技术实现难度的不同,这类系统可以分成简单匹配式、模糊匹配式和段落理解式三种类型
在A股市场,有不少公司拥有语料加工相关的业务,而拓尔思正是其中之一。
2022年12月,拓尔思在接受券商调研时曾表示,公司作为国内最早从事自然语言处理(NLP)研发的企业之一,在NLP、知识图谱、OCR、图像视频结构化领域都具备自主可控的底层技术。在AIGC方面,公司围绕传媒、政府等垂直领域的语料库积累已非常全面,在智能问答、自动写作或智能写稿、内容播报、创作智能辅助等方面亦有成熟应用场景。
更为重要的是,拓尔思已经有专门的平台,去做语义处理这个事情了,公司旗下“数家”平台,已经可以对语料数据进行结构化分类整合,而紧随其后的“智语”平台,则吸收了拓尔思在自然语言处理和信息检索领域多年的技术积累,其已经可以进行分词和词性标注、语言分类和语言聚类等内容,可以说,拓尔思这些平台已经成为语言的加工厂,经过这些平台的加工后,机器就可以通过这些机器人适配的语言进行认知、学习了。
除了拓尔思,博彦科技在语言加工领域,也同样有着自己的业务。2月10日,博彦科技在投资者互动平台上称,公司有智能聊天机器人方面的解决方案,有能力为机器提供语音训练相关服务。
这句话也可以翻译成:我可以,也很会给机器喂饭。
事实上,博彦科技在语料这条产业链中的地位,有点像医药中的CXO,客户在研发过程中,可以将需要加工的语音、杂乱的语言文字等部分交给博彦科技,博彦科技凭借其经验和专业能力,进行标注、归类。如果客户有需要,公司也可以协助公司完成相关的机器语义训练。
作为这一领域的老牌企业,此前,博彦科技已与微软合作了长达二十多年,这也意味着在机器训练领域,博彦科技已积累了长时间的经验,随着聊天机器人时代的到来,博彦科技的相关订单或将迎来爆发。
当然,笔者所列举的食材提供者、加工者相关公司并不完全,实际上,除了这些公司,汉王科技、海天瑞声、科大讯飞等公司在语料加工领域也有着多年的技术积淀,但这些公司或前期涨幅过大,或总市值过大、涉及领域实在过多,在这里就不做重点介绍了。其实在语料加工领域,这些公司的业务也多集中于数据标注、模式化、训练等内容,本质上也是一个做饭的活。忽略二级市场因素的话,事实上未来这些公司在语料加工领域,也有望有所作为。
可以看到的是,单单文字领域的机器学习,就需要一系列的基础数据积累、加工、训练等工序,这部分的市场,随着类ChatGPT软件的不断开发,将在未来几年呈持续爆发之势。想象空间十分广阔。机器吃饭,产业链喂饭并享受丰厚回报的时代,或许真的要到来了。