ChatGPT引发的大模型浪潮,催生了数据存储、检索需求。传统关系型数据库难以处理大规模数据、低时延高并发查询、模糊匹配等需求,但向量数据库能够有效解决这些痛点,因此受到业界青睐。今年5月前后的一个月内,全球有4家向量数据库创业公司获得新融资,国内的相关概念股股价纷纷上涨。


(资料图片仅供参考)

“如果你看好AI,那你就可以看好向量数据库。”7月4日,腾讯云正式发布AI原生(AI Native)向量数据库,腾讯云数据库副总经理罗云在会后接受采访如是表示。罗云认为,向量数据库是大模型和企业数据之间的桥梁,可以打破大模型训练的时空限制,能够被广泛应用于大模型的训练、推理和知识库补充等场景。

《每日经济新闻》记者了解到,目前腾讯云的向量数据库主要在腾讯内部产品进行探索应用。经过腾讯内部海量场景的实践,数据接入AI的效率也比传统方案提升10倍,运行稳定性高达99.99%。不过,从腾讯内部探索,到外部实际的商业化落地,尚需时间。

图片来源:视觉中国(图文无关)

成为大模型和企业数据的桥梁

向量数据库专门用于存储和查询向量数据,业界称之为大模型的“海马体”。

西南证券今年6月发布的研报指出,与传统数据库相比,向量数据库使用向量化计算,能够高速地处理大规模的复杂数据;并可以处理高维数据,例如图像、音频和视频等,解决传统关系型数据库中的痛点;同时,向量数据库支持复杂的查询操作,也可以轻松地扩展到多个节点,以处理更大规模的数据。

7月4日,腾讯云正式发布AI原生(AI Native)向量数据库Tencent Cloud VectorDB。在发布会上,腾讯方面表示,腾讯云向量数据库最高支持10亿级向量检索规模,延迟控制在毫秒级,相比传统单机插件式数据库检索规模提升10倍,同时具备百万级每秒查询(QPS)的峰值能力、向量数据库能解决大模型预训练成本高、没有“长期记忆”、知识更新不足、提示词工程复杂等问题,突破大模型在时间和空间上的限制,加速大模型落地行业场景。

发布会后,腾讯云数据库副总经理罗云在接受包括《每日经济新闻》记者在内的媒体采访时表示:“模型的训练有时间和空间两个限制。在时间上,训练一次大模型可能耗时数月,耗费上千万美金,成本高昂,但(由于预训练的模式)很难把最新的数据灌注到大模型里,而客户有时需要使用最新的数据;在空间上,客户有很多私域的数据,(出于对安全的顾虑)客户往往不愿意放在公开的场合让大模型进行训练,甚至连微调都不愿意把数据给到大模型的厂商。向量数据库则很好地打破了这两个限制。”

统计显示,将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗相比传统方式可以实现10倍效率的提升,如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2-4个数量级。

腾讯云推出向量数据库的背后,是大模型训练对数据的强大需求。罗云表示:“随着大模型的成熟,未来我们可能不再需要雇佣那么多资深的软硬件工程师,企业或许能够更好地享受到大模型抹平技术差异带来的红利。因此,我们认为企业和企业之间在未来很长的一段时间的竞争会在数据上,谁能够更好地利用数据,谁能够更好地把数据沉淀到自己的工程里面,更好地让数据接入到大模型和整个AI体系,谁可能就会赢在将来。”

商业化尚在初期

今年5月前后的一个月内,全球有4家向量数据库创业公司获得新融资,其中,Pinecone完成1亿美元B轮融资,WeaviateBV获得5000万美元B轮融资,Chroma获得1800万美元种子轮融资,Qdrant获750万美元种子融资。在国内A股市场,今年3月以来,云创数据(BJ835305,股价18.84元,市值25亿元)、星环科技(SH688031,股价139.76元,市值169亿元)、拓尔思(300229.SZ,股价25.79元,市值205.11亿元)等多个向量数据库概念股迎来股价上涨。

“很多客户和我们提需求,基本上每天不止1到2个客户前来咨询向量数据库什么时候能够给他们使用。整体来讲,大家的关注度,对向量数据库需求的迫切度都很高。”罗云说道。

一边是概念火热和需求高涨,一边是商业化进程有待成熟。西南证券研报指出,目前整个向量数据库的赛道仍处于培育阶段,受AI大模型热潮催化,向量数据库刚刚引起国内市场的关注,目前主要使用者是互联网巨头公司。赛道目前处于群雄并起的阶段,从融资、技术的角度上来讲,目前尚未有寡头角色出现。

而对于腾讯而言,腾讯云向量数据库目前已在腾讯内部产品进行探索应用,如腾讯视频、QQ浏览器、QQ音乐等30多款国民级产品。以腾讯视频的应用为例,视频库中的图片、音频、标题文本等内容使用腾讯云向量数据库,月均完成的检索和计算量高达200亿次,有效满足了版权保护、原创识别、相似性检索等场景需求。此外,使用腾讯云向量数据库后,QQ音乐人均听歌时长提升3.2%、腾讯视频有效曝光人均时长提升1.74%、QQ浏览器成本降低37.9%。

“现在向量数据库是跟着AI的浪潮来走,我们的判断是向量数据库本身能力已经比较能够适应客户的诉求,但大家对于怎么去用好AI、国内大模型发展的时间点这些都还需要一个时间周期,这是外部的市场环境导致的。随着AI进一步渗透到各行各业,我相信向量数据库的发展会来得很快了。”罗云最后表示。

推荐内容