两周前Meta发布了开源大模型LLaMA 2。与上一代LLaMA相比,LLaMA 2有着性能接近GPT-3.5、允许商用、安全性更强,巨头联合生态开源的特点。LLaMA 2的开源使得大模型的竞争来到新的起点,市场格局面临重塑。如果开源大模型使得企业不再制肘于自研大模型,那么基于大模型的生成式AI决胜关键将只有一个答案:数据。
数据质量是AI大模型落地的决胜关键
在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果的模型优化方式被越来越多业内人士所认同。人工智能领域的权威学者吴恩达发起了“以数据为中心的 AI”运动就是主张模型不变,通过改进数据集质量提升模型效果。在当前算力和算法难以拉开巨大差距的情况下,突破数据瓶颈、获取更多高质量的数据成为大模型落地的关键。
来源:Daochen Zha et al. 《Data-centric Artificial Intelligence: A Survey》 2023
晴数智慧推出高质量MagicData-CLAM数据集
在中文高质量数据集稀缺的情境下,晴数智慧基于近20年在对话数据的专业积累,在国内首次推出了面向大模型SFT训练的高质量数据集:MagicData-CLAM数据集。
该数据集包含一共5万条Prompt和对应回答,数据的分布由晴数智慧数据专家团队设计完成,覆盖领域多样性、任务多样性,以及表达多样性。数据版权完整清晰。
MagicData-CLAM帮助实现更优的大模型微调结果
为了更好地评估MagicData-CLAM的价值,晴数智慧研发团队进行了一组实验:基于chinese-llama-2-7b模型(该模型由开源项目 Linly 发布,是基于 LLaMA2-7b训练的中文底座模型),团队分别使用约等量的MagicData-CLAM数据集和基于斯坦福Alpaca数据处理的高质量中文数据集进行微调,得到Chinese-llama2-CLAM(简称CLAM)大模型和Chinese-llama2-alpaca(简称Alpaca)模型。我们对这两个模型以及基础chinese-llama-2-7b模型(基线模型)的输出结果进行评估。结果显示,从大模型的表达自然度上,结果输出结构化上,CLAM显著更优;在输出知识的正确性上CLAM也表现不错。
测评样例如下:
对比模型输出的结果,我们发现:
CLAM模型相比Alpaca模型,对中文的理解更好,结果输出上结构化更清晰。
Alpaca模型似乎容易先续写几句任务然后才开始进行回答,交互自然度稍有欠缺,而CLAM模型几乎未出现这种情况。
Alpaca模型偶尔出现幻觉,如它的输出结果有如此描述:经典的歌剧作品包括《托斯卡》、《费加罗的婚礼》、《魔笛》等,京剧作品如《茶馆》、《空城计》、《雷雨》等。(《茶馆》与《雷雨》并非京剧作品。)而在相关知识输出中,CLAM模型较好地理解了歌剧,京剧等的区别,并输出更合理的知识。
此实验结果说明,调优数据集对基线模型的输出结果有明显影响,使用更高质量的数据集,模型能输出更优的结果;Alpaca数据集是斯坦福大学研究团队发布的高质量数据集代表,而CLAM模型的输出结果优于Alpaca中文版模型,说明晴数智慧自研的MagicData-CLAM数据集是优质的中文高质量数据集。
了解更多实验过程,访问:https://github.com/magichub-opensource/CLAM-Conversational-Language-AI-from-MagicData
同时我们已将CLAM模型开源发布,访问获取:https://huggingface.co/MagicHub/clam-7b/tree/main
欢迎更多的伙伴访问、体验、反馈。
一场不同于过去的新的竞争正在生成式人工智能领域展开,高质量数据在其中将成为越来越关键的因素。MagicData-CLAM数据集作为晴数智慧在国内首发的合规可商用高质量SFT数据集,希望能帮助国内大模型应用研发伙伴先人一步,占领制胜先机。
更多MagicData-CLAM数据集详情,咨询电话:400-900-5251,或邮箱:business@magicdatatech.com