维其互联 > 信息聚合 > 大模型时代的数据底座怎么建 | ToB产业观察

大模型时代的数据底座怎么建 | ToB产业观察

2024-05-11 10:55:58来源: 钛媒体

图片来源@pixabay大模型的生产需要数据底座的支撑,因为只有高质量、高密度的数据去训练模型,才有可能得到更精准的生成效果。就当前而言,训练一个500T参数的模型,使用的训练数据已经达到16.6PB,如果一本书按500KB算,相当于332亿本的数据量。这是什么概念?好比说现存每个人类拥有4本书的量级。但问题是,使用大量互联网上公开数据集,仅在数据清洗环节就提出极大挑战,被精炼的高质量数据正如石油一样,非常珍贵。钛媒体APP注意到,目前不少模型提供方,已经在特定领域使用合成数据用于模型训练,其原理是希望能够基于大模型自动生成高质量数据集。而这只是一方面。目前数据量的暴涨,还要求使用各种技术手段实现数据的预训练和微调,数据智能应用场景下,对大数据平台的管理水平和安全能力要求提升,这对于基于云服务应用的企业而言,挑战的复杂性会更为明显。在媒体沟通会上,亚马逊云科技探讨了数据在生成式AI时代的重要性

免费发布分类信息