大模型时代的数据底座怎么建 | ToB产业观察-维其互联

图片地址：https://images.tmtpost.com/uploads/images/2024/05/20240509162152714.jpg

图片来源@pixabay大模型的生产需要数据底座的支撑，因为只有高质量、高密度的数据去训练模型，才有可能得到更精准的生成效果。就当前而言，训练一个500T参数的模型，使用的训练数据已经达到16.6PB，如果一本书按500KB算，相当于332亿本的数据量。这是什么概念？好比说现存每个人类拥有4本书的量级。但问题是，使用大量互联网上公开数据集，仅在数据清洗环节就提出极大挑战，被精炼的高质量数据正如石油一样，非常珍贵。钛媒体APP注意到，目前不少模型提供方，已经在特定领域使用合成数据用于模型训练，其原理是希望能够基于大模型自动生成高质量数据集。而这只是一方面。目前数据量的暴涨，还要求使用各种技术手段实现数据的预训练和微调，数据智能应用场景下，对大数据平台的管理水平和安全能力要求提升，这对于基于云服务应用的企业而言，挑战的复杂性会更为明显。在媒体沟通会上，亚马逊云科技探讨了数据在生成式AI时代的重要性