AI数据集是什么?
我们发现,AI越来越聪明了,但我们
是否会发现,它的聪明是怎么来的吗?
有些人可能说是它的算力,其实不全是
。
也有人说是它的算法,其实我也觉得不
全是,我觉得最关键,是从数据DATA
,是那种结构清晰,分工明确的数据,
今天,我们就从AI模型训练的视角,
来看一下,数据到底是怎么划分的,是
去怎么使用的。以及在大模型这个时代
,到底有哪些更聪明的数据组织的一个
方案,包括三类。
训练集;
验证集;
测试集;
要训练一个模型呢,就好像去培养一个
学生,训练集就是老师上课用的教材,
验证集呢,就相当于每次的一个课后试
验,来帮助这个学生查漏补缺;测试集
呢,就相当于我们最后的一次大考,来
验证我们这个学生到底学得怎样,他的
成绩到底好不好,所以,训练集的目的
呢,就是让模型去寻找数据的一个规律
。验证集呢,就是频繁地去验证或测试
我的模型,训练的好坏,来帮助我们去
调节一些参数。测试集,就相当于我去
验证我训好的模型,在我没有看见的数
据上的一个泛化能力。
接下来,可能有人会问,我有这么一批
的数据,我怎么把这些数据划分成训练
集、验证集、测试集。
其实,它是一个没有一个确定的划分标
准,但是它有大家验证过的一些套路的
划分方法,如果数据量少的话,我们就
可以按照6:2:2的划分方式,如果数据
量大,有几百万条以上,我们可以把验
证集和测试集只留个一万条就可以,训
练集可以有更多数目,这样能保证训练
集的数目是足够大的,能覆盖很强的多
样性,另外,当我们的模型结构比较小
,然后残数量比较少的时候,我们也可
以把数据更多的留给训练集,把验证集
缩小,我们的总体目的是提高模型的泛
化能力,而不是去死记硬背我的训练集
。另外,值得一提的是一个方法,叫做
交叉验证,当数据量比较小的时候,其
实,如果是静态的划分,很容易让模型
直接偏科,所以,这个时候交叉验证,
就是让模型换个角度去看数据。
一共有三种划分方案,一种方案叫做留
出法。holdout,一般是8:2,或者7:2
:1.这种方式很快速,但问题在于,
因为我们是一个固定的划分,所以它很
容易受划分的影响,比如我们单纯的
20%的数据,它可能就是我们没见过的
长尾数据,这时候,模型对这些数据,
其实就有很差的一个学习能力。第二种
呢,就是留一法。就是每次去留一个样
本去做测试,其他的拿来训练。好处在
于这个方法非常的精准,坏处是计算量
太大,所以,适用于一个小的数据量集
。
第三种方式呢,就是K折交叉验证:
K-fold。就是把数据分成K份,然后每
次选一份去做验证集,其他的用来做训
练,K次循环过后,综合去评估我的模
型的性能,通常,我们把这个划分改成
K=10.优点是模型的稳定性和渲染的效
率比单次的划分更加稳定。更能够测试
模型一个泛化能力。
最后看一下大模型数据的管理通络,
采集、清洗、标注、管理。
可以看到,在当前大模型的时代,数据
不单单只是划分成为训练集、验证集、
测试集,而是一个动态的数据管理流的
系统,包含了几个非常关键的策略。
第一个呢,就是多轮的数据,它会频繁
的去利用,比如说在模型训练后,它能
够去找到哪些数据的反馈是比较差的,
肯呢个会影响模型性能的,然后再进行
一个重新的采样和清洗,第二呢,数据
不是一次定死的,而是在模型训练过程
中,动态地去选择我的验证集。第三呢
,因为我们的数据量是非常大的,所以
,我们需要对不同的类别、不同的语言
、去做一个分布的测量,看下每个的类
别,或者语言的类型,是不是均匀地分
布,从而避免模型碰到一个数据盲区。
第4种,是数据的去重和数据污染的检
测,确保测试集和训练集是没有重叠或
泄露的。避免考试作弊的情况。这些都
远比我们之前的那种机器学习三分类的
方法要复杂很多,所以更证明了在大模
型时代,数据管理的一个重要性。和不
可或缺性。但是,数据不等于越多越好
,数据的划分是一门艺术,千万别小看
数据等级划分这个事情,它决定了你的
AI模型到底是一个死记硬背的学生,
还是一个能有自己的理解能力,能举一
反三触类旁通的高材生。
在AI时代,在模型之上,是数据的艺
术,在模型之下呢,是数据的基地。科
学的管理数据、动态的组织数据、充分
的利用每一个数据,才是真正的能够训
练好模型的底层逻辑。

