AI 的关键是数据

The “it” in AI models is the dataset.

我在 OpenAI 工作已经快一年了。这段时间里,我训练了很多生成式模型,比任何人能想到的还要多。在花费很多时间,观察调整各种模型配置与超参数的效果时,我最为印象深刻的是所有训练之间的相似性。

我越来越清楚地意识到,这些模型在令人难以置信的程度上向它们的数据集靠近。这意味着,它们不仅仅学习到了狗和猫的区别,还将无关紧要的分布之间的间隙频率(interstitial frequencies)也保留,比如人类更可能会拍摄的照片或常写的单词。

这表现为,在同一数据集上训练足够长的时间,几乎每个具有足够权重和训练时间的模型都会收敛到同一点。足够大的扩散卷积U-Net网络与ViT生成器会产生相同的图像,自回归采样与扩散生成也会产生相同图像。

这是令人惊讶的!这意味着模型行为并不取决于架构、超参数或优化器的选择,而是完全由数据集决定,无关其它任何因素。其他一切都不过是为了有效交付计算,以近似该语料集的手段。

最终,当你谈论 Lambda、ChatGPT、Bard 或Claude 时,指的并不是它们的模型,而是它们的数据集。