AI 的关键是数据

Post author: yelf
Post link: https://blog.yelf.me/inspire/ai/dataset/
Copyright Notice: All articles in this blog are licensed under <a href="https://creativecommons.org/licenses/by-nc-sa/4.0/" rel="noopener" target="_blank"> BY-NC-SA unless stating additionally.

Posted on 2023-06-18 In Inspiring , A.I. Views: Waline:

The “it” in AI models is the dataset.

我在 OpenAI 工作已经快一年了。这段时间里，我训练了很多生成式模型，比任何人能想到的还要多。在花费很多时间，观察调整各种模型配置与超参数的效果时，我最为印象深刻的是所有训练之间的相似性。

我越来越清楚地意识到，这些模型在令人难以置信的程度上向它们的数据集靠近。这意味着，它们不仅仅学习到了狗和猫的区别，还将无关紧要的分布之间的间隙频率(interstitial frequencies)也保留，比如人类更可能会拍摄的照片或常写的单词。

这表现为，在同一数据集上训练足够长的时间，几乎每个具有足够权重和训练时间的模型都会收敛到同一点。足够大的扩散卷积U-Net网络与ViT生成器会产生相同的图像，自回归采样与扩散生成也会产生相同图像。

这是令人惊讶的！这意味着模型行为并不取决于架构、超参数或优化器的选择，而是完全由数据集决定，无关其它任何因素。其他一切都不过是为了有效交付计算，以近似该语料集的手段。

最终，当你谈论 Lambda、ChatGPT、Bard 或Claude 时，指的并不是它们的模型，而是它们的数据集。