近日,马斯克在CES大会上发表观点,指出训练AI模型的可用数据已所剩无几。
据马斯克称,AI训练已耗尽了人类累积的全部知识,而这一时间点出现在去年(2024年)。
马斯克的观点与OpenAI前首席科学家Ilya Sutskever去年在NeurIPS机器学习大会上的说法相呼应。Sutskever当时表示,AI行业可消耗的数据已达到峰值。
面对现实世界数据的匮乏,马斯克暗示合成数据将成为未来的发展方向。
他强调,补充现实世界数据的唯一途径是合成数据,即由AI自行生成用于训练的数据。通过合成数据,AI能够自我评估,并进行自我学习。
实际上,许多科技巨头已开始使用合成数据训练AI模型。微软、Meta、OpenAI和Anthropic等公司已将其广泛应用于AI模型训练中。
市场研究机构Gartner估计,2024年AI和分析项目中约60%的数据将是合成数据。
例如,微软于1月8日开源的AI模型Phi-4是结合合成数据和现实世界数据进行训练的。谷歌的Gemma模型也采用了类似方法。
Anthropic使用部分合成数据开发出表现出色的系统Claude 3.5 Sonnet。Meta则利用AI生成数据对推出的最新Llama系列模型进行微调。
(举报)