人工智能公司耗尽互联网数据训练模型，面临数据枯竭挑战

人工智能公司训练大型语言模型时已耗尽开放互联网数据。面对数据枯竭，行业转向合成数据或视频转录等新方法，但这带来幻觉和版权风险。专家预测若趋势持续，可用数据将很快耗尽。建议停止盲目扩大模型规模，转向更可持续的技术发展道路，减少对能源和资源的依赖。

禅心发布于 2024/4/40 浏览

人工智能公司耗尽互联网数据训练模型，面临数据枯竭挑战

数据枯竭：AI 面临的未知挑战

人工智能公司几乎用尽了整个开放互联网的数据。为了使每个大型语言模型（LLM）比前一个更强大，我们耗尽了网络数据宝库。随着开放互联网数据濒临枯竭，AI 界面临前所未有的挑战。为了打造更强大的模型，可能不得不转向使用 AI 自身生成的数据，这是一把双刃剑。《华尔街日报》报告指出，这种做法不仅可能引发模型幻觉，还可能导致'数字近亲繁殖'，最终令模型崩溃。

创新还是风险？新的数据训练方法

由前 Meta 和 Google DeepMind 研究员 Ari Morcos 创立的 Dataology，开始探索用更少数据和资源训练庞大模型的方法。

与此同时，OpenAI 等大玩家也在尝试创新且具有争议的数据训练方法，例如考虑利用 YouTube 视频的公开转录来训练 GPT-5 模型。这种做法虽然创新，但也面临着版权和伦理的挑战。

向合成数据的转变，策略调整：追求可持续的技术发展

尽管处于数据匮乏时代，OpenAI 和 Anthropic 等公司正在积极开发更优质的合成数据以克服挑战。他们的方法虽不完全透明，但意味着未来可能看到重大技术突破。

关于人工智能公司可能面临问题的担忧已存在一段时间。Epoch 研究员 Pablo Villalobos 等专家预测，如果当前趋势持续，人工智能可能很快就会耗尽可用的训练数据。面对这种情况，一个可行的方案是 AI 公司选择停止追求规模更大、更复杂的模型。这不仅能减少对稀土矿物和巨大能源消耗的依赖，还可能引领走向更加可持续和负责任的技术发展道路。

人工智能公司耗尽互联网数据训练模型，面临数据枯竭挑战

人工智能公司耗尽互联网数据训练模型，面临数据枯竭挑战

数据枯竭：AI 面临的未知挑战

创新还是风险？新的数据训练方法

向合成数据的转变，策略调整：追求可持续的技术发展

更多推荐文章

相关免费在线工具

人工智能公司耗尽互联网数据训练模型，面临数据枯竭挑战

人工智能公司耗尽互联网数据训练模型，面临数据枯竭挑战

数据枯竭：AI 面临的未知挑战

创新还是风险？新的数据训练方法

向合成数据的转变，策略调整：追求可持续的技术发展

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具