跳到主要内容
极客日志极客日志面向AI+效率的开发者社区
首页博客GitHub 精选镜像工具UI配色美学隐私政策关于联系
搜索内容 / 工具 / 仓库 / 镜像...⌘K搜索
注册
博客列表
编程语言AI算法

人工智能公司耗尽互联网数据训练模型,面临数据枯竭挑战

人工智能公司训练大型语言模型时已耗尽开放互联网数据。面对数据枯竭,行业转向合成数据或视频转录等新方法,但这带来幻觉和版权风险。专家预测若趋势持续,可用数据将很快耗尽。建议停止盲目扩大模型规模,转向更可持续的技术发展道路,减少对能源和资源的依赖。

禅心发布于 2024/4/4更新于 2026/6/1527 浏览
人工智能公司耗尽互联网数据训练模型,面临数据枯竭挑战

人工智能公司耗尽互联网数据训练模型,面临数据枯竭挑战

数据枯竭:AI 面临的未知挑战

人工智能公司几乎用尽了整个开放互联网的数据。为了使每个大型语言模型(LLM)比前一个更强大,我们耗尽了网络数据宝库。随着开放互联网数据濒临枯竭,AI 界面临前所未有的挑战。为了打造更强大的模型,可能不得不转向使用 AI 自身生成的数据,这是一把双刃剑。《华尔街日报》报告指出,这种做法不仅可能引发模型幻觉,还可能导致'数字近亲繁殖',最终令模型崩溃。

创新还是风险?新的数据训练方法

由前 Meta 和 Google DeepMind 研究员 Ari Morcos 创立的 Dataology,开始探索用更少数据和资源训练庞大模型的方法。

与此同时,OpenAI 等大玩家也在尝试创新且具有争议的数据训练方法,例如考虑利用 YouTube 视频的公开转录来训练 GPT-5 模型。这种做法虽然创新,但也面临着版权和伦理的挑战。

向合成数据的转变,策略调整:追求可持续的技术发展

尽管处于数据匮乏时代,OpenAI 和 Anthropic 等公司正在积极开发更优质的合成数据以克服挑战。他们的方法虽不完全透明,但意味着未来可能看到重大技术突破。

关于人工智能公司可能面临问题的担忧已存在一段时间。Epoch 研究员 Pablo Villalobos 等专家预测,如果当前趋势持续,人工智能可能很快就会耗尽可用的训练数据。面对这种情况,一个可行的方案是 AI 公司选择停止追求规模更大、更复杂的模型。这不仅能减少对稀土矿物和巨大能源消耗的依赖,还可能引领走向更加可持续和负责任的技术发展道路。

目录

  1. 人工智能公司耗尽互联网数据训练模型,面临数据枯竭挑战
  2. 数据枯竭:AI 面临的未知挑战
  3. 创新还是风险?新的数据训练方法
  4. 向合成数据的转变,策略调整:追求可持续的技术发展
  • 免费图片AI生成工具免费生成了解详情
  • Magick API 一键接入全球大模型注册送1000万token查看
  • 免费图片视频在线生成30秒,将你的创意变成现实开始设计
  • X/Twitter免费视频下载器免登陆无限额度免费视频解析下载了解详情
  • 100+免费在线小游戏爽一把
极客日志微信公众号二维码

微信扫一扫,关注极客日志

微信公众号「极客日志V2」,在微信中扫描左侧二维码关注。展示文案:极客日志V2 zeeklog

更多推荐文章

查看全部
  • 机器人数值优化基础:从理论到实战指南
  • 基于 FPGA 的数字频率计设计与实现
  • Qwen 3.5 MoE 本地部署指南:Ollama 快速运行与 API 调用
  • Quartus Prime Lite 23.1 与 ModelSim 18.1 安装及联调仿真教程
  • faster-whisper 部署指南:从环境配置到生产级应用
  • ERNIE-4.5-0.3B 超轻量模型部署与实战测评
  • Python 布尔类型
  • 基于空间注意力机制的神经网络 SANN 设计与实现
  • VMware 虚拟机安装 Ubuntu 20.04.6 实战指南
  • GitHub 开源项目日报:2026 年 2 月 23 日 AI 工具与代理热榜
  • 整合LLama-Factory引擎增强游戏NPC对话逻辑的实践
  • QGIS:Maxar Open Data全球高分辨率遥感影像(0.3-0.5米)14TB免费获取
  • llama.cpp 性能调优指南:提升本地部署效率
  • HarmonyOS 6.0 Camera Kit 微距状态监听详解
  • JDK、IntelliJ IDEA 与 Maven 安装及配置指南
  • C++ 图论实战:深入理解三种最短路径算法
  • 前端拖拽排序实现:原理与实战代码
  • 基于腾讯云服务器部署 Openclaw 并接入飞书与 NVIDIA 模型
  • 基于 Kronos AI 模型的股票预测系统实战与 Streamlit 应用
  • 知网 AIGC 检测原理及降低疑似度策略

相关免费在线工具

  • 加密/解密文本

    使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online

  • RSA密钥对生成器

    生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online

  • Mermaid 预览与可视化编辑

    基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online

  • 随机西班牙地址生成器

    随机生成西班牙地址(支持马德里、加泰罗尼亚、安达卢西亚、瓦伦西亚筛选),支持数量快捷选择、显示全部与下载。 在线工具,随机西班牙地址生成器在线工具,online

  • Gemini 图片去水印

    基于开源反向 Alpha 混合算法去除 Gemini/Nano Banana 图片水印,支持批量处理与下载。 在线工具,Gemini 图片去水印在线工具,online

  • Base64 字符串编码/解码

    将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online