首页 > AI头条  > 正文

谷歌承认:即使网站选择退出,仍用搜索数据训练 AI

2025-05-06 09:13 · 来源: AIbase基地

科技巨头谷歌在近日的一场联邦反垄断审判中承认,即使网站出版商明确选择不让其内容用于人工智能模型训练,谷歌仍会利用其搜索引擎收集的数据进行 AI 训练,包括备受争议的 AI Overviews 功能。

这一承认由谷歌旗下人工智能实验室 DeepMind 的副总裁伊莱·柯林斯在作证时做出。司法部律师戴安娜·阿吉拉尔在质询中指出,即使出版商选择不让 DeepMind 使用其数据进行大型语言模型训练,这些相同的数据仍然会被谷歌搜索部门用于其自身的人工智能项目。

谷歌 (3)

阿吉拉尔援引一份2024年的内部文件显示,谷歌已收集了高达1600亿个文本单元用于人工智能训练。尽管其中一半(800亿个)据称因出版商的选择退出而被删除,但柯林斯的证词表明,这800亿个文本单元仍在谷歌内部用于人工智能训练,只是不再用于 DeepMind。

更令人担忧的是,谷歌为网站提供的唯一阻止其人工智能抓取内容的方法,竟然是彻底从谷歌搜索引擎的索引中移除。对于任何依赖网络流量的网站而言,这几乎等同于“死刑”,根本不构成真正的选择。

谷歌方面暗示,这种做法仅仅是广泛使用的“robots.txt”文件的工作方式所致。该文件用于指示网络爬虫可以访问网站的哪些部分,而这些爬虫既服务于搜索引擎的数据收集,也服务于当前的人工智能训练。谷歌发言人在一份声明中表示,公司通过完善的网络标准 robots.txt,为出版商提供了管理其在搜索中内容的方式。

值得注意的是,去年一名联邦法官已裁定谷歌在搜索引擎市场存在非法垄断,滥用其主导地位排挤竞争对手并抬高广告价格。目前,监管机构正在考虑如何打破这一垄断,可能的措施包括迫使谷歌出售 Chrome 浏览器、禁止其与其他公司签订默认搜索引擎协议,或强制其共享部分数据。

此次审判的新进展进一步凸显了谷歌如何利用其在美国高达90% 的搜索引擎市场份额,通过其人工智能计划实现自身目标。如果网站避免其内容被谷歌人工智能抓取的唯一途径是放弃在谷歌搜索结果中的展示,从而切断与绝大部分网络用户的联系,这无疑为谷歌的垄断行为再添一项证据。教育网站 Chegg 近期也提出了类似的指控,声称谷歌利用其垄断地位迫使其免费提供内容以训练人工智能工具。

  • 相关推荐
  • 最新AI产品去哪看?最新AI产品收录网站推荐

    文章介绍了AIBase中文站作为AI领域的综合平台,主要提供以下服务:1)实时AI行业资讯,涵盖技术突破、政策法规等;2)热门AI产品榜单,帮助用户筛选工具;3)分类榜单细化AI产品功能;4)开源项目库促进开发者交流;5)商业化变现指南;6)简洁高效的界面设计。平台致力于为开发者、研究者和爱好者提供一站式AI资源,推动人工智能技术发展。

  • 国内设计类素材网站有哪些?免费AI简历生成网站推荐

    站长沙素材(sc.chinaz.com)是站长之家旗下专业设计素材平台,提供海量免费资源下载。主要功能包括:1. 丰富设计素材(图片、网页模板、PPT模板、音视频素材、商用字体);2. 实用在线工具(图片/视频/音频处理、字体生成);3. 专业设计开发教程(PS/AI/Sketch、编程语言等);4. 严格版权审核确保素材合法使用。平台特色:界面简洁、搜索高效、资源定期更新,注册用户可享收藏和历史记录功能。适合设计师、开发者等创意工作者获取资源提升工作效率。

  • AI产品榜去哪看?AI产品榜国内总榜网站推荐

    AIbase是一个综合性人工智能平台,提供AI资讯、工具推荐、变现指南等服务。核心功能包括:1)实时更新的AI行业动态、日报和时间线;2)丰富的AI变现案例库;3)全面的AI产品排行榜,含流量变化和热门分类;4)开源项目库,覆盖LLM、TTS等热门领域;5)从入门到高级的AI教程资源。平台设计简洁,分类清晰,适合开发者、创业者和学习者使用,帮助用户快速掌握行业趋势、发现优质工具、学习AI技术并探索商业机会。

  • 每日最新AI新闻资讯获取网站推荐 AI新闻AI变现教程去哪找?

    在快速发展的AI时代,有一个平台专注于为用户提供最新、最全面的AI行业资讯和资源,它就是aibase网站。作为一个综合性的AI平台,aibase以其简洁明了的界面设计和合理的功能布局,为用户提供了极高的友好度体验。随着AI技术的不断发展,aibase网站将继续为用户提供更多、更好的服务,成为AI领域不可或缺的一部分。

  • 最新AI资讯网站平台推荐?最新AI新闻去哪获取?

    AIbase基地致力于为全球用户提供全方位的AI服务,助力他们踏上人工智能的旅程。AIbase基地不仅仅是一个信息聚合平台,更是一个集资讯、学习、交流和商业应用于一体的综合性AI生态系统。通过AIbase基地,用户可以轻松踏上通往AGI的旅程,开启属于自己的AI时代。

  • 最大的“AI色情网站”MrDeepfakes宣布永久关闭

    “Mr. Deepfakes” 的非法交易最早始于 Reddit,但在 2018 年被封禁后,就转移到了他自己的平台上。在那里,数千名深度伪造创作者分享技术知识,研究人员去年指出,“Mr. Deepfakes” 网站的论坛最终成为了 “制作深度伪造色情内容的唯一可行的技术支持来源”。

  • “吉卜力风格”热潮下,超 7 亿人的“脸”正被用于AI训练

    站长之家4月8日消息:随着ChatGPT的图像生成功能持续获得爆发式人气,人们开始担心自己上传的照片等数据会被OpenAI收集、并被用于AI学习。据韩国移动数据平台IGAWorks在8日发布的数据显示,在吉卜力风格图片生成功能大行其道的一周时间里,ChatGPT在韩的每日活跃用户数从125万增长到了308万,涨幅高达2.5倍。业内律师表示,“从OpenAI的角度来看,完全可以借此积累各种年龄、种族、性别的脸部图像数据”,他还补充道,“如果不想在因为好玩上传照片后,泄露了个人信息的话,就应该将其设置为不允许AI利用其个人隐私进行训练学习”。

  • AI爬虫如狼似虎,维基百科已经选择认怂

    美国新闻媒体联盟发起"负责任AI"运动,要求科技巨头为AI训练内容付费。与此同时,维基百科基金会宣布与谷歌旗下Kaggle合作,发布专门优化的AI训练数据集,包含研究摘要、图像链接等结构化数据。此举旨在应对AI厂商爬虫带来的带宽压力——维基百科发现AI爬虫虽仅占访问量的35%,却消耗了65%的核心数据中心流量。通过提供机器友好的JSON格式数据,维基百科希望引导AI厂商使用规范渠道获取内容,而非无节制抓取原始网页。这反映了内容平台在AI时代面临的两难:既要维护用户体验,又难以完全阻挡技术迭代带来的数据需求。

  • 说个抽象的事,你现在可以在秘塔AI搜索里上课了。

    给我整不会了。周末我本来在用秘塔AI搜关税的问题,特朗普一天一个说法,又说关税要结束了。然后,意外的发现,秘塔上了一个非常有意思的功能。“今天学点啥”。。。说实话,在进入到这个页面的瞬间,我以为我跳到不知道哪去了,直到看到秘塔左上角的logo还在,我才确定,这是他们的新功能。它的功能大概就是,把一份文件或者一个链接,变成一个像是B站UP专门为�

  • 高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI

    全球首个工业界多模态推理模型Skywork-R1V升级至2.0版本,全面开源38B参数模型权重。该模型在高考物理、生物等学科题目上展现出强大的图文推理能力,准确率媲美985考生水平。技术突破包括:1)首创视觉奖励模型Skywork-VL Reward,在视觉和文本奖励基准测试中均获SOTA;2)引入混合偏好优化(MPO)机制,平衡推理深度与通用能力;3)采用选择性样本缓冲(SSB)技术解决训练中的优势�

今日大家都在搜的词: