首页 > 业界 > 关键词  > 人工智能爬虫最新资讯  > 正文

全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容

2023-09-03 08:25 · 稿源:站长之家

站长之家(ChinaZ.com) 9月2日消息:根据人工智能内容检测器 Originality.AI最新数据,全球前 1000 个网站中有近 20% 阻止爬虫机器人收集网络数据用于 AI 服务

OpenAI,ChatGPT,人工智能,AI

在缺乏明确法律或监管规定管理 AI 使用版权材料的情况下,大小不一的网站都自行采取措施。

OpenAI 于 8 月初推出了其 GPTBot 爬虫,并宣布所收集到的数据「可能被用于改进未来模型」,承诺排除付费内容并指导网站如何禁止该爬虫。随后,包括《纽约时报》、路透社和 CNN 等知名新闻网站开始阻止 GPTBot,并且许多其他网站也效仿。

根据 Originality.AI 的数据,在全球前 1000 个最受欢迎的网站中,阻止 OpenAI ChatGPT bot 的数量从 8 月 22 日 9.1% 增加到 8 月 29 日 12%。封锁 ChatGPT bot 的最大网站是亚马逊、Quora 和 Indeed。数据显示,更大型的网站更有可能已经封锁了 AI 爬虫机器人。

Common Crawl Bot 是另一个定期收集某些 AI 服务使用的 Web 数据的爬虫程序,在全球前 1000 个顶级网站上被屏蔽率为 6.77%。

任何您可以从 Web 浏览器访问的页面都可以被爬虫程序「抓取」,它们就像浏览器一样运行,但将材料存储在数据库中而不是向用户显示。

这就是搜索引擎如 Google 收集信息的方式。网站所有者一直有能力发布指令,告诉这些爬虫程序离开他们的网站,但合作完全是自愿性质,并且恶意操作者可以忽略这些指令。

谷歌和其他网络公司认为其数据爬虫工作属于合理使用范围,但许多出版商和知识产权持有人长期以来一直反对此做法,并且该公司因此面临了多起诉讼。大型语言模型和生成式 AI 的兴起使得这个问题重新受到关注,因为 AI 公司派出自己的爬虫程序收集数据以培训其模型并提供聊天机器人所需素材。

自从 Google 和其他搜索网站将用户引导至其支持广告的网站后,一些出版商至少认为允许搜索爬虫程序进入其网站具有某种价值。然而,在 AI 时代中,出版商更积极地阻止爬虫程序进入其网站,因为暂时没有将其数据交给 AI 公司的好处。许多媒体公司目前正在与 AI 公司就以费用向其授权数据进行谈判,但这些谈判还处于早期阶段。

在过去 20 年中被 Google 拿走了一些东西的媒体机构对 OpenAI 等快速商业化的 AI 服务持敌意和「我们不会再上当」的态度。据 The Information 报道,OpenAI 预计在未来一年内将带来超过 10 亿美元的收入。

新闻媒体公司正在努力找到平衡点,在接受和抵制人工智能之间挣扎。一方面,该行业迫切需要寻找创新方法来提高劳动密集型业务的利润率。

另一方面,在人们对新闻媒体公司的信任度处于历史低点之际,将人工智能引入新闻编辑室的工作流程,会带来具有挑战性的道德问题。

而如果太多的网络阻碍人工智能爬虫,它们的所有者可能会发现更难改进和更新他们的人工智能产品——而且好的数据也变得越来越难找到。

Originality.AI 的发现显示,前 1000 个网站中 GPTBot 的屏蔽率每周增加约 5%

举报

  • 相关推荐
  • Razer(雷蛇)在新加坡设立AI CENTER OF EXCELLENCE,加速人工智能投资布局

    雷蛇宣布在新加坡设立全球AI卓越中心,并计划在欧洲和美国建立类似机构,推动游戏与开发者工具领域的创新。新加坡中心将招聘150名AI工程师,专注于下一代AI游戏技术研发。雷蛇还推出AI工具套件,包括Game Co-AI和QA Co-AI,帮助开发者提升游戏质量和开发效率。该战略布局正值全球游戏市场快速增长期,预计2033年AI游戏市场规模将达280亿美元。新加坡数字产业发展局表示,此举将巩固该国作为区域AI创新中心的地位。

  • ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

    ISC.AI2025人工智能安全论坛在北京召开,聚焦AI安全治理与创新实践。论坛汇集顶尖专家,探讨大模型安全评估与防护、智能体安全、AI治理等前沿议题。360集团张向征指出,随着Agent技术爆发式应用,AI安全已成为产业核心焦点。专家们强调需构建AI安全防护体系,应对大模型直接访问核心系统带来的全新挑战。中国电子院彭健提出企业合规建设需关注九大要素,清华大学苏航揭示智能体安全风险远超传统AI。华为云范建军倡导端到端大模型安全防护,中国信通院杨哲超呼吁构建协同治理框架。论坛为构建安全、普惠、负责任的人工智能未来贡献智慧。

  • 润和软件携丰富金融行业实践成果亮相2025世界人工智能大会

    润和软件在2025世界人工智能大会(WAIC2025)上展示了JettoAI+智能助手平台等系列智慧金融解决方案,包括测试智能助手、消保助手、研报助手等创新产品。作为金融科技领域领先企业,润和软件深耕AI与金融业务融合,已服务6大国有银行、12家股份制银行及超280家中小金融机构。报告显示中国金融科技市场预计将以13.3%复合增长率高速增长,2028年科技投入或突破6500亿元。润和软件�

  • 星辰聚智·才启未来:2025世界人工智能大会中国电信发布系列前沿能力及AI产品

    7月27日,TeleAI科技前沿论坛在上海模速空间举办,主题为"星辰聚智·才启未来"。论坛汇聚全球行业专家、青年学者及企业家,探讨AI创新趋势。中国电信发布多项AI成果:1)TeleAI研究院凭借大模型创新获2025SAIL之星奖;2)提出"智传网"三大定律(信容律、同源律、集成律)及生成式智能传输等创新技术;3)发布"星小辰"智能终端,整合高德地图、航旅纵横等服务;4)推出首款智能眼镜"天翼AI智镜",具备物体识别、实时翻译等功能;5)启动"青年智算计划",投入超600P算力支持AI创新。论坛展示AI在终端、机器人等领域的深度应用,体现中国电信"云改数转智惠"战略布局。

  • 零门槛数字IP上线,邦彦Nuwaai掀起世界人工智能大会(WAIC)互动体验热潮​

    邦彦技术在2025世界人工智能大会发布Nuwaai数字人平台,主打"3分钟创建AI数字IP"概念。该平台通过三大核心模块(形象塑造、才艺赋能、个性养成)实现数字人全流程创作,支持古风、职业装等多种风格定制,并能加载营销、直播等专业技能。相比传统方案,Nuwaai将开发成本降至8元起,交付周期缩短至3分钟,支持按需加载功能。平台定位"数字人生产力工具",覆盖营销、社交、娱乐等多场景应用,旨在推动数字人技术从概念探索迈向实用化。目前官网已开放注册,面向个人创作者和企业用户提供低成本数字IP解决方案。

  • Checkout.com项尧受邀参与 WAIC2025 共话人工智能时代跨境支付新机遇

    2025世界人工智能大会(WAIC)于7月26-28日在上海举办,全球领先支付解决方案提供商Checkout.com受邀参与"无界人工智能:深化中英合作"主题论坛。其大中华区总经理项尧与行业专家探讨AI赋能跨境商业生态的创新实践,重点分享公司在代理电商平台(Agentic Commerce)领域的支付技术创新,包括与Mastercard、Visa合作构建支持AI代理交易的技术框架。作为支付行业领军者,Checkout.com通过智能支付网络帮助电商平台优化交易管理,支持多币种支付,每年为客户解锁数亿美元收入潜力。本届WAIC展览面积首次突破7万平方米,吸引800余家企业参展,涵盖40余款大模型及60余款智能机器人。

  • 格创东智ALIOTH系列S800F自动目检仪,实现半导体硅片0.3μm级缺陷检测

    国内某半导体硅片企业专注研发生产4-12英寸硅片产品,覆盖酸腐片、抛光片、外延片等关键材料。针对传统人工检测效率低、成本高、精度不足等问题,企业采用格创东智ALIOTH S800F自动目检仪,通过CV+AI算法实现0.3μm级缺陷检测,准确率达99%。设备支持20+种缺陷自动分类(准确率95%),30秒/片检测速度,年减少不良损失超千万元。系统建立百万级硅片缺陷数据库,为工艺优化�

  • AI日报:智谱视觉推理模型GLM-4.5V开源;达摩院开源三项具身智能核心技术;360智脑推出Light-IF系列模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,这是该公司在通向通用人工智能(AGI)道路上的又一重要探

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • 法大大Nota Sign全球签,解决跨境生意的“信任焦虑”

    法大大推出Nota Sign全球签平台,助力中国企业出海合规签约。该平台提供安全、合规、高效的电子签约解决方案,覆盖100+国家地区法律要求,支持多语言智能翻译和AI风险识别。2024年中国企业出海规模达2.17万亿美元,但面临跨境合同签署效率低、合规风险高等痛点。Nota Sign通过全球数据中心部署、集成权威CA机构、适配欧盟eIDAS等监管要求,实现毫秒级响应签约。平台已服务10万+企业客户,在汽车、互联网等行业沉淀解决方案,通过AI智能比对合同条款、提醒履约节点,将签约周期从数天缩短至分钟级。法大大创始人表示,未来3-5年随着中国企业出海范围扩大,具备全球化能力的可信电子签约平台将成为跨境商业合作的基础设施。

今日大家都在搜的词: