首页 > 业界 > 关键词  > 人工智能爬虫最新资讯  > 正文

全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容

2023-09-03 08:25 · 稿源:站长之家

站长之家(ChinaZ.com) 9月2日消息:根据人工智能内容检测器 Originality.AI最新数据,全球前 1000 个网站中有近 20% 阻止爬虫机器人收集网络数据用于 AI 服务

OpenAI,ChatGPT,人工智能,AI

在缺乏明确法律或监管规定管理 AI 使用版权材料的情况下,大小不一的网站都自行采取措施。

OpenAI 于 8 月初推出了其 GPTBot 爬虫,并宣布所收集到的数据「可能被用于改进未来模型」,承诺排除付费内容并指导网站如何禁止该爬虫。随后,包括《纽约时报》、路透社和 CNN 等知名新闻网站开始阻止 GPTBot,并且许多其他网站也效仿。

根据 Originality.AI 的数据,在全球前 1000 个最受欢迎的网站中,阻止 OpenAI ChatGPT bot 的数量从 8 月 22 日 9.1% 增加到 8 月 29 日 12%。封锁 ChatGPT bot 的最大网站是亚马逊、Quora 和 Indeed。数据显示,更大型的网站更有可能已经封锁了 AI 爬虫机器人。

Common Crawl Bot 是另一个定期收集某些 AI 服务使用的 Web 数据的爬虫程序,在全球前 1000 个顶级网站上被屏蔽率为 6.77%。

任何您可以从 Web 浏览器访问的页面都可以被爬虫程序「抓取」,它们就像浏览器一样运行,但将材料存储在数据库中而不是向用户显示。

这就是搜索引擎如 Google 收集信息的方式。网站所有者一直有能力发布指令,告诉这些爬虫程序离开他们的网站,但合作完全是自愿性质,并且恶意操作者可以忽略这些指令。

谷歌和其他网络公司认为其数据爬虫工作属于合理使用范围,但许多出版商和知识产权持有人长期以来一直反对此做法,并且该公司因此面临了多起诉讼。大型语言模型和生成式 AI 的兴起使得这个问题重新受到关注,因为 AI 公司派出自己的爬虫程序收集数据以培训其模型并提供聊天机器人所需素材。

自从 Google 和其他搜索网站将用户引导至其支持广告的网站后,一些出版商至少认为允许搜索爬虫程序进入其网站具有某种价值。然而,在 AI 时代中,出版商更积极地阻止爬虫程序进入其网站,因为暂时没有将其数据交给 AI 公司的好处。许多媒体公司目前正在与 AI 公司就以费用向其授权数据进行谈判,但这些谈判还处于早期阶段。

在过去 20 年中被 Google 拿走了一些东西的媒体机构对 OpenAI 等快速商业化的 AI 服务持敌意和「我们不会再上当」的态度。据 The Information 报道,OpenAI 预计在未来一年内将带来超过 10 亿美元的收入。

新闻媒体公司正在努力找到平衡点,在接受和抵制人工智能之间挣扎。一方面,该行业迫切需要寻找创新方法来提高劳动密集型业务的利润率。

另一方面,在人们对新闻媒体公司的信任度处于历史低点之际,将人工智能引入新闻编辑室的工作流程,会带来具有挑战性的道德问题。

而如果太多的网络阻碍人工智能爬虫,它们的所有者可能会发现更难改进和更新他们的人工智能产品——而且好的数据也变得越来越难找到。

Originality.AI 的发现显示,前 1000 个网站中 GPTBot 的屏蔽率每周增加约 5%

举报

  • 相关推荐
  • “人工智能强化学习可持续发展计划”发布,“教育普惠+标准共建”助力全球人工智能体系构建

    6月11日,第二届"一带一路"科技交流大会人工智能赋能可持续发展论坛在成都举行。腾讯联合多家机构发起"人工智能强化学习可持续发展计划",包含AI教育普惠和强化学习标准共建两大板块。该计划将面向全球高校开放《人工智能通识课》和《人工智能强化学习专业课》教学资源,助力构建高质量AI教学体系。同时,腾讯开悟人工智能全球公开赛颁奖典礼作为"学赛研产"联动的重要环节,吸引了19个国家和地区的近400所高校队伍参赛。2025年赛事将首次联合全国高校计算机能力挑战赛,围绕AI前沿产业真实场景设置赛题。腾讯还通过"青云计划"为全球顶尖AI人才提供就业机会,推动人才与产业高质量发展。北京大学等机构牵头制定了强化学习系统系列技术标准,填补了领域内标准空白。

  • 姜钧凯:人工智能已经驱动硬件体系大变革

    爱国者集团CEO姜钧凯在2025中国人工智能产业领军论坛上指出,人工智能正推动硬件体系大变革。他回顾30年科技发展规律:每十年软硬件互相促进一次飞跃,从1993年电脑硬件、2003年数码产品到2013年智能穿戴,再到2023年后AI大模型兴起。姜钧凯透露,科学家正在研发基于金刚石芯片和碳基存储的新一代硬件系统,其中同位素电池技术尤为突破——采用碳14同位素衰变原理,可实现百年免充电,且安全无辐射。爱国者已布局强人工智能软硬件体系,包括居家养老系统、数据清洗平台及以金刚石芯片为核心的硬件研发。姜钧凯预测2056年将迎来超级人工智能时代,人类只需从事创造性活动。论坛上,爱国者还展示了针对自闭症儿童的水晶疗愈等创新应用。多位科学家高度评价爱国者对中国科技发展的贡献。(宋洁凡)

  • “AI赋智 端云共生”中兴通讯亮相2025全球人工智能终端展

    2025年5月22-24日,中兴通讯终端业务以"AI赋能,端云共生"为主题亮相第六届深圳国际人工智能展。重点展示了多款AI终端产品:努比亚Z70S Ultra摄影师版搭载第五代35mm定制镜头,支持多模型协同;二合一云PAD PRO具备平板/电脑双系统;中兴自由屏实现多场景智能切换。基于"AI for All"战略,中兴构建了覆盖智能驾驶、家庭娱乐等五大场景的智慧生态,通过星云大模型�

  • 聚焦“AI+智造”“AI+创品” 三诺同日亮相全球人工智能终端展、文博会两大展

    5月22日,2025全球人工智能终端展暨第六届深圳国际人工智能展、第二十一届文博会同期开幕。深圳企业三诺集团携多款创新产品亮相两大展会,重点展示"AI+智造"和"AI+创品"领域成果,包括AI情感陪伴宠物、智能音频眼镜等十余款产品,展现其在AI领域的创新实力。文博会上,三诺展示了融合科技与文化的"声音+"系列产品,如沉浸式蓝牙音箱等,彰显"文化+科技"硬核实力。两大展会共吸引全球15个国家和地区的300余家企业参展,三诺的创新设计和技术成果获得广泛关注,展现了其在智能制造和AI应用场景的前沿探索。

  • 广东省人工智能与机器人产业联盟成立大会启幕:九四智能等共筑全球产业创新引擎

    广东省人工智能与机器人产业联盟于6月6日在广州成立,旨在落实国家发展战略,整合产业链资源,构建产学研协同创新平台。联盟将聚焦核心技术攻关、高端人才培养、应用场景拓展及产业生态完善,推动AI与机器人技术在制造、医疗、教育等领域的深度融合。通过政策咨询、标准制定和国际合作,助力广东建设科技强省、数字经济强省和制造强省。首批成员单位包括政府、高校、科研机构及行业领军企业,将共同破解产业"卡脖子"难题,打造具有全球竞争力的人工智能与机器人产业集群。

  • 阿里云携手博登智能,升级AI数据标注服务——以数据驱动人工智能

    博登智能与阿里云达成战略合作,共同推动AI数据标注智能化发展。博登智能自主研发的BASE平台通过AI技术实现数据标注自动化,最高提升600%效率,降低成本40%,已服务自动驾驶、智慧医疗等领域。双方将结合博登的数据服务优势与阿里云的技术实力,构建从数据采集到模型训练的全流程解决方案,推动AI技术在千行百业落地。此次合作将加速数据智能服务升级,让更多企业以更低门槛拥抱AI技术。

  • 极光GPTBots成功完成“生成式人工智能服务登记”

    极光旗下AI开发平台GPTBots.ai近日在广东省网信部门完成生成式人工智能服务登记,成为合规经营的AI服务提供商。该平台严格遵循国家《互联网信息服务深度合成管理规定》和《生成式人工智能服务管理暂行办法》等法规要求,标志着其在技术创新、服务模式和数据安全等方面获得关键合规认可。此次登记体现了极光对法律法规的严格遵守和对安全责任的高度重视,为区域AI生态发展注入新活力。未来,极光将继续优化技术与服务,保障用户权益,推动生成式AI技术的健康规范发展。

  • 师出有名:华城瑞讯首创人工智能平台 共建数智企服生态

    华城瑞讯创始人高瑞先拜访中国中小企业协会,双方围绕小微企业数智化服务、企服咨询师行业标准建设等议题展开交流。协会成立于2006年,致力于服务中小企业发展。华城瑞讯自主研发的"22°智·企服"Agents系统获高度认可,其融资服务模块可将融资周期缩短60%,成本降低50%。公司计划推出企服咨询师培训计划,建立OMO服务模式,整合银行、律所等专业资源。目前"22°智·融资"Agent已促成近20个千万级融资项目落地,覆盖智能制造、数字科技等领域。未来将共建数智企服新生态,在全国重点城市增设服务空间,助力小微企业在数字经济浪潮中实现跨越式发展。

  • 手机满意度跌至 10 年来的最低水平,AI人工智能只是部分原因

    手机用户的整体满意度从去年的 82% 降至 78%。乍一看似乎只是小幅下降,但这其实是 近十年来的最低分,而去年还创下了历史最高纪录……

  • AI赋能| 2025“人工智能+行动”大讲坛在上海圆满成功

    2025年5月18日,"人工智能+行动"高峰论坛在上海成功举办。活动聚焦"技术+场景+人才"三大核心,汇聚政产学研界500余位精英,探讨AI在八大领域的创新应用。论坛发布DS&AI创新院2.0版,推出"三包"赋能计划:资源包共享30余位专家智库,技术包提供定制化AI解决方案,人才包培养2000+AI专业人才。多位专家指出,中国正从AI"跟跑者"跃升为全球"领跑�