首页 > 业界 > 关键词  > 负责任AI最新资讯  > 正文

AI爬虫如狼似虎,维基百科已经选择认怂

2025-04-29 09:02 · 稿源: 三易生活公众号

声明:本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,授权站长之家转载发布。

本月初,代表全美2200多家新闻机构的新闻/媒体联盟(News/Media Alliance)发起“支持负责任AI”运动,呼吁监管机构强制科技巨头为AI产品使用的内容付费。但就在美国媒体抱团保卫自己的知识产权时,单打独斗的维基百科则宣布向AI厂商“投降”。

运营维基百科的维基媒体基金会(Wikimedia)近日宣布,将通过与谷歌旗下的数据科学社区平台Kaggle合作,发布一份专门优化用于人工智能模型训练的数据集。这份公开的数据集截止至2025年4月15日,内容包括研究摘要、简短描述、图像连接、信息框数据和文章章节,但不包含参考文件或音频文件等非书面元素,首次发布的数据集将提供英语和法语版本。

好端端的维基百科为什么要在谷歌的Kaggle上,公开一个规模如此庞大的数据集呢?答案其实很简单,因为维基媒体基金会无法忍受AI厂商的爬虫。

本月初,维基媒体基金会发布官方博客文章透露,自2024年1月以来,维基共享资源(Wikimedia Commons)上所存放的1.44亿个图像、视频或其他文件带宽增长50%,但这些流量并非来自人类用户,而是来自AI厂商的爬虫。

为了管理超过4500万个媒体文件,维基媒体基金会采取的是分布式存储,也就是数据被切割成多个碎片,然后根据一定的策略分配到不同的存储节点上,使得数据可以就近存储,从而提高访问速度和效率。

根据维基媒体基金会的介绍,当某个内容被多次请求时,他们就会将内容缓存到离用户最近的数据中心,倘若某个内容很久都未被请求,那么就会存储在核心数据中心。如此一来,在请求冷门内容时,相关请求必须遍历从靠近用户的数据中心到核心数据中心的所有路径,再将其存储在区域数据中心,所以就会带来更大的带宽消耗。

可问题在于,维基媒体基金会设计的分布式存储是为人类用户服务,而不是为了应对AI厂商的爬虫,这就导致了他们面临越来越高的成本压力。毕竟人类用户往往会访问特定或相似主题的内容,而AI厂商的爬虫为了获取更多数据,通常会囫囵吞枣式地抓取每一个内容,所以就意味着维基媒体基金会认为的冷门内容也会被频繁访问。

AI爬虫如狼似虎,维基百科选择认怂

维基媒体基金会方面发现,爬虫浏览的网页数量仅占全体访客的35%,但访问其核心数据中心的流量却高达65%。作为一个非营利性机构,维基媒体基金会的收入主要来源于捐赠,所以他们也不可能用有限的资金去购买更多带宽。

与谷歌Kaggle合作发布模型训练的数据集,这就是维基媒体基金会为降低30%的爬虫使用带宽的方式。该机构表示,Kaggle托管的数据集“在设计时充分考虑了机器学习的工作流程”,使得AI开发者能够更轻松地访问机器可读的数据,以进行建模、微调、基准测试、对齐和分析。

由于维基媒体基金会的非营利属性,就意味着他们不能将自己拥有的数据出售,所以在AI厂商使用爬虫抓取非授权内容尚处于灰色地带时,能做的就只有将数据这个“烫手的山芋”扔出去,从而节省平台的带宽和服务器资源。为了让AI厂商的爬虫去抓取Kaggle上的数据,维基媒体基金会设计的数据集甚至是JSON格式的。

据悉,JSON格式是一种轻量化的数据交换格式,也是目前各种应用程序之间数据交换和通信的主流格式,其一大特点就是易于机器解析。相比txt、jpg、mp4等为人类服务的格式,JSON格式主要是为机器服务。这样一来,相比抓取或解析维基百科上的原始文本、图像,Kaggle上结构良好的JSON格式的维基百科相关内容显然就更具吸引力。

从某种意义上来说,这次维基媒体基金会被迫与谷歌Kaggle合作,凸显了内容平台的反爬虫策略在AI时代已经落伍。因为在AI厂商高速迭代的爬虫技术面前,内容平台的反爬虫策略还做不到完美区隔人类与机器。

AI爬虫如狼似虎,维基百科选择认怂

君不见在去年5月末,知乎网页端出现了非登录用户无法查看全文的情况。彼时外界普遍认为,知乎采取这一限制措施是为了反爬虫,防止AI厂商使用爬虫抓取其高质量内容来训练AI模型。然而仅仅过去了半年时间,知乎就放开限制,用户无需登录即可直接浏览完整内容。

其实知乎“认怂”的原因也不难猜测,毕竟他们的商业模式就是基于更多的人类用户使用,非登录用户不可查看全文会极大影响获客,进而让知乎的商业价值受损。用户体验与反AI爬虫不可兼得,这也是当下全球所有内容平台共同面对的难题。

如今,非营利性的维基媒体基金会选择逃避,要赚钱的美国新闻媒体,则是在尝试让AI厂商为他们的内容付费。

举报

  • 相关推荐
  • 特朗普认怂了?对华关税将“大幅下降”,但不会为0

    特朗普声称,对于最终的关税税率“中国会非常满意”,并表达了“希望中国在美进行贸易”的立场。

  • 百度百科启动全国最大城市影像记录工程

    3月31日,百度百科正式启动“繁星计划·百城行”,首站落地重庆市沙坪坝区文化馆,据了解,整个项目预计将吸引超过30万专业摄影师及300万摄影爱好者参与,征集的作品将覆盖10万条以上文旅相关百科内容,打造国内规模最大、覆盖面最广的城市影像记录工程。重庆市沙坪坝区委常委、宣传部部长黄可欣、重庆市文学艺术界联合会党组书记、副主席阳奎兴、百度百科总经理容薇、重庆市摄影家协会副主席王正坤等出席本次活动,分享了各自在文旅内容建设方面的重要成果与发展规划。“繁星计划·百城行”将在全国多个城市陆续展开,百度百科将联合各地文旅部门、摄影协会等机构,持续完善城市影像数据库建设,通过科技赋能文化传承,为各地文化传播提供数字支持。

  • 为了反爬虫 GitHub部署新规则:使用中文可能被限制访问

    据报道,GitHub部署了新的风控规则,会检查用户浏览器请求头的语言部分,如果检测到用户使用的是中文(仅限zh_CN),则可能会触发访问限制。不过GitHub并非全面封禁中文用户,而是将多个条件整合触发限制,首先会检查常规规则(如黑名单IP和UA),再检测IP地址质量。只有当这两个条件全部通过后,才会检查语言部分是否包含zh_CN,如果用户IP质量没问题,通常不会触发语�

  • 为什么说广告是AI大模型公司最现实的商业化选择

    从ChatGPT开启订阅模式开始,业界似乎默认大模型公司的C端商业化道路就是一条——订阅制。原因似乎也说得通——推理是有成本的。在经过谷歌、Perplexity等公司的实践,OpenAI、腾讯的跃跃欲试之后,广告大概率会成为更多大模型公司商业化的现实选择。

  • OpenAI,Google和阿里们都“”了的MCP,究竟给开发者带来啥实惠了

    AI领域的互操作性标准之争正变得异常热闹。GoogleDeepMindCEODemisHassabis宣布,将为其Gemini模型添加对Anthropic主导的模型上下文协议MCP的支持,称其为“一个优秀的协议,正迅速成为AIAgent时代的开放标准”。MCP有潜力成为提升AI在具体业务场景中实用性的关键基础设施,促进AI与现有软件和工作流程更紧密的融合。

  • 山石网携8大方案亮相2025 RSAC,斩获AI领域创新者殊荣

    2025年RSA网络安全大会在旧金山开幕,汇聚全球650多家厂商和600多位演讲者。山石网科凭借AI安全创新获国际权威奖项,展示八大安全解决方案:1)Open XDR方案实现安全异构联动;2)零信任访问方案动态授权;3)安全SD-WAN覆盖多云场景;4)全流量威胁检测系统;5)终端安全管理平台;6)云主机防护平台;7)云防火墙;8)云内微隔离平台。其产品以"开放融合、AI赋能"理念,助力企业构建智能安全体系,已在金融、医疗等多行业落地应用。

  • 1对1 AI全科家教!酷开AI学习机Y41 Air发布:1999元起

    快科技4月23日消息,酷开AI学习机Y41 Air已经发布,官方号称1对1 AI全科家教,定价1999元,5月17日开售。据介绍,酷开AI学习机Y41 Air内置了酷开教育智能体,深度融合酷开灵耳、Deepseek、通义千问、豆包等大模型,设有从学龄前到K12的全阶段教育服务,语音、拍照都可解题真人式启发教学,孩子多维知识提升快。可以让学龄前儿童通过AI互动百科视频边看、边问、边学,还可以帮助青少年享受AI家教1V1个性化互动讲题、AI英语口语陪练。支持随问随答,并且能够在解题或陪练的过程中随时进行答疑互动及延伸对话,帮助孩子养成主动思考、敢于表?

  • 云解析安全智能再升级,助力千行业加速数字化转型

    北京国科云公司发布新一代云解析产品,实现DNS服务的全面升级。新产品在智能解析、安全防护和性能优化方面取得突破,支持可视化管理和API对接,集成智能调度与秒级故障切换机制。采用弹性带宽、DDoS防火墙等多重安全防护,新增多维分析报表功能。收费模式改为一次性全包价,避免隐性成本。提供专属人工客服和秒级响应服务,显著提升用户体验。此次升级重新定义了DNS服务行业标准,为数字化转型提供更智能、安全的域名解析解决方案。

  • 度优选MCP,AI电商新解法

    AI技术正在重塑全球电商行业格局,百度推出MCP开放平台,为开发者提供AI电商解决方案。文章指出,AI已实现24小时智能直播、精准选品匹配、自动化营销等功能,帮助商家降本增效。数据显示,49%美国消费者会使用AI工具辅助购物决策。百度MCP平台整合搜索、交易等能力,开发者可快速调用电商工具,同时获得百度流量支持。目前已有上千开发者加入该平台。专家认为,未来电商竞争将转向AI应用深度和生态开放度,中国企业出海需构建AI技术壁垒。

  • 从英语到全,爱贝助力成长每一步

    文章讨论了人工智能(AI)在未来2025年的发展,提出了“智能AI在中国的未来”概念,构建“互联网+全智能”的OMO学习生活模式,实现大规模个性化学习,最终目标是“任何知识,全智能可及”。文章分为四部分:一是增强理解力,通过AI智能识别和分析图像,构建“人工智能+全智能”系统,实现“一图胜千言”的效果;二是人机交互,实现3D虚拟现实,通过虚拟现实场景模拟体验;三是智能决策,AI自我学习优化,提供最佳解决方案;四是全面影响,AI技术在教育、医疗、生活等领域的应用,实现“一切知识,全智能可达”。文章还指出,AI将引领未来,AI教育成为主流趋势,通过虚拟现实设备实现沉浸式学习体验;AI决策,30分钟内完成高难度任务;AI决策的挑战,数学、物理、跨学科应用,难以预测未来;全智能生活,互联网+全智能的融合,推动社会变革;AI普及,24小时在线学习,自我优化提升;AI影响人类,AI辅助决策成为常态,AI在中国的普及将超过50%。