Cloudflare 新规出炉，混合 AI 爬虫将批量遭拦…

Cloudflare 近期发布服务默认规则重大更新，给全行业 AI 企业定下 9 月 15 日整改期限。所有 AI 厂商必须拆分搜索爬虫与模型训练、AI 代理专用爬虫，未完成区分的混合爬虫访问带广告页面会被系统自动拦截。

新规覆盖范围十分广泛，新入驻平台客户、老用户新建站点以及全部免费用户网站均统一生效。网站管理员若想放行混合爬虫，只能手动修改后台配置，该调整直接改变 AI 企业获取网页训练素材的渠道。

Cloudflare 新规出炉，混合 AI 爬虫将批量遭拦截

大量站长愿意开放内容给传统搜索引擎收录，却不愿知识产权被 AI 无偿大规模采集训练。Cloudflare 直言谷歌爬虫兼具搜索与 AI 数据采集功能，网站很难做到仅开放搜索、隔绝 AI 训练抓取。谷歌对此作出回应，推出专属机器人工具供站点屏蔽 AI 训练取用，不影响搜索收录。

但其核心爬虫仍会同步为搜索内置 AI 功能采集数据，难以彻底割裂搜索与 AI 数据需求。平台 CEO 表示机器人流量早已远超人类访问，行业生态急需规范约束各类抓取行为。

Cloudflare 持续加码内容方保护工具，从 2024 年防 AI 爬虫工具迭代至全新按价值计费模式。以往平台采用按抓取次数收费，如今升级为 Pay Per Use，依据内容在 AI 中产生的实际收益结算。数据显示超半数 AI 爬虫反复抓取无更新页面，付费机制能减少无效流量，为创作者增收。

目前该付费方案已联合两家 AI 企业试点，内容被 AI 产品调用后站长可直接获取收益。在版权监管趋严的环境下，新规倒逼 AI 企业提升抓取透明度，也让网页创作者掌握更多内容控制权。

Cloudflare CEO指出，互联网已迎来关键拐点：机器人自动流量首次超越人类流量，成为网络主力。这一逆转在AI智能体推动下提前爆发，远超行业预期（原预计2027年底）。

Cloudflare推出颠覆性网络搜索功能，通过API让AI智能体实时访问公开网页，解决大模型因训练数据截止日期导致的信息滞后和错误问题，打破传统巨头垄断。

Human Archive 是一家硅谷初创公司，通过让印度零工从业者佩戴摄像设备，采集第一人称视角视频数据，为AI实验室训练机器人提供稀缺的现实世界行为数据。该公司近日完成融资，获得顶尖AI资本支持，押注这一争议但潜力巨大的领域。

Cloudflare宣布裁员约20%（1100人），尽管公司收入仍在增长。CEO马修·普林斯称裁员并非业绩问题，而是因人工智能技术大幅提升效率，使公司能更精简运营。此举与Meta、微软等科技巨头类似，均在高增长期优化人力。Cloudflare的网络安全服务覆盖全球数百万网站。

OpenAI在GPT-5发布后，网络爬虫活跃度激增约300%，以海量采集实时、高质量数据。此举表明AI竞争已进入“深挖数据”新阶段，旨在提升模型对全球信息的精准捕捉能力。

关注 “悠AI” 更多干货技巧行业动态

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...