如果你发现常看的网站某天突然崩溃,凶手可能不是黑客,也不是太火爆,是一群「看不见」的AI 爬虫正在秘密入侵。
网站安全公司 Cloudflare 最近发布了 2025 年度回顾报告,从底层基础设施的视角,给我们呈现了一个另类的 AI 生存图鉴。
先给不了解的朋友做个简单的科普:Cloudflare 这公司,说直白点就是互联网世界的物业+保镖,管安全、管加速、管流量,堪称六边形战士。

比如你访问使用 Cloudflare 的网站时能秒开,大概率是它把你导向了最近的数据中心;网站能扛住 DDoS 攻击、不怕爬虫搞破坏,背后也多半有它的影子。
不过嘛,一旦 Cloudflare 宕机,半个互联网就得遭殃,也因此诞生了不少梗图。

废话不多说,重点还是先来看看这份报告里藏着的 AI 趋势。
三巨头垄断 AI 爬虫:Google、OpenAI、微软瓜分互联网
先说个最直观的,2025 年全球网络流量涨了 19%。
但这个涨法有点门道,上半年基本没啥水花,流量一直在基准线附近摸鱼。结果到了 8 月中旬突然开挂模式,9 月、10 月、11 月一路狂飙突进,年底直接冲到全年峰值。

流量的去向很能说明问题。Google 和 Facebook 依然霸榜前二,这个没啥悬念。
但Microsoft、Instagram、YouTube 排名都往上窜,TikTok 反而掉了四位。AWS 也退了一名,新旧势力的洗牌已经肉眼可见。

当然,比起这些传统巨头,大家更关心的是生成式 AI 这块肥肉的争夺。
不得不说,该是大哥还是大哥,ChatGPT/OpenAI 依然稳坐头把交椅。但身后的「小弟」已经杀红了眼。Perplexity、Claude/Anthropic、GitHub Copilot 排名都在涨。
除此以外,新面孔也不少,Google Gemini、Windsurf AI(已被收购)、Grok/xAI、DeepSeek 通通挤进了前十榜单。

作为守护全球众多网站的金牌保镖,Cloudflare 对爬虫攻击的监测最有发言权。今年 Cloudflare 在分析 AI 爬虫的活跃度后发现,2025 年,用户行为类的 AI 爬取量增长了超过 15 倍。
啥叫用户行为爬取?
就是你问 ChatGPT 一个问题,它去网上找答案的时候产生的流量。这个数字从年初到年底翻了 21 倍多,基本和 ChatGPT-User 机器人的增长曲线完全吻合。

看来大家真的越来越依赖 AI 了……
单看 AI 爬虫占 HTML 请求的比例,平均是 4.2%,但全年波动极大,4 月跌到 2.4% 的谷底,6 月底又冲到 6.4% 的峰值。不过这都不算啥,真正的「爬虫一哥」永远是 Googlebot。

这家伙的爬取量有多猛?它产生的 IPv4 请求流量,是第二名的整整四倍!而且 Googlebot 还占了全年经验证机器人流量的四分之一以上,2 月到 7 月最疯狂,4 月中旬达到峰值,占比超过 28%。
为啥 Googlebot 这么能爬?
因为它不光要给 Google 搜索引擎建索引,还得顺带训练 AI 模型。10 月的行业数据很能说明问题:零售和计算机软件产业吸引的 AI 爬虫流量合计超 40%,稳居前二。

这逻辑不难理解:零售行业的商品信息、用户评价,软件行业的代码、文档,都是训练 AI 的「优质食材」。排名前十的产业占了近 70% 的爬取量,剩下的则分散在各个领域。

爬虫界的「三巨头」格局也基本定了:Googlebot 稳坐第一,OpenAI 的 GPTBot 排第二,占比约 7.5% 但波动极大;Microsoft 的 Bingbot 相对稳定,贡献了 6% 的流量。
需要说明的是,早期互联网的流量分为「人类用户」和「机器流量」,但机器也分三六九等。
Googlebot 这类搜索引擎爬虫,和网站是共生关系:网站给内容,搜索引擎给流量,能带来广告和转化;而生成式 AI 爬虫则是纯粹的「寄生关系」,薅走内容训练模型,用户直接在 AI 界面拿答案,根本不会访问原网站,纯属白嫖。

面对猖獗的 AI 爬虫,网站所有者自然也得予以反击。
robots.txt 是一个放在网站根目录下的纯文本文件,用来告诉搜索引擎的爬虫哪些页面可以抓取、哪些不可以。可以把它理解成网站门口贴的「告示牌」,没有法律效力,但懂规矩的都会给点面子。
Cloudflare 统计了排名前 10000 的网站,看了看大家的 robots.txt 文件都怎么设置的,哪些爬虫被「完全拉黑」,哪些被「部分限制」。
结果发现,被封得最狠的就是 AI 爬虫——GPTBot、ClaudeBot、CCBot 这几位,基本上是重点打击对象。

至于 Googlebot 和 Bingbot,待遇就好点了。大部分网站只是「部分禁止」它们,比如不让它们爬登录页面或者后台管理区域,但内容区该看还是让看。真正把这俩完全拉黑的网站,其实挺少的。
AI 爬虫是白嫖还是引流?新指标揭露真相
Cloudflare 今年还搞了个新指标,叫「爬虫推荐比率」。
通俗点讲就是,AI 平台爬了你网站多少次,实际给你带回来多少真实访客。这个比值越高,说明平台基本就是在白嫖你的内容,压根不给你引流。

最新的结果显示,Anthropic 的爬行推荐比率一度飙到 500000:1——就是爬你 50 万次,才给你带来 1 个访客。后来虽然稳定在 25000:1 到 100000:1 之间,但本质还是白嫖。

OpenAI 也好不到哪去,3 月比值高达 3700:1,后来多亏 ChatGPT 搜索功能用得多了,推荐流量才稍微涨了点。
相比之下,Perplexity 算是 AI 圈里的「良心」,年初比值低于 100:1,3 月虽然涨到 700:1 以上,但很快回落,9 月后就稳定在 200:1 以下。

搜索引擎这边,Microsoft 的比率有个奇怪的周期性模式,周四最低,周日最高。全年峰值基本在 50:1 到 70:1 之间。
Google 年初是 3:1,4 月涨到 30:1,后来又降回 3:1,下半年又慢慢涨回来了。DuckDuckGo 前三季度都低于 1:1,但 10 月中旬突然跳到 1.5:1,之后就一直维持这个水平了。

除了 AI 爬虫的管控,Workers AI 上的模型竞争与任务需求也颇具看点。
Workers AI 是美国 Cloudflare 公司推出的 AI 托管服务:也就是把热门开源模型(Llama、Stable Diffusion、Whisper 等)预先部署到自家全球边缘节点的 GPU 上。
开发者能就近跑模型,按用量付费,不用自己买卡、搭环境。在 Workers AI 上,Meta 的 llama-3-8b-instruct 模型最受欢迎,文字生成则是最常用的任务类型。
全年中,Meta 的 llama-3-8b-instruct 最受欢迎,其帐户占比达 36.3%,是第二名 OpenAI 的 whisper (10.1%) 和第三名 Stability AI 的 stable-diffusion-xl-base-1.0 (9.8%) 的三倍多。

Meta 和北京智源人工智能研究院 (BAAI) 在前十名中各有多款模型,前十名模型的帐户占比合计达 89%,其余占比分布在其他众多模型中。
任务类型的分布更能反映行业需求:文字生成以 48.2% 的占比稳居第一,几乎是第二名文字转图像(12.3%)和第三名自动语音识别(11.0%)的四倍。说白了,当前 AI 最核心的需求还是「内容创作」和「信息处理」,这也是各大厂商砸钱最多的赛道。

今年网络中断 174 次,最大元凶不是黑客而是…防作弊?
先说说移动设备格局,全球移动设备流量里,iOS 占了 35%,比去年涨了两个百分点。看似涨幅不大,但在多个高收入国家/地区,iOS 占比已超过一半:
摩纳哥最夸张,达到 70%;丹麦 65%、日本 57%、波多黎各 52%,全球共有 30 个国家/地区的 iOS 占比超 50%。
Android 则在更广泛的区域占据主导,有 27 个国家/地区的 Android 占比超过 90%,175 个国家/地区的 Android 占比达 50% 或更高,整体来看 Android 仍占全球移动设备流量大头。

不同设备上,浏览器的格局也有明显差异。
从全球整体来看,Chrome 依然称霸,贡献了三分之二的请求流量,和去年基本持平;Safari 以 15.4% 的占比排第二,考虑到它仅能在苹果设备上使用,这个成绩已十分亮眼。
后续依次是 Microsoft Edge(7.4%)、Mozilla Firefox(3.7%)和 Samsung Internet(2.3%)。

设备端差异更显著:iOS 上 Safari 统治力极强,占比高达 79%,是 Chrome(19%)的四倍;
Android 上 Chrome 占比 85%,Samsung Internet 以 6.6% 排第二;Windows 系统上 Chrome 占 69%,即便 Edge 是默认浏览器,占比也仅 19%。
最后提一嘴网络稳定性:2025 年全球共发生 174 起重大网络中断事件,但和想象中有所不同的是,最常见的原因居然是海外国家「防范考试作弊」导致的人为关网,其次才是天灾人祸造成的光纤切断。
看来在 AI 时代,打败互联网的不是黑客,而是监考老师。
参考链接🔗
https://radar.cloudflare.com/year-in-review/2025#internet-traffic-growth
文章来自于“APPSO”,作者 “APPSO”。

