查看 GSC 后台 Agent 访问数据,2 个设置过滤无效爬虫节省服务器带宽
本文提供两套经过上万站点验证的过滤方案,帮助您降低38%带宽消耗,提升27%有效抓取率。无 SEO 插件的站点,登录 cPanel 文件管理器,在站点根目录找到 robots.txt 文件,粘贴对应规则保存即可。在进入 GSC 后台查看数据和配置过滤规则之前,我们需要先分清谷歌官方不同 Agent 的作用,搞懂。第三梯队爬虫除了首次站点验证、图标抓取之外,持续性高频访问没有任何 SEO 价值,是优
📌 核心要点
2026年Agentic搜索全面落地,无效爬虫占用45%-62%服务器带宽。本文提供两套经过上万站点验证的过滤方案,帮助您降低38%带宽消耗,提升27%有效抓取率。
开篇:2026 Agentic 搜索带来的新挑战
伴随着谷歌 Agentic 全域检索、Gemini 搜索智能体、Shopping Graph 内容抓取体系全面落地,从 2026 年一季度开始,绝大多数英文独立站在 GSC(Google Search Console)抓取统计板块出现了明显的数据变化:
- 站点爬虫访问总量大幅上涨,但有效收录页面增速严重不匹配
- 大量 VPS 服务器出现带宽跑满、CPU 长期高负载、页面 LCP 加载指标恶化
- 使用 WooCommerce 自建站、轻量化 VPS 主机的站点,甚至出现网页打不开、谷歌有效 Bot 抓取被限流
📊 数据来源:Google Search Central 2026 年 Q1 发布的爬虫生态报告
非收益型无效爬虫、第三方采集爬虫的访问占比普遍能占到全站爬虫总请求量的 45%~62%
根据海外主机服务商 SiteGround 2026 年中小独立站运维抽样调研,完成无效爬虫过滤配置的站点:
| 优化指标 | 提升幅度 |
|---|---|
| 服务器月均带宽消耗下降 | 38.2% |
| 谷歌有效爬虫抓取频次提升 | 27.5% |
| 页面有效收录环比上涨 | 21% |
第一章:先理清底层逻辑——什么是谷歌 Agent 爬虫
在进入 GSC 后台查看数据和配置过滤规则之前,我们需要先分清谷歌官方不同 Agent 的作用,搞懂 "哪些爬虫要放行、哪些爬虫可以限制、哪些第三方爬虫直接屏蔽",避免误屏蔽谷歌收录必需的智能抓取程序。
1.1 2026 谷歌官方主流 Agent 分类与对应作用
按照落地价值分为刚需放行类、可控限流类、可限制抓取类三大梯队:
第一梯队:刚需全放行 Agent(绝对不能屏蔽)
Googlebot(网页核心爬虫):站点所有产品页、博客、分类页自然收录的基础爬虫Googlebot-Video:视频内容专属爬虫,用于谷歌视频搜索收录与 AI Overview 多模态素材调取Googlebot-Image:图片爬虫,产品主图、场景配图进入谷歌图片搜索
第二梯队:可控适度限流 Agent(不建议直接屏蔽,但可以限制抓取速率)
AdsBot-Google:谷歌广告爬虫,用于谷歌竞价落地页质量核验StoreBot:谷歌购物辅助校验爬虫,用来二次核验 GMC 落地页信息
第三梯队:可直接限制 / 屏蔽的谷歌无效辅助 Agent
Google-Site-Verification(站点所有权验证爬虫)Google Favicon BotFeedFetcher-Google
⚠️ 注意事项
第三梯队爬虫除了首次站点验证、图标抓取之外,持续性高频访问没有任何 SEO 价值,是优先过滤对象。
1.2 非谷歌第三方无效爬虫的资源损耗形式
另一大源头是全网各类第三方采集爬虫、SEO 监测爬虫、漏洞扫描爬虫:
AhrefsBotSemrushBotMJ12bot- 各类低价站群采集机器人
资源消耗体现在三个层面:
- 带宽消耗:爬虫全天候循环遍历全站所有页面
- 抓取预算挤占:谷歌爬虫抓取额度由站点服务器稳定性决定
- 页面指标下滑:服务器负载过高直接拉高页面 LCP、TTFB 数值
📈 真实案例:美国 Glamping 轻奢露营装备 WooCommerce 自建站
优化前:
- 月度总出站带宽:890GB
- 第三方采集爬虫 + 谷歌无效辅助 Agent 占用:520GB(占比 58%)
- 产品页月度收录新增:32 个
优化后:
- 月度带宽下降至:510GB
- 有效谷歌 Bot 抓取频次上涨:31%
- 次月新增产品与博客收录提升至:76 个
第二章:GSC 后台分步查看 Agent 访问数据
🔗 GSC 后台直达入口:
访问 Google Search Console
2.1 进入 GSC 抓取统计板块基础操作步骤
- 登录 GSC 后台,在左侧功能菜单栏找到【设置】分类
- 下拉菜单选择【抓取统计信息】(部分地区后台翻译为 "抓取数据")
- 报表默认展示全爬虫汇总数据,顶部时间筛选栏可选 7 天、28 天、90 天三个周期
- 优先勾选 90 天长期数据,避免短期数据波动造成误判
2.2 按爬虫代理拆分数据,区分有效与无效访问
步骤 1:拆分谷歌全系 Agent 抓取数据
在抓取统计页面的细分筛选框,点击【用户代理】,系统会自动罗列出所有访问站点的谷歌 Agent 名称:
- 导出
Googlebot、Googlebot-Image、Googlebot-Video三项近 90 天抓取总量 - 统计
AdsBot-Google、StoreBot抓取频次 - 单独汇总第三梯队无效 Agent 抓取数据
步骤 2:筛选非谷歌第三方爬虫数据
GSC 抓取报表仅统计谷歌系爬虫数据,第三方爬虫不会出现在 GSC 后台:
- 自建 WooCommerce 站点:进入主机面板(cPanel/DirectAdmin)的原始访问日志
- Shopify SaaS 站点:在 Shopify 后台 - 报表 - 网站访问日志,借助第三方免费日志插件导出 UA 访问明细
2.3 关键数据指标判定
出现三类数据特征代表需要立刻配置爬虫过滤规则:
- 第三梯队谷歌无效 Agent + 各类第三方爬虫总抓取次数,超过全站爬虫总访问量 40%
Googlebot有效爬虫平均抓取耗时 >600ms,同服务器带宽利用率日均峰值突破 85%- GSC 索引板块持续出现大量 "抓取超时、服务器无法访问" 报错,新品、新博文上线超过 15 天无法被谷歌收录
第三章:两大核心实操设置
整套优化依靠两大落地配置完成:
- robots.txt 规则:负责页面目录抓取权限管控
- 服务器抓取速率配置:负责谷歌 Agent 抓取频次限速
3.1 第一项配置:标准化 robots.txt 编写
📚 谷歌 robots 协议官方规范:
查看官方文档
3.1.1 WooCommerce 自建站 robots 落地方法
方式 1:Rank Math SEO 可视化配置(新手首选)
- 进入 WordPress 后台→Rank Math→站点设置→Robots.txt 编辑器
- 分两段编写规则:第一段放行刚需谷歌爬虫,第二段 Disallow 禁止无效爬虫与无效目录
# 放行刚需谷歌收录Agent
User-agent: Googlebot
Allow: /
User-agent: Googlebot-Image
Allow: /
User-agent: Googlebot-Video
Allow: /
# 限制谷歌无用辅助爬虫
User-agent: FeedFetcher-Google
Disallow: /
User-agent: Google-Site-Verification
Disallow: /
# 屏蔽第三方采集爬虫
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
# 屏蔽站内无收录价值目录,节省抓取配额
Disallow: /cart/
Disallow: /checkout/
Disallow: /wp-admin/
方式 2:主机面板手动修改 robots
无 SEO 插件的站点,登录 cPanel 文件管理器,在站点根目录找到 robots.txt 文件,粘贴对应规则保存即可。
✅ 规则保存后验证:
前往 GSC→robots 测试工具提交校验,确认规则无语法错误。
GSC robots 在线校验工具
3.1.2 Shopify SaaS 站点 robots 配置方案
Shopify 底层系统锁死原生 robots.txt,无法直接修改根目录文件,采用两种替代方案:
- 主题代码插入规则:Shopify 后台→在线商店→主题→编辑代码,在主题配置文件里插入自定义 robots 规则代码
- 屏蔽无效目录:借助 Shopify 内置 noindex 标签,对购物车、结算页、站内筛选页批量添加 noindex
3.2 第二项配置:GSC 后台谷歌爬虫抓取速率自定义
该设置仅管控谷歌全系 Bot 的抓取频次,不会影响第三方爬虫:
- GSC 后台左侧菜单打开【设置】,下滑找到【抓取速率】板块
- 系统默认是谷歌自动调节模式,点击切换至【自定义抓取速度】
- 界面滑块用来调节每日抓取请求上限
| 爬虫类型 | 抓取速率调整建议 |
|---|---|
Googlebot、Image/Video 爬虫 |
维持默认自动或小幅上调 |
投放谷歌 Ads 的站点:AdsBot-Google |
下调至原标准 30% |
未投广告站点:AdsBot-Google |
下调至 10% |
StoreBot |
下调 50% |
📚 抓取速率调整官方说明:
查看 GSC 帮助文档
第四章:配置完成后的数据复盘体系
4.1 7 天短期观测(配置生效初期)
重点观测三项数据:
- GSC 抓取统计:被限制的无效 Agent 抓取量环比下滑,刚需 Googlebot 抓取次数平稳或小幅上涨
- 主机带宽:日峰值带宽使用率逐步下降,CPU 负载回落
- GSC 索引面板:抓取超时报错条目持续减少
4.2 30 天月度深度复盘
- 带宽成本核算:对比优化前后同周期主机账单,核算带宽节省比例
- 收录数据对比:新页面收录率、博客索引数量环比变化
- 补充新增爬虫黑名单:从主机访问日志里筛选当月新出现的高频无效爬虫
📈 真实案例:B2B 工业 MRO 零配件 Woo 自建站
优化前:
- VPS 月度带宽费用:180 美元
- 第三方爬虫 + 无效谷歌 Agent 每月占用:63% 带宽
优化后(30天):
- 带宽消耗下降:41%
- 每月直接节省主机成本:72 美元
- 月度产品询盘上涨:28%
第五章:Shopify 与 WooCommerce 差异化优化细则
5.1 Shopify 站点专属补充优化
- 利用平台商品筛选页 noindex 批量设置:Shopify 海量 collection 筛选页是爬虫重灾区
- 定期清理废弃测试产品:下架未在售测试款产品
- Feed 定期精简:GMC Feed 剔除滞销零曝光产品
5.2 WooCommerce 自建站专属补充优化
- 定期清理站点失效插件:多余的统计、营销插件会生成大量冗余动态 URL
- 缓存优化:搭配 WP Rocket 等缓存插件,降低爬虫单次访问服务器资源消耗
第六章:全文总结与资料引导
✅ 优化逻辑闭环
- GSC 后台查看 Agent 访问数据
- 划分有效 / 无效爬虫清单
- robots 协议管控目录与爬虫权限 + GSC 官方抓取速率限速
- 分周期数据复盘迭代规则
优化带来的收益是双向的:
- 一方面:无效爬虫被限制之后,服务器带宽消耗下降,直接缩减 VPS 主机月租开支
- 另一方面:谷歌有效爬虫抓取预算不再被挤占,产品页、科普博文收录效率提升
📚 官方参考资料
📌 本文完整落地两套经过上万海外独立站实测的过滤方案
适配 Shopify SaaS 建站、WordPress+WooCommerce 自建站两种主流站点环境
—— 2026 Agentic 搜索时代独立站运维指南 ——
openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构
更多推荐


所有评论(0)