当你点开 Google Search Console 的“覆盖率”报告,发现“已发现 - 当前未收录”的数量呈指数级增长时,别再浪费时间去手动提交 URL 了。这种数据异动通常意味着你的站点链接深度超过了蜘蛛的忍耐极限,或者内部权重在传递过程中因冗余参数被彻底切断。

一、 核心问题:为什么 Google 爬了却不收录?

很多操盘手认为只要页面多、更新快就能出效果,但实测中抓取预算(Crawl Budget)是有天花板的。因为 URL 层级嵌套过深(例如:/collections/category/sub-category/products/name),导致搜索蜘蛛在有限的访问周期内无法触达底层详情页。此外,若页面缺乏有效的 结构化数据标识,搜索引擎需要消耗更多算力去解析内容,针对低权重的中小站,算法会直接选择放弃索引。

二、 实操解决方案:高效率重构工作流

1. URL 扁平化改造

直接在后台将产品路径修改为“域名/products/关键词-ID”格式。砍掉所有中间分类路径,将链接深度强制控制在 3 层以内。修改后,必须在服务器端执行 301 重定向,并同步更新 sitemap.xml 文件。点开后台【设置-导航】,确保首页导航栏能直接触达核心类目,不要让蜘蛛通过三次以上的点击才找到目标。

2. 自动化注入 JSON-LD Schema

不要手动去每一个 HTML 标签里加代码,那太慢了。通过 GTM(Google Tag Manager)或插件直接在 <head> 中注入 Product 类型的结构化数据。重点检查以下 3 个核心参数是否缺失:

  • availability:必须准确对应 InStock,否则会导致搜索结果展现异常。
  • price/priceCurrency:确保与前台显示价格 100% 一致,避免算法降权。
  • review:即便是零评价,也建议初始化默认的 AggregateRating 参数。

3. canonical 标签的强制校验

对于带变体参数的 SKU(如颜色、尺寸产生的多参数 URL),必须在代码中固定 canonical 唯一主链接。防止同一商品产生多个重复页面,造成内部竞争,浪费抓取配额。

三、 风险与避坑:老手的经验提醒

严禁用通配符批量屏蔽 JS 和 CSS 文件。 现在的搜索引擎是基于渲染引擎工作的,如果你在 robots.txt 里封死了样式文件,Google 看到的只是一个混乱的字符堆,收录率会直接归零。此外,在调整 URL 结构时,千万别忘了把 Canonical 标签指向最新地址,否则旧域名的权重会像沙漏一样流失。建议拉取【日志分析】,观察 Googlebot 报错代码,如果出现大量 404,说明你重定向表做错了。

四、 验证指标:怎么判断做对了

优化方案上线后的 72 小时内,你应该重点关注以下数据维度的变化:

关键指标 正常区间 异常信号
平均抓取耗时 < 500ms > 1500ms(需检查 CDN 响应)
收录/已发现比例 > 70% < 30%(存在内容重复或层级过深)
LCP(最大内容绘制) < 2.5s > 4.0s(直接导致移动端收录降权)

直接检查 GSC 中的“已验证”状态。当“已发现 - 当前未收录”的趋势线开始拐头向下,且抓取总计页面数上升时,说明你的效率优化方案已经生效。