打开 Google Search Console (GSC) 的覆盖率报告,如果你的“已排除”页面数量是“有效”页面的3倍以上,且大量出现“已发现 - 目前未索引”的状态,那么请停止更新内容。这说明你的抓取预算(Crawl Budget)正在被大量垃圾URL浪费,此时盲目发外链只会加速域名权重的稀释。

为什么蜘蛛抓取后不建立索引?

很多运营把收录问题归结为“内容原创度不够”,这在2015年可能成立,但在现在的算法下,技术性阻碍才是主因。如果你的网站存在大量带参数的URL(如 ?sort=price_desc)或者重复的集合页,Googlebot 会陷入无限循环的抓取陷阱,导致核心产品页根本排不上队。

技术修正实操三步走

不管是Shopify还是各种自建站,以下三个配置是必须手动校验的“守门员”:

1. 强制规范标签(Canonical Verification)

这是最容易被忽视的重灾区。必须确保每一个产品详情页的源代码中,<link rel="canonical" href="..." /> 指向的是其本身的标准URL(不带任何参数)。

  • 错误示范: A页面指向B页面,B页面又指向C页面。
  • 正确做法: 无论用户通过广告参数还是分类筛选进入,Canonical 标签必须像锚一样锁定主链接。

2. Robots.txt 的精准屏蔽

不要使用默认的配置。进入站点根目录,屏蔽所有无SEO价值的动态路径。对于电商站,登录页、购物车、结账页、站内搜索结果页必须 Disallow。

路径类型 指令建议 原因
站内搜索结果 Disallow: /search* 避免生成无限量重复内容页面
用户账户 Disallow: /account* 保护隐私且不仅浪费抓取额度
结账流程 Disallow: /checkout* 无排名的功能性页面

3. Sitemap 的“瘦身”清洗

很多插件会自动把Tag标签页、作者存档页生成的URL全部塞进 Sitemap 提交给谷歌。这简直是灾难。立即检查你的 sitemap.xml,将所有非核心业务页面剔除,只保留 Category 和 Product 页面。如果你需要更详细的清理规则,可以参考更深入的技术SEO优化文档进行配置。

风险与避坑:别为了速度牺牲渲染

很多技术为了追求 PageSpeed Insights 的高分,会粗暴地通过 robots 禁止爬虫抓取 .js 和 .css 文件。这是一个巨大的误区。现代 Googlebot 需要渲染完整的页面来判断内容布局(Mobile-First Indexing)。如果你屏蔽了样式文件,谷歌看到的可能是一个乱码的HTML,直接导致不收录。

验证指标:怎么算修好了?

配置完成后,不要干等。使用 GSC 的“URL检查”工具,手动请求索引一个核心页面。如果出现“URL已在Google中”,并且在覆盖率报告中,“有效”页面的曲线开始上扬,“已排除”曲线趋于平稳,说明技术端障碍已清除,接下来才是拼内容的时候。