文章目录[隐藏]
打开 Google Search Console (GSC) 的覆盖率报告,如果你的“已排除”页面数量是“有效”页面的3倍以上,且大量出现“已发现 - 目前未索引”的状态,那么请停止更新内容。这说明你的抓取预算(Crawl Budget)正在被大量垃圾URL浪费,此时盲目发外链只会加速域名权重的稀释。
为什么蜘蛛抓取后不建立索引?
很多运营把收录问题归结为“内容原创度不够”,这在2015年可能成立,但在现在的算法下,技术性阻碍才是主因。如果你的网站存在大量带参数的URL(如 ?sort=price_desc)或者重复的集合页,Googlebot 会陷入无限循环的抓取陷阱,导致核心产品页根本排不上队。
技术修正实操三步走
不管是Shopify还是各种自建站,以下三个配置是必须手动校验的“守门员”:
1. 强制规范标签(Canonical Verification)
这是最容易被忽视的重灾区。必须确保每一个产品详情页的源代码中,<link rel="canonical" href="..." /> 指向的是其本身的标准URL(不带任何参数)。
- 错误示范: A页面指向B页面,B页面又指向C页面。
- 正确做法: 无论用户通过广告参数还是分类筛选进入,Canonical 标签必须像锚一样锁定主链接。
2. Robots.txt 的精准屏蔽
不要使用默认的配置。进入站点根目录,屏蔽所有无SEO价值的动态路径。对于电商站,登录页、购物车、结账页、站内搜索结果页必须 Disallow。
| 路径类型 | 指令建议 | 原因 |
|---|---|---|
| 站内搜索结果 | Disallow: /search* | 避免生成无限量重复内容页面 |
| 用户账户 | Disallow: /account* | 保护隐私且不仅浪费抓取额度 |
| 结账流程 | Disallow: /checkout* | 无排名的功能性页面 |
3. Sitemap 的“瘦身”清洗
很多插件会自动把Tag标签页、作者存档页生成的URL全部塞进 Sitemap 提交给谷歌。这简直是灾难。立即检查你的 sitemap.xml,将所有非核心业务页面剔除,只保留 Category 和 Product 页面。如果你需要更详细的清理规则,可以参考更深入的技术SEO优化文档进行配置。
风险与避坑:别为了速度牺牲渲染
很多技术为了追求 PageSpeed Insights 的高分,会粗暴地通过 robots 禁止爬虫抓取 .js 和 .css 文件。这是一个巨大的误区。现代 Googlebot 需要渲染完整的页面来判断内容布局(Mobile-First Indexing)。如果你屏蔽了样式文件,谷歌看到的可能是一个乱码的HTML,直接导致不收录。
验证指标:怎么算修好了?
配置完成后,不要干等。使用 GSC 的“URL检查”工具,手动请求索引一个核心页面。如果出现“URL已在Google中”,并且在覆盖率报告中,“有效”页面的曲线开始上扬,“已排除”曲线趋于平稳,说明技术端障碍已清除,接下来才是拼内容的时候。
