打开 Google Search Console,如果你发现“已发现 - 未索引”的页面数量是“已索引”的 3 倍以上,别再盲目发外链了。这说明你的站点存在严重的权重稀释,爬虫进得来,但根本不想抓取。

为什么不仅要生,更要“删”?

Google 给每个新站的 Crawl Budget(抓取预算)是有限的。如果爬虫进站后,花费大量时间抓取 /tag/、/filter?color=red 这种无意义的参数页或筛选页,留给核心产品页的预算自然就没了。对于算法来说,一个充斥着低质量重复页面的站点,整体评级(Site Authority)会被直接拉低。

实操:三步清洗站点架构

很多 SaaS 建站工具(如 Shopify 或 WordPress)默认会生成大量冗余页面,必须手动干预。

1. 封锁无效入口 (Robots.txt)

直接检查你的 Robots 文件配置。对于搜索页、购物车、账号后台,必须强制屏蔽。建议添加以下指令:

  • Disallow: /search/
  • Disallow: /cart/
  • Disallow: /account/

这样能确保蜘蛛直接绕过这些非转化页面。

2. 规范化标签 (Canonical Tags)

这是大多数电商站点的死穴。比如一件衣服有红黄蓝三个变体,对应三个 URL,但在谷歌眼里这是内容重复。你必须确保所有变体页面的 rel="canonical" 标签都指向主产品链接。

操作路径:在 SEO 插件或主题代码中,找到 Head 部分,确认 Canonical 指向的是不带参数的纯净 URL。

3. 清理“僵尸”页面

利用 Screaming Frog 等工具爬取全站。筛选出 Word Count(字数)小于 200 字且无转化的页面(如空的分类页、过期的活动页),直接进行 301 重定向到上一级目录,或者返回 410 删除代码,不要让它们占着茅坑不拉屎。

⚠️ 技术避坑指南:
千万不要直接把所有不重要的页面都在 Robots.txt 里 Disallow。如果页面已经被收录,Disallow 后谷歌无法抓取最新状态,反而会导致死链残留。对于已收录的垃圾页,正确的做法是先设置 noindex 标签,等待谷歌移除索引后,再进行屏蔽。

老手的经验提醒

在执行删除操作时,务必关注 Log日志 中的爬虫踪迹。如果误删了带有高外链权重的旧页面且没做 301 跳转,你的域名权重会断崖式下跌。操作前导出 GSC 的外链报表进行核对,是职业选手的基础素养。

验证指标

优化动作完成两周后,观察 GSC 的“覆盖率”报表:

  • Valid(有效)曲线应平稳上升。
  • Excluded(已排除)中,“该网页包含重定向”的比例应合理增加。
  • 核心关键词在 SERP 的排名是否因为权重集中而产生波动上升。