文章目录[隐藏]
索引停滞的核心:抓取预算(Crawl Budget)的内耗
打开 GSC(Google Search Console)发现“已发现 - 尚未编入索引”的数量占比超过 40%?这通常不是内容质量问题,而是你的抓取预算在无意义的筛选页面上被消耗殆尽。对于商品量超过 1000 个的独立站,Googlebot 每秒的并发抓取是有上限的,如果爬虫整天在爬你的 ?filter.v.price 这种参数页,核心产品页自然分配不到名额。
提高收录效率的三个硬核动作
1. 强制干预 robots.txt 的屏蔽规则
默认的 Shopify 策略并不能完全阻止参数页的索引污染。点选商店后台,进入“在线商店-偏好设置”,通过自定义代码屏蔽所有带 ?q= 和 ?filter 的 URL。操作细节:确信在 robots.txt 中加入 Disallow: /*?attributes* 这种精准匹配,防止无效变体页透出。
2. 建立站内“权重孤岛”的桥接
很多页面收录慢是因为它们在站点地图中层级太深。点开 SEO 技术支持 报表,直接拉到底部查看内链密度。若一个 SKU 距离首页点击超过 3 次,收录概率将降低 60%。建议在首页底部手动加入一个 Recommended Collections 模块,将核心利润款的 URL 权重直接拉高。
3. 利用 Indexing API 进行主动推送
不要依赖那个更新极其缓慢的 sitemap.xml。对于急需上架的新品,直接调用 Node.js 或 Python 脚本对接 Google Indexing API。这属于老手的“降维打击”,能够绕过常规排队序列,强制触发抓取队列处理。
老手的避坑指南:Sitemap 并不是越全越好
官方文档建议上传完整的 Sitemap,但实测中,把转化率为 0 的老旧 SKU 直接从地图中剔除反而能提升其他页面的更新频率。不要把已经断货且不再补货的 URL 留在地图里,那是在浪费蜘蛛的体力。保持主图、标题的高频更新,能让蜘蛛认为你的站点是“鲜活”的。
验证指标:爬虫抓取日志分析
怎么判断做对了?不能光看收录数,要看 GSC 里的“抓取统计信息”。
| 指标项 | 健康值范围 | 异常表现 |
|---|---|---|
| 平均响应时间 | < 300ms | 超过 1s 表明服务器响应拖慢抓取 |
| 抓取请求数/天 | 持续上升并趋于平稳 | 突然断崖式下跌 |
| 404 出错率 | < 1% | 导致抓取配额被浪费在死链上 |
重点:如果发现 Googlebot 在 404 页面上的停留时长激增,立刻在后台做 301 重定向,不要让流量打在空处。
