打开 Google Search Console 发现“已抓取 - 尚未索引”的页面数量稳步上升,这说明你的服务器资源正在空转。这意味着 Google 机器人虽然访问了你的网站,但判定该页面不值得浪费其存储资源,这通常是权重分配失衡的信号。
核心问题:为什么 Google 抓了但不索引?
大部分独立站卖家习惯性地通过频繁提交 Sitemap 来“求”收录,但这解决不了本质问题。根本原因在于抓取配额(Crawl Budget)被浪费在了低价值页面上。因为权重(Link Juice)流失,核心 SKU 页面得不到足够的“信任值”。在 跨境电商技术实操库 的案例中,我们发现超过 60% 的收录失败是由于 URL 参数(如 size, color, sorting)导致的重复内容占用了抓取频率。
实操解决方案:针对性提高抓取效率
- 深度优化 robots.txt.liquid: 不要使用 Shopify 默认的机器人协议。直接进入模板代码编辑,找到
robots.txt.liquid,在{{- group.sitemap -}}前强制插入Disallow: /*?*ls=*和Disallow: /collections/*?*filter*。这一步能瞬间砍掉 80% 的无效抓取路径。 - 强化内链逻辑: 检查商品详情页。如果一个页面没有来自 Blog 或 Collection 的反向链接,它就是“孤岛页面”。建议使用
data-instant技术预加载核心路径,并在底部手动添加 2-3 个同类目高权重的锚文本链接。 - 强制触发渲染: 针对新上架产品,不要被动等待。利用 API 调用 Google Indexing API(配合 Node.js 脚本),这比在后台手动点“请求编入索引”要高效得多。
收录异常排查与处理逻辑
| 报错类型 | 根本原因 | 处理优先级 | 实操方案 |
|---|---|---|---|
| 已抓取-尚未索引 | 内容质量低或重复度高 | 最高 | 合并描述、增加 300+ 字差异化文案 |
| 发现-尚未索引 | 站点层级过深或权重低 | 中 | 增加首页内链入口 |
| 软 404 | 重定向配置不当 | 高 | 将下架产品 301 重定向至相关分类页 |
风险与老手避坑指南
千万不要为了收录而牺牲加载速度。官方文档说 JavaScript 渲染没问题,但在实测中,纯静态化的 HTML 结构收录速度比依赖 JS 渲染的组件快 3 倍以上。点开你的 Chrome DevTools,禁用 JavaScript 后看看页面主要参数是否依然可见。如果是一片白板,那你的收录率永远提不上去。
验证指标:如何判断改进生效
直接拉到 GSC 的【设置 - 抓取统计信息】报表中。重点观察“按响应类型划分”的饼图,如果 200 状态码的请求占比显著提升,且“刷新”请求开始向“发现”请求协同增长,说明你的蜘蛛抓取配额已经分配到了真正能带来转化的页面上。
