别TM乱用分页了!就因为这破翻页,我站差点被蜘蛛当迷宫K光!

我真服了,凌晨三点被手机震醒,爬虫监控疯狂报警说首页抓取异常,打开一看流量统计那条线跟跳崖似的——就因为我前两天给文章列表加了个自以为很酷的Ajax无限滚动翻页,还美其名曰提升用户体验,结果蜘蛛根本爬不到第二页之后的内容,整个站的新内容全被埋在沙盒里了,甚至之前有排名的老页面都开始往下掉,这破体验提升给鬼看啊!

所以兄弟们,听我一句劝,显示翻页代码不是你想显示就显示,这里面的坑比你想的深。第一,绝对不要为了炫技用JS动态加载分页内容,蜘蛛它不执行你那套花里胡哨的前端逻辑,它眼里只有最原始的HTML链接,你让它Ajax?它直接跟你说拜拜。第二,就算你用最传统的 `下一页`,也得注意rel="next" 和 rel="prev"这俩标签(虽然谷歌说不用了,但百度之类的你最好还是加上,图个心安),最重要的是canonical标签一定要指向分页系列的第一页或者主要内容页,不然每一页分页都会被搜索引擎当成独立的重复页面,权重给你分得稀碎,(这里有篇血泪史讲 canonical 用错的后果)我当初就是漏了这个,一觉醒来收录暴涨(全是重复页),然后第二天权重直接清零。

还有更骚的操作,翻页的URL结构一定要清晰有规律,别整什么 `/page-2.html` 和 `/page/3/` 混用,蜘蛛会懵。最好全站统一,用 `?p=2` 或者 `/2/` 这种。然后,每个分页的TDK(标题、描述、关键词)千万别一模一样,至少标题里要动态带上“第X页”,比如“建站教程 - 第2页”,不然又是重复内容警告。最后,在翻页组件附近,加个显眼的HTML格式的站点地图链接,给蜘蛛指条明路,告诉它“这儿还有更多内容”,别让它空手而归。

我现在已经连夜改回最土最原始的链接分页了,抽了两根烟看着爬虫日志里蜘蛛又开始欢快地爬我的 `/page/2`、`/page/3`,才感觉心跳缓下来。真的,在SEO面前,别玩花的,稳定、清晰、对蜘蛛友好才是王道。什么用户体验,蜘蛛体验不好,你连被用户体验的机会都没有。

相关推荐