手贱数了下网站页面,结果发现一半都是404,我人麻了...

我真是服了,天天盯着百度站长平台看收录上不去,以为是外链不行或者文章质量差,结果前两天深夜失眠手贱用那个免费的站点分析工具跑了一下,好家伙,我自己以为精心维护的“几百个”页面,真正有内容能被搜索引擎算作独立页面的,连五十个都不到!剩下全是些什么鬼?动态参数生成的不同排序页面、标签页无限翻页后面那些根本没内容的页码、还有早就删了但链接还散落在犄角旮旯的旧文章,蜘蛛爬进来就跟进了迷宫一样,权重分得稀碎,真正想排名的核心页面反而饿死了。我真想给自己一巴掌。

以前从来没想过要好好“数一数”自己的站,总觉得把文章发出去就完事了。直到那次网站改版,凌晨4点收到服务器报警邮件说爬虫请求暴涨把CPU干满了,查日志才发现,一个早已废弃的“按日期归档”功能,被蜘蛛疯狂爬取几千个根本没内容的日期链接页面。这就是典型自己给自己挖坑,不数不知道,一数吓一跳。

所以到底怎么数?千万别信后台文章数量那个数字,那纯属自嗨。你得站在搜索引擎蜘蛛的角度去数。

最傻瓜也最有效的方法:直接用各大搜索引擎的 site 命令,比如“site:你的域名.com”。看看它到底收录了多少,那个数虽然不准(有些显示未收录),但极具参考价值,如果和你预想的差十倍,那你就要出冷汗了。

进阶一点,上工具。尖叫青蛙这类爬虫工具,把你的网站扔进去让它爬,它能给你拉出一个所有URL的清单,告诉你哪些是200正常页,哪些是404死链,哪些被robots屏蔽了,哪些页面标题(TDK)重复了。看着那份报告,你会对自己网站的“真实规模”和“健康状态”有全新认知,真的,全是泪。

还有更硬核的:分析网站服务器日志。看真实的百度蜘蛛、谷歌爬虫到底在你的站上爬了哪些页面,爬了多少次。有时候你以为重要的页面,蜘蛛可能根本不鸟;一个你完全忽略的角落,它可能反复爬。这能帮你精准优化爬行预算,别让蜘蛛在垃圾页面上浪费体力。我当时就是看了日志才发现,蜘蛛老在一个无关紧要的“关于我们”分页上打转。

数页面不是目的,目的是通过“数”这个动作,进行一次彻底的网站SEO审计。把那些没价值的、重复的、错误的页面清理掉(做404或301),把权重集中到核心内容上。这比你去买一堆垃圾外链(快排)有用一万倍。别问我怎么知道的,这都是血和学费换来的教训。

赶紧去数数吧,数完你可能就笑不出来了。但总比网站被降权了都不知道为啥强。抽根烟,冷静一下。

相关推荐