资源站想被收录?先问问百度谷歌的「敏感词库」同不同意,我TM差点被封IP...

淦!别提了兄弟,说多了都是泪。我去年搞的那个聚合资源站,美剧电影小说教程啥都有的那个,你猜怎么着?上线三个月,收录是零,一个页面都没!不是沙盒期,是蜘蛛(spider)它压根儿就不来啊!我一度以为我服务器屏蔽了爬虫IP,检查了三天三夜,最后在日志里发现,百度蜘蛛来过,但每次访问时长就0.1秒,状态码全是403,我当场就懵了。

后来花了五百块钱找了个专门处理「疑难杂症」的老哥远程看了一眼,人家两分钟就给我判了死刑:「你这页面全是动态参数,URL长得跟老太太的裹脚布一样,还一堆?&=,关键词堆得比山高,内容全是框架调用和跳转,不K你K谁?蜘蛛进去以为进了迷宫加垃圾场,不跑等着过年吗?」 真的,我当时盯着屏幕,感觉三个月头发白掉了。

所以,听哥一句劝,资源站想被收录,尤其是百度,第一关根本不是SEO技术,是「合规性」和「可抓取性」。你首先得让蜘蛛觉得你这是个「正经站」,哪怕你内容不那么正经。几个血泪教训:

1. URL给我弄干净! 别用乱七八糟的会话ID、无意义的参数。伪静态也好,纯静态也好,弄成 /resource/xxx.html 这种样子。蜘蛛不认识「?」后面的世界,甚至可能直接放弃。
2. Robots.txt 别乱写! 我之前手贱,把一些登录页、动态脚本路径全Disallow了,结果不小心把CSS和JS样式文件也给禁了,蜘蛛爬回来的页面是个光秃秃的文本,它当然认为这是个垃圾页面。这里有份保命文档,(检查你的Robots和爬虫模拟),自己对着看。
3. 内容!哪怕你是聚合,也给我弄点「实体内容」! 别整个页面就一个搜索框。学聪明点,在详情页加点「影片简介」、「作者信息」、「格式说明」,哪怕只有两三行纯文字,也比空空如好。这叫给蜘蛛「抓取锚点」。
4. 死链和404管好! 资源站最容易失效,失效链接立刻返回标准404,然后提交死链。别让蜘蛛一直掉进黑洞,它会觉得你这个站全是陷阱,下次就不来了。
5. 最重要的:控制提交频率和隐蔽性! 新站别一天提交几万条URL到百度站长平台,那跟自首没区别。慢慢来,先提交最重要的首页和分类页,等收录了,有少量流量进来了,再通过Sitemap慢慢增加。外链建设?憋着! 没任何权重前,别去任何论坛、博客乱留链接,那等于在自己门口贴小广告,告诉算法「这是个垃圾站,快来查我」。

最后,如果你做的是那种游走在灰色地带的资源站,做好心理准备,收录了也可能随时掉光,甚至整站被K。我这站后来改头换面,清理了明显侵权信息,加了点原创评测,又等了两个月,才勉强收了首页。现在每天战战兢兢,生怕哪天早上一看,统计后台那条线又平了。这行,现在纯纯是刀尖上跳舞,用爱发电。祝你好运吧,兄弟,我再去抽根烟冷静下。

相关推荐