手贱把xml地图地址写进Robots了?恭喜你离收录归零又近了一步!

草!谁特么当初跟我说新站上线第一件事就是提交sitemap?我吭哧吭哧搞了个插件自动生成XML(对,别用TXT,那玩意儿百度不太认),然后...然后我特么居然把本地路径放上去了!就是那种 /wp-content/xxx/sitemap.xml,然后乐呵呵去百度搜索资源平台提交,结果蜘蛛抓取诊断直接给我报404,抓个屁啊!凌晨四点收到报警邮件说索引量暴跌,我特么盯着那一排红色的抓取失败记录,抽了三根烟才想明白,这玩意儿得是能公开访问的绝对URL啊兄弟

流程?流程就是先确保你的地图文件(sitemap_index.xml 或者 sitemap.xml)能通过 https://你的域名/sitemap.xml 这种格式直接打开,别整那些花里胡哨的目录深藏不露,蜘蛛很懒的。然后,重中之重:去你网站根目录底下那个Robots.txt文件里,加一行 Sitemap: https://你的域名/sitemap.xml 。这步千万不能省,这叫给蜘蛛指条明路。最后才是去百度搜索资源平台或者Google Search Console的后台,找到那个提交sitemap的入口,把上面的完整网址贴进去。完事?不,这才刚开始。

你以为提交了就高枕无忧了?我见过最骚的操作是Robots里把sitemap的目录给Disallow了,自己把自己的路给堵了,属于是左右互搏终极版。还有那种地图里包含了一大堆被Robots屏蔽的页面URL,或者URL里面带了乱七八糟的参数导致无限循环,这种地图提交了不如不提交,纯属给蜘蛛喂垃圾信息,搞不好还会被判断成网站结构混乱然后降权。真的,地图这玩意儿,原理就是给搜索引擎一个你网站所有页面的“清单”,你清单写得清楚、路也指得明白,它来抓取就高效。但你清单要是自己都写错了,或者指的路是堵死的,那不就是纯纯的行为艺术吗?

对了,如果你用的WordPress,别用那些生成器生成完了就丢那不管,内容一更新地图就得跟着更新,不然蜘蛛老是来翻你的旧清单,新页面它永远不知道。有些插件能自动更新,但记得检查它生成的格式对不对。手动党的话,可以去 XML-Sitemaps.com这个保命网站 在线生成,下载了传到你根目录。传完了?赶紧的,照我上面说的,检查三遍Robots,检查三遍是否能公开访问,然后麻溜地去搜索平台提交。别再犯我那种低级错误了,真的,看着索引量从零开始爬的那个滋味,比失恋还难受。

(别问我怎么知道的,都是血泪。现在?现在我每隔一周都要看一遍地图的提交状态和抓取统计,都快成PTSD了。)

相关推荐