Skip to content


被百度清除站点的经验教训

话说,上周日晚上多多网改版升级,因为期间web服务器发生了点故障,(原来两台服务器,一个做数据库、一台做web服务器),为了应急,临时将原web服务器上的数据全转也移到数据库服务器上,这样虽然一台服务器负载很大,但至少可以正常访问。

因为换了服务器,域名解析也要跟着改,最终忙活了10个多小时(晚9点到早7点)网站才可以正常访问,虽然速度很慢。祸不单行,第二天早上,我就发现,多多问答已经被百度清零。这可不是一个小事情,多多问答也算是个大频道,于是我立刻分析被百度k的原因。

现象:1、多多网其他页面被正常收录,唯独问答频道被清零;2、google的收录正常,无异常问题。

推测原因:1、域名解析换ip造成,百度爬虫出现问题,不能正常抓取多多问答的内容,造成清零或降权;2、服务器当机时间太长,造成百度爬虫不能正常读取内容,造成清除站点;3、新版多多问答页面html有所改版,大量的页面板式同时改变,可能被百度认为在作弊。

根据情况分析,因为百度没有除名其他频道页面,那也就是说百度并没有认为多多网在作弊(有的话,也仅是问答频道),另外如果是因为页面改版的话,那么其他频道也应该有影响才对。所以推断原因是:百度给多多问答的权重极高,抓取频率高,长时间的当机,会造成他们临时把收录页面“归零”。

采取行动:1、修改页面html,尤其是meta和title保证和原页面meta信息一致;2、恢复网站的访问速度;3、等待~

结果这周六的时候,惊喜发现百度已经恢复了对多多问答收录,带来的流量也正常了。长出了一口气啊,本事故的教训是,网站改版,尤其是大幅度改版是,最好还是先研究下搜索引擎爬虫过来抓取页面的时间和规律,尽可能避开爬虫抓取的时段,不能被爬虫误以为是你当机了,(我推测,百度爬虫对当机是有判断的,如果他们连续N次不能读到网站内容的话,就断定为服务器当机,严重时,就暂停展示该网站的结果,避免用户搜索到结果后,却不能正常打开页面的现象发生

Posted in 产品运营. Tagged with .

0 Responses

Stay in touch with the conversation, subscribe to the RSS feed for comments on this post.

Some HTML is OK

(required)

(required, but never shared)

or, reply to this post via trackback.