网站镜像简单的讲就是另外一个站点复制了你的站点的内容一份,在搜索引擎上就出现了2个一模一样的站点。对于站长来说这个比抄袭还要恶心,最大的担忧就是抄袭都会对站点的原创性有影响,网站被镜像不就是被整个抄了个遍,那还了得。
首先大家不用过多的恐慌,其实网站被镜像的影响并不会很大,大多数情况下,搜索引擎的技术是可以识别出那个站点是镜像站点,会对镜像站点做出屏蔽处理,不会对你的站点造成影响,当然也有个别的无法自动屏蔽的就需要站点自己去提交申诉。
判定是否屏蔽
首先如果发现了镜像站点,首先确认是否已经被搜索引擎屏蔽,去检查镜像网站的关键词是否有排名展现,是否在正常收录。如果镜像站点数据一切正常就代表还没被搜索引擎识别到,这个时候就需要去申诉。
如何申诉
以百度搜索引擎为例,需要保护自我权益的站点可以向百度投诉(https://www.baidu.com/duty/right.html)提供各种资质证明,会有百度法务部会审核处理。尽可能提供最全最有说服力资质证明,包括且不限于网站备案证明、品牌营业证明等,以帮助工作人员快速判断。
如何发现镜像站点
镜像站点的特点就是,内容与你完全一样,所以可以通过在搜索引擎搜索一些你的站点页面的标题,如果结果中有其他的站点展现,尤其是内容一字不落照抄的就去排查下。
尤其当你点进去查看,看到的不是你的站点的内容,而是其他无关内容,通常是一些未发的内容,这样的站点很有可能就是镜像站点。
镜像站点的原理
很多违规内容的站点是不可能被搜索引擎正常收录,参与排名的,就会去通过镜像其余的站点。然后判定访问的user-agent,如果请求头是搜索引擎蜘蛛访问就会抓取到镜像别的站点的内容达到正常收录,正常用户搜索正常内容来到网站的时候由于请求头不是搜索引擎就会给展现网站的真实内容,达到它的目的。
而我们在搜素引擎搜索页面看到的结果内容是来源于抓取到的快照中的内容,就会出现看到的这类内容,点击进入网站却是别的内容的情况。
这个时候我们可以通过修改浏览器的user-agent为搜索引擎蜘蛛,来访问镜像站点,它就会原型毕露了。
如何避免被镜像
要避免镜像其实非常难,尤其是站点内容是公开访问的站点,镜像站点原理与搜索引擎蜘蛛的原理是一样的。都是通过爬虫来爬取站点,所以只要搜索引擎可以正常爬取就可以被镜像。
也许有人会说可以屏蔽不是搜索引擎user-agent的请求,但是要知道user-agent在爬虫中是可以虽然配置的,并不能作为屏蔽的标准。但是如果按照本人给大家提供思路可以屏蔽大多数技术一般的镜像行为。
防止被镜像的方案
①爬虫可能伪装成搜素引擎蜘蛛,所以可以通过反查识别出假蜘蛛,直接屏蔽处理。
②异常访问ip直接屏蔽,如同一个ip短时间访问大量页面,或者在一段时间内持续的访问大量页面的行为。
③这个是最复杂但是很少有人会使用成本比较高,有的镜像行为放了防止站点屏蔽ip,就会使用大量的代理ip将请求分散到不同的ip上,这类就很难被鉴别。
终极方案,首先对于任何请求头是搜索引擎蜘蛛都要进行反查,如果是假蜘蛛的直接屏蔽ip;然后短时间访问大量页面的按照上面讲到的进行屏蔽处理;同时建立搜索引擎ip白名单库,针对出现第三种ip很分散,但是有大量页面再被访问的时候,除了是白名单ip,全部通过进行验证码的方式来鉴别人机,验证码一定要复杂。这样基本上站点的内容就比较安全的了。