网站内容被采集是很多站点的困扰,对于网站的有效效果影响非常之大,但是又无法完成的避免,我们能做的就是尽可能的去保护原创,毕竟只要内容可以被公开访问,那么必然无法100%的防止内容被采集,之前也已经普及了很多防止被采集的技术手段,但是今天分享一个能加简单巧妙的防止网站内容被采集的手段。
被采集的影响
网站内容被采集对于站点影响,主要在于内容的原创度上的影响,短期影响内容的收录排名,长期会影响站点的评价值。
对于搜索引擎站点输出高质量稀缺性的原创内容是seo优化的关键点,但是对于搜索引擎判断内容的原创只能通过内容的抓取先后顺序来确定。然而站点的抓取速度收录时间与站点的质量密切相关,就会出现站点的原创内容被其他站点采集之后,反而凭借站点的优势优先获得收录。
如何防止被采集
之前分享过如何通过识别屏蔽恶意抓取行为,这种方法虽然还是比较不错的,但是如果技术能力强一点的采集行为,只要通过大量代理ip分时段采集还是很难被识别的。所以建议大家结合今天的防采集方法,两者结合可以获得更好的效果。
要更彻底的防止采集,那么最好的方法就是让内容消失,增加访问难度,没有访问入口自然很难被采集到。
内容防止采集方案
今天分享内容防采集方案,是通过隐藏内容的入口的来实现的,失去了采集的入口地址,那么在强的技术通过蜘蛛爬取基本上就很难实现的。
内容部分可见
蜘蛛可以爬取到整个网站的内容,首先可以确认的是站点的结构非常的科学,搜索引擎可以不依靠连接提交,从页面的导航、内链等形成全面的抓取环,实现整个站点内容的抓取。而恶意采集与搜索引擎的蜘蛛的抓取原理是一致的,自然也可以采集到整个站点的内容。
所以,在页面我们智能展示一小部分的内容,比如栏目页只展示有效的内容,事实上很多站点的各个栏目主要不断的加载就可以获取到整个站点的内容。另外在详情页很多网页都喜欢显示上下篇内容,这个也是需要去掉的,首先上下篇内容与本文不一定有内容关联性,反而通过页面轮询可以抓取到所有的内容。
内容防预测
假如你的站点做到了上面一点,智能说出具了放抓取的条件,但是很多站点的内容的url的布局就是‘域名/栏目/id’,比如文章的地址‘chateach.com/seo/222’,这就存在严重的问题。
首先一个站点的栏目是有限的很容易获得,即使把网站内容入口隐藏,但是页面url位置的部分知识id部分,可以通过暴力枚举去抓取,依然可以快速的抓取到内容的入口。而且基本上没有任何的技术难度。
要解决这个问题也是非常的简单,可以在id后面添加一个随机数,或者创建内容的时候,可以手动自定义一些内容,比如把关键词的拼音的缩写添加进去,在利于seo的同时又起到了页面加密的效果,有了随机内容的小尾巴,暴力轮询抓取基本上没戏。
屏蔽入口seo的影响
看到这里问题来了,防住了恶意蜘蛛的抓取,同样的也防住了搜索引擎蜘蛛的内容抓取,但是对于大多数搜索引擎都支持sitemap方式提交连接,所以问题不大。站点首先把sitemap的路径要做的足够的复杂,同时不要对外公开,及时通过sitemap网站地图的方式提交就可以帮助搜索引擎对全站内容进行抓取。
对用户体验的影响
首先用户基本是通过搜索引擎搜索进入到站点的,而只要网站的内容抓取收录正常,对用户不会有任何的影响。对于直接访问站点的用户,正常人不会一篇篇文章看过去,基本就是看下最新的内容,然后通过站点搜索来获取需要的内容。
而屏蔽部分内容入口对于搜索引擎和用户的浏览体验基本上是没有任何的影响的,这个方案是目前想到的一个比较好的方法,关注我有了更好的方法会推送给大家。