百度飓风算法主要是打击恶劣采集拼凑行为,保护原创作者的权益,提升用户的阅读体验,促进搜索引擎生态的健康发展。
现如今的互联网抄袭已经泛滥了,在搜索引擎搜索展现的结果,都是相似的内容,甚至是一摸一样的内容,非常恼人浪费时间看相同的内容严重的伤害了用户体验。
如果不对这种采集抄袭的行为做一个控制,那么不久的将来不在会有新内容的输出。那么飓风算法主要打击哪些行为呢?
直接采集
这种采集是最低级的,基本就是对内容进行一个复制粘帖,不做任何的修改。因为网页是存在样式和排版的,这种采集方式会出现排版混乱,阅读起来非常的困难。
内容拼接
直接采集很容易被识别,就进行内容拼接,简单的讲就是同一个页面的内容,从几个不同站点抄袭过来。
这种方式抄袭行为其实还是很容易识别的的,因为页面的任何一段内容在网上都可以找到相似的。并且这种方式构成的页面,会有点狗屁不通,牛头不对马嘴,上下文的缺乏关联性。
伪原创
这是一种动脑子的抄作业行为,伪原创分为机器和人工。机器伪原创,就是把页面中的某些词语换成近义词或相关的关键词,不要被所谓的AI忽悠,汉语博大精深,短期内基本上不可能出现那么给力的AI。人工伪原创就高级了,做到极致就是洗稿了,但是这个所花的时间不出自己原创少。
所有采集都会打击
飓风算法定义中写到的是打击恶劣采集,所以说并不是所有采集行为都会被打击。飓风算法打击采集的目的是为了内容的生态,如果采集行为是为了创造出更加价值的内容也是可以的。
很多有用信息都是散落在不同站点,如果一个站点采集了所有相关信息,并且整个成了一个更有价值的内容,当然在侵犯版权的前提下。显然对于搜索引擎和用户都是需要这样的内容的,用户可以省去大量时间,直接获得最优解。
另外很多实现性新闻报道,虽然站点直接直接同步发送。但是这种行为可以让覆盖更多的人群,最短时间让最多的知道。显然正向价值更大。
跨域采集
跨域采集在任何条件下都是不被允许的,那个站点都应该是有一个明确的领域,即使是综合类站点也是需要有一个明确的领域范围。
即使不是采集的内容,原创发布的内容跨领域了也是不被允许。对于一般站点,领域不要超过2个,并且这两个领域也是要存在一定的关联性。
这点是很多站点存在的问题,没有一个明确的主题,那么注定站点的中心分散,会导致核心关键词权重分散,也很难进入行业的上层位置。