页面抓取简单的讲就是你希望哪些页面会被收录,让会去让搜索引擎抓取,但是在现实中不是所有的页面我们希望被抓取的,有些内容是涉及隐私数据。或者是有些内容与某些页面是重复的,这个时候我们也是需要做控制,这也页面不被收录。
但是有的时候情况又很复杂,比如这个页面不希望被抓取,但是页面上的链接希望抓抓取;或者说是当前页面期望被抓取,但是页面上的链接不希望被抓取,但是组合一下情况有很多很复杂。
那么屏蔽搜索引擎抓取页面的方法有哪些,今天就举例一些情况来说明,在讲各种情况之前先回顾下屏蔽抓取的方法有哪些。主要的是robots文件禁止抓取、nofollow标签禁止抓取,一般这两种用的比较多,很少人知道meta标签的方法来禁止搜索引擎抓取,并且这只方法应用其实更加的广泛。
meta标签屏蔽抓取的方法
<meta name="robots" content="noindex,nofollow">//这种方法是屏蔽所有搜索引擎,不抓取当前页面,并且当前页面中的链接也不进行抓取 <meta name="robots" content="index,nofollow">//这种方法是屏蔽所有搜索引擎,抓取当前页面,并且当前页面中的链接不进行抓取 <meta name="robots" content="noindex,follow">//这种方法是屏蔽所有搜索引擎,不抓取当前页面,但是抓取当前页面中的链接
关注公众回复“meta屏蔽”获取代码
如果你想要仅仅是对于某一个搜索引擎生效,那么很简单只要将name=“robots”修改成对应的蜘蛛名字,比如百度搜索引擎修改成name=“Baiduspider”,以此类推是不是很简单,这种方法适用于对使用同一个模板代码的页面可以简单快速做好页面抓取屏蔽的设置,他的优势很好的补偿了robots文件屏蔽方法的不足,因为在robots方法屏蔽抓取的时候,一般是只能通过路径匹配,这个时候其实很多网站有些需要抓取或者不需要被抓取的内容,因为前期代码编写时规划的不好就会混在一个路径下,这个时候通过robots方法屏蔽就变得很麻烦。并且robots方法危险性比较高,有的时候网站更新的时候,如果不慎把robots文件改变了,也是常有的事情。
对于nofollow标签就更加不用说,这种方法适用于页面中链接的抓取屏蔽,局限性就更加的大,一般不会用于大批量的页面屏蔽工作中。