上一期我们讲到了《为什么搜索结果和实际显示内容不一样?》,这是因为网站对于不同HTTP请求头也就是User-Agent,返回了不同的页面。
本期讲讲如何通过修改浏览器User-Agent去访问网页。修改User-Agent的方法有很多,今天讲一个最简单的,几步就可以实现的方法去修改User-Agent。潘某人SEO演示使用的是谷歌浏览器,其它浏览器操作方法也是一样的。
如何修改User-Agent
第一步,打开谷歌浏览器按下键盘的F12按键,打开浏览器的开发者工具调试窗口选择Network选项卡。第二步,如下图所示点击开发者工具的右上角–>More tools–>Network conditions。完成这两步那么已经成功了一半了。
第三步,就是去掉“Use browser default"选项,默认是勾选上的。然后就是下方的下拉框我们选择custom,当然可以在下拉框中选择常见的浏览器user-agent。
但是如果想要自定义user-agent,那么必须选择custom,然后如上图红色输入框中输入期望的user-agent信息即可。经历了以上几步就已经完了。
第四步,在浏览器地址栏输入你需要访问的网页就可以使用你自定义的user-agent进行访问,需要注意的是不能关闭浏览器调试窗口,否则又会以浏览器默认设置进行访问。
访问爬虫页
学会修改浏览器user-agent之后,就可以访问站点的爬虫页,前提访问的站点对普通用户和爬虫设置了不同页面。
确认搜索引擎user-agent
移动UA:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
或
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
PC UA:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
或
Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
小程序UA:
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)
2
3
4
5
6
7
8
9
10
11
12
上述为百度搜索引擎的各种蜘蛛的UA,为移动、PC、和小程序三个应用场景,无需把整个UA作为user-agent,找出各个UA的共同部分即可,此处可以直接用“baiduspider”修改为user-agent,一般来说不区分大小写。
站点识别的时候不会使用精确匹配,所以设置的泛一点即可,其他的搜索引擎也是如法炮制,或者可以直接使用“spider”作为关键字,可以直接匹配半数以上的搜索引擎蜘蛛名。