UserAgent是什么?
UserAgent 用户代理(俗称
UA)在计算机科学中指的是代表用户行为的程序(软件代理程序)。例如,网页浏览器就是一个“帮助用户获取、渲染网页内容并与之交互”的用户代理;电子邮件阅读器也可以称作邮件代理。而在会话发起协议(SIP)中,用户代理指代的是一个通信会话的所有两个终端。
在很多场合,用户代理作为一个主从式架构的分布式计算系统中的通信所用网络传输协议的客户端而行为。特别是在HTTP中指定要求发起请求的客户端软件要使用一个“User-Agent”请求表头,即使在客户端不由用户操纵的时候。SIP协议(基于HTTP)沿用了这一用法。
UserAgent通常包含什么信息?
该字符串通常包含了应用程序类型、操作系统、软件供应商……等等,有时还会包含软件修订版本等信息。移动设备常包含手机品牌,手机型号,系统版本等。微信环境下可以看出网络连接类型。
User-Agent什么时候需要手动设置?
User-Agent是HTTP协议中默认传递的header参数,一般不需要手动设置。当网络抓取被服务器拒绝或不想让对方服务器探测真实设备信息时,需要手动设置该参数.设置方法见(UA设置方法)
服务器一般通过什么方式拒绝爬虫抓取?
海外网站通常使用robots.txt文件,设置网络抓取工具对网站的部分访问与否,而其设置标准之一就是用户代理字符串。换句话说,借由robots.txt文件的设置,可以让网站不能被特定的浏览器访问。
API接口服务器可以通过配置阻止爬取。不过客户端更改UA后,这些方案全不会失效。设置方法参考(禁用爬虫设置)