HTTP/HTTPSHTTP(Hyper Text Transfer Protocol):超文本传输协议。规定万维网服务器与欣赏器之间信息通报规范。 URLURL(Universal Resource Locator):同一资源定位符。互联网上的每个文件都有一个唯一的URL。 HTTP哀求过程在欣赏器输入URL按下回车便是通过欣赏器向网站服务器发送了一个哀求。网站服务器吸取到这个哀求后举行处理处罚,然后返回对应的相应给欣赏器。欣赏器再对收到的相应剖析,将网页出现出来。 在Chrom欣赏器中,右键选择【查抄】,即可打开欣赏器的开发者工具,选择“NetWork”条目。输入百度的URL回车,观察这个网络哀求的过程。
我们只输入了一个URL却看到连续串的哀求。这是由于欣赏器收到相应后,就开始剖析此中的html代码,碰到js/css/image等静态资源时,就向服务器端去哀求下载。好比点击bd_log1.png这个哀求,然后点击Preview可以看预览,就是百度的logo。参考 General部分包罗URL、哀求方法、相应状态码、远程服务器地点端口。哀求方法常用的有两种:GET和POST。告急区别是GET哀求中的参数包罗在URL中(最多1024字节),可以在URL中看到。而POST哀求以表单的情势传输参数,参数包罗在哀求体中,巨细无穷制。 Request Headers哀求头Accept:阐明客户端可以担当哪些范例的信息。
直接用python哀求时默以为:
有的网站通过辨认 User-Agent 拒绝爬虫,以是可以本身设置User-Agent伪装成欣赏器。 Cookie:网站为了辨别用户举行会话跟踪而存储在用户当地的数据。好比登录了一个网站,服务器给你设置了Cookie,以后只要在哀求中到场Cookie,服务器就知道你已经登录过了,不消重新登录就可以继承访问了。 哀求体:一样平常是POST哀求中的表单数据,而GET哀求体为空。 Response Headers相应头
相应体:html代码大概下载文件的二进制数据。点击“Preview”,就可以看到相应体的内容,它也是剖析的目的。 ! |