猿人部落 › 主页 › 资讯 › 查看内容

爬虫基础：HTTP基本原理

2019-7-26 17:53 发布者: zhuimengmayi 评论 0 查看 1111

HTTP/HTTPS HTTP（Hyper Text Transfer Protocol）：超文本传输协议。规定万维网服务器与欣赏器之间信息通报规范。 H

HTTP/HTTPS

HTTP（Hyper Text Transfer Protocol）：超文本传输协议。规定万维网服务器与欣赏器之间信息通报规范。
HTTPS（Hyper Text Transfer Protocol over Secure Socket Layer）是以安全为目的的HTTP协议，简单地讲就是HTTP的安全版，到场了SSL加密层。

URL

URL（Universal Resource Locator）：同一资源定位符。互联网上的每个文件都有一个唯一的URL。
格式：传输协议+域名+端标语+路径+文件名

HTTP哀求过程

在欣赏器输入URL按下回车便是通过欣赏器向网站服务器发送了一个哀求。网站服务器吸取到这个哀求后举行处理处罚，然后返回对应的相应给欣赏器。欣赏器再对收到的相应剖析，将网页出现出来。

在Chrom欣赏器中，右键选择【查抄】，即可打开欣赏器的开发者工具，选择“NetWork”条目。输入百度的URL回车，观察这个网络哀求的过程。
在这里插入图片形貌

第一列Name：哀求的名称，一样平常会将URL的末了一部分内容当作名称。
第二列Status：相应的状态码，200代表正常，403代表克制访问，404代表未找到……
第三列Type：哀求的文件范例。document代表html文档，另有png、gif图片，script脚本等。
第四列Initiator：哀求源。用来标记哀求是由哪个对象或进程发起的。
第五列Size：从服务器下载的文件资源巨细。如**KB，disk cache代表从磁盘中获取，memory cache代表从内存中获取。参考
第六列Time：从发起哀求到得到相应的总时间。

我们只输入了一个URL却看到连续串的哀求。这是由于欣赏器收到相应后，就开始剖析此中的html代码，碰到js/css/image等静态资源时，就向服务器端去哀求下载。好比点击bd_log1.png这个哀求，然后点击Preview可以看预览，就是百度的logo。参考
在这里插入图片形貌
点击一个条目，可以看到具体信息。

General部分包罗URL、哀求方法、相应状态码、远程服务器地点端口。

哀求方法常用的有两种：GET和POST。告急区别是GET哀求中的参数包罗在URL中（最多1024字节），可以在URL中看到。而POST哀求以表单的情势传输参数，参数包罗在哀求体中，巨细无穷制。

Request Headers哀求头

Accept：阐明客户端可以担当哪些范例的信息。
User-Agent：使服务器辨认客户利用的利用体系、欣赏器及版本等信息。比方：

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36

直接用python哀求时默以为：

User-Agent: Python-urllib/3.7

有的网站通过辨认 User-Agent 拒绝爬虫，以是可以本身设置User-Agent伪装成欣赏器。

Cookie：网站为了辨别用户举行会话跟踪而存储在用户当地的数据。好比登录了一个网站，服务器给你设置了Cookie，以后只要在哀求中到场Cookie，服务器就知道你已经登录过了，不消重新登录就可以继承访问了。

哀求体：一样平常是POST哀求中的表单数据，而GET哀求体为空。

Response Headers相应头

Date：相应的日期时间
Sever：包罗服务器的信息，名称、版本号等。如BWS/1.1应该是Baidu Web Sever百度研发的web服务器。常见的另有Apache、IIS等。
Set-Cookie：设置Cookie。告诉欣赏器下次哀求携带Cookie内容。

相应体：html代码大概下载文件的二进制数据。点击“Preview”，就可以看到相应体的内容，它也是剖析的目的。

！

路过

雷人

握手

鲜花

鸡蛋

收藏邀请

上一篇：如何为移动开发选择技术栈？下一篇：servlet基础（生命周期，继承基础）

爬虫基础：HTTP基本原理

HTTP/HTTPS

URL

HTTP哀求过程

General部分包罗URL、哀求方法、相应状态码、远程服务器地点端口。

Request Headers哀求头

Response Headers相应头

相关阅读

楼主最新发表

一周热门

头条攻略!

日排行榜

相关分类

添加客服微信

电子邮件