设为首页 收藏本站
开启辅助访问 快捷导航
菜单
猿人部落 主页 资讯 查看内容

爬虫基础:HTTP基本原理

2019-7-26 17:53 发布者: zhuimengmayi 评论 0 查看 1091
HTTP/HTTPS HTTP(Hyper Text Transfer Protocol):超文本传输协议。规定万维网服务器与欣赏器之间信息通报规范。 H

HTTP/HTTPS

HTTP(Hyper Text Transfer Protocol):超文本传输协议。规定万维网服务器与欣赏器之间信息通报规范。
HTTPS(Hyper Text Transfer Protocol over Secure Socket Layer)是以安全为目的的HTTP协议,简单地讲就是HTTP的安全版,到场了SSL加密层。

URL

URL(Universal Resource Locator):同一资源定位符。互联网上的每个文件都有一个唯一的URL。
格式:传输协议+域名+端标语+路径+文件名

HTTP哀求过程

在欣赏器输入URL按下回车便是通过欣赏器向网站服务器发送了一个哀求。网站服务器吸取到这个哀求后举行处理处罚,然后返回对应的相应给欣赏器。欣赏器再对收到的相应剖析,将网页出现出来。

在Chrom欣赏器中,右键选择【查抄】,即可打开欣赏器的开发者工具,选择“NetWork”条目。输入百度的URL回车,观察这个网络哀求的过程。
在这里插入图片形貌

  • 第一列Name:哀求的名称,一样平常会将URL的末了一部分内容当作名称。
  • 第二列Status:相应的状态码,200代表正常,403代表克制访问,404代表未找到……
  • 第三列Type:哀求的文件范例。document代表html文档,另有png、gif图片,script脚本等。
  • 第四列Initiator:哀求源。用来标记哀求是由哪个对象或进程发起的。
  • 第五列Size:从服务器下载的文件资源巨细。如**KB,disk cache代表从磁盘中获取,memory cache代表从内存中获取。参考
  • 第六列Time:从发起哀求到得到相应的总时间。

我们只输入了一个URL却看到连续串的哀求。这是由于欣赏器收到相应后,就开始剖析此中的html代码,碰到js/css/image等静态资源时,就向服务器端去哀求下载。好比点击bd_log1.png这个哀求,然后点击Preview可以看预览,就是百度的logo。参考
在这里插入图片形貌
点击一个条目,可以看到具体信息。
在这里插入图片形貌

General部分包罗URL、哀求方法、相应状态码、远程服务器地点端口。

哀求方法常用的有两种:GET和POST。告急区别是GET哀求中的参数包罗在URL中(最多1024字节),可以在URL中看到。而POST哀求以表单的情势传输参数,参数包罗在哀求体中,巨细无穷制。

Request Headers哀求头

Accept:阐明客户端可以担当哪些范例的信息。
User-Agent:使服务器辨认客户利用的利用体系、欣赏器及版本等信息。比方:

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36

直接用python哀求时默以为:

User-Agent: Python-urllib/3.7

有的网站通过辨认 User-Agent 拒绝爬虫,以是可以本身设置User-Agent伪装成欣赏器。

Cookie:网站为了辨别用户举行会话跟踪而存储在用户当地的数据。好比登录了一个网站,服务器给你设置了Cookie,以后只要在哀求中到场Cookie,服务器就知道你已经登录过了,不消重新登录就可以继承访问了。

哀求体:一样平常是POST哀求中的表单数据,而GET哀求体为空。

Response Headers相应头

  • Date:相应的日期时间
  • Sever:包罗服务器的信息,名称、版本号等。如BWS/1.1应该是Baidu Web Sever百度研发的web服务器。常见的另有Apache、IIS等。
  • Set-Cookie:设置Cookie。告诉欣赏器下次哀求携带Cookie内容。

相应体:html代码大概下载文件的二进制数据。点击“Preview”,就可以看到相应体的内容,它也是剖析的目的。



路过

雷人

握手

鲜花

鸡蛋
收藏 邀请
上一篇:如何为移动开发选择技术栈?下一篇:servlet基础(生命周期,继承基础)

相关阅读

一周热门

头条攻略!

日排行榜

相关分类