20+ 案例 & 可接单级项目,整体提升爬虫实战能力 本课程从 0 到 1 构建完整的爬虫知识体系,精选 20 + 案例,可接单级项目,应用热门爬虫框架 Scrapy、Selenium、多种验证码识别技术,JS 逆向破解层层突破反爬,带你从容抓取主流网站数据,掌握爬虫工程师硬核技能。 你将会学到: 1. 完整的爬虫学习路径 2. 5 种图像识别技术搞定验证码 3. 20+ 案例,接单级实战项目 4. 满足应对网站爬取的N种情况 5. 15+逆向破解技术对抗反爬 6. 掌握面试必备的爬虫技能技巧 适合人群 有 Python 基础,爬虫零基础学员 在校大学生 / 创业者 / 对爬虫开发感兴趣人员 急需提升爬虫开发能力的爬虫工程师 技术储备 Python 语法基础 环境参数 Python 3 试看连接:https://pan.baidu.com/s/1_j1rMAQfkI-4H2Cb2mz8dg?pwd=zlbn 章节目录: 第1章 走近 Python 爬虫开发 5 节|24分钟 收起 视频: 1-1 爬虫能解决什么问题 试看 11:15 视频: 1-2 为什么要学习 python 爬虫开发 试看 03:07 视频: 1-3 课程内容介绍、学习目标 试看 05:56 图文: 1-4 欢迎加入QQ学习交流群 视频: 1-5 【必看】行有行规,爬虫有虫规 03:20 第2章 爬虫开发,你准备好了吗? 3 节|22分钟 收起 视频: 2-1 环境准备:搭建爬虫开发环境 09:06 视频: 2-2 方法准备:好的学习方法,让编程事半功倍 07:03 视频: 2-3 心态准备:克除浮躁,港大学霸带你一路坚持下去 05:23 第3章 如何及时抓取最新的网页数据? 4 节|28分钟 收起 视频: 3-1 爬虫请求的基础:HTTP 基础知识 10:20 视频: 3-2 Requests 模块请求网页数据 06:18 视频: 3-3 携带 Headers 请求头,模拟真人请求 05:11 视频: 3-4 设置 Proxy 代理 IP,突破 IP 封锁 05:56 第4章 如何提取网页数据? 10 节|115分钟 收起 视频: 4-1 如何提取网页关键数据? 03:09 视频: 4-2 第一种方法:正则表达式解析数据 06:47 视频: 4-3 【补充】正则表达式语法基础(一) 17:46 视频: 4-4 【补充】正则表达式语法基础(二) 15:03 视频: 4-5 【实战】 电影天堂:爬取电影详情页 15:05 视频: 4-6 【实战】 电影天堂:全站分页数据爬取 10:56 视频: 4-7 第二种方法:XPath 解析数据 07:23 视频: 4-8 【补充】XPath 语法基础 19:20 视频: 4-9 【实战】纵横中文网:爬取小说详情页 10:40 视频: 4-10 【实战】纵横中文网:排行榜全部小说爬取 08:46 第5章 如何存储抓取到的数据? 8 节|52分钟 收起 视频: 5-1 如何持久化存储数据?主流的数据存储方式? 06:46 视频: 5-2 MongoDB 数据库概述 03:53 视频: 5-3 MongoDB 安装配置(MacOS) 07:46 视频: 5-4 MongoDB 安装配置(Windows) 04:48 视频: 5-5 Python 连接 MongoDB 数据库 10:10 视频: 5-6 【实战】豆瓣网:爬取电影排行榜数据 09:36 视频: 5-7 【实战】豆瓣网:获取下滑加载的翻页数据 04:43 视频: 5-8 【实战】豆瓣网:将数据存入 MongoDB 数据库 04:10 第6章 Scrapy 框架快速爬取海量数据 13 节|79分钟 收起 视频: 6-1 如何高效爬取海量数据? 03:25 视频: 6-2 第一个 Scrapy 爬虫项目 07:16 视频: 6-3 Scrapy 框架架构梳理 04:11 视频: 6-4 Scrapy + XPath 解析数据 06:14 视频: 6-5 通过 Pipelines 管道实现数据保存 05:43 视频: 6-6 Scrapy + MongoDB 数据持久化存储 03:07 视频: 6-7 Middleware 中间件,处理引擎与下载器之间的请求及响应 05:07 视频: 6-8 Scrapy 伪装爬虫手段一:设置动态 User-Agent 03:25 视频: 6-9 Scrapy 伪装爬虫手段二:设置代理 IP 02:43 视频: 6-10 【实战】豆瓣图书:Scrapy + 伪装爬虫爬取新书速递 11:18 视频: 6-11 【实战】豆瓣图书:新书速递数据解析、存储 10:50 视频: 6-12 CrawlSpider 爬虫,为全站爬取而生的 Scrapy 爬虫子类 06:44 视频: 6-13 【实战】聚美优品:CrawlSpider 爬取并储存商品信息 08:52 第7章 Scrapy-Redis 分布式爬虫,让爬取效率更高 10 节|69分钟 收起 视频: 7-1 如何让爬取效率更高? 02:27 视频: 7-2 什么是 Scrapy-Redis 分布式爬虫? 06:26 视频: 7-3 Redis 数据库概述 03:03 视频: 7-4 Redis 数据库安装配置(MacOS) 04:00 视频: 7-5 Redis 数据库安装配置(Windows) 04:20 视频: 7-6 Python 操作 Redis 数据库 10:29 视频: 7-7 从零实现一个简单的分布式爬虫 14:54 视频: 7-8 Redis 数据保存至 MongoDB 数据库 05:20 视频: 7-9 【实战】京东商城:分布式爬虫(一) 13:25 视频: 7-10 【实战】京东商城:分布式爬虫(二) 04:27 第8章 Scrapy + Selenium 框架模拟登录 9 节|53分钟 收起 视频: 8-1 通过 Cookie 和 Session 实现用户登陆的原理 05:57 视频: 8-2 模拟登录方法一:Requests 模块 + Cookie 实现登录 06:07 视频: 8-3 Cookie + Session 实现登录并获取数据 06:27 视频: 8-4 模拟登录方法二:Selenium 实现自动化登录 02:47 视频: 8-5 【补充】Selenium 基础:安装配置 05:51 视频: 8-6 【补充】Selenium 基础:元素定位方法 07:40 视频: 8-7 【补充】Selenium 基础:元素交互 05:52 视频: 8-8 Scrapy + Selenium 实现登录 04:56 视频: 8-9 Scrapy + Selenium 登录后抓取数据 06:24 第9章 OpenCV 图像识别技术搞定验证码识别之前置基础 8 节|43分钟 收起 视频: 9-1 什么是 OpenCV 图像识别技术? 02:36 视频: 9-2 OpenCV 图像基础操作 05:26 视频: 9-3 修改图像像素与色彩 06:15 视频: 9-4 修改图像 region of interest 指定区域 02:35 视频: 9-5 图像数值运算、二值化处理 09:27 视频: 9-6 图像平滑处理 03:17 视频: 9-7 形态学图像处理 07:48 视频: 9-8 滑块验证码的基础:模版匹配 04:39 第10章 OpenCV 图片验证码识别与滑块验证码识别 10 节|60分钟 收起 视频: 10-1 百度 OCR 文字识别云服务 05:45 视频: 10-2 【实战】维普网:获取图片验证码 05:03 视频: 10-3 【实战】维普网:OpenCV + OCR 识别验证码 07:28 视频: 10-4 【实战】维普网:Selenium 登录并获取数据 04:55 视频: 10-5 【实战】维普网:处理识别出错的问题 03:21 视频: 10-6 滑块验证码识别逻辑梳理 02:11 视频: 10-7 【实战】猎聘网:获取滑块验证码 09:24 视频: 10-8 【实战】猎聘网:OpenCV 计算滑动距离 08:45 视频: 10-9 【实战】猎聘网:Selenium 模拟滑动轨迹 08:38 视频: 10-10 【实战】猎聘网:处理识别出错的问题 03:32 第11章 EasyDL 机器学习识别验证码与云码平台一站式识别 7 节|35分钟 收起 视频: 11-1 EasyDL 机器学习基础 04:03 视频: 11-2 【实战】京东商城:批量获取验证码图片 07:56 视频: 11-3 【实战】京东商城:信息标注 & 训练模型 04:23 视频: 11-4 【实战】京东商城:调用 EasyDL API 接口识别验证码 05:20 视频: 11-5 云码平台使用基础 01:29 视频: 11-6 【实战】豆瓣网:获取验证码图片 07:10 视频: 11-7 【实战】豆瓣网:云码平台滑块验证码识别 04:23 第12章 爬虫与反爬的对抗之文字加密 第13章 爬虫与反爬的对抗之 JS 逆向 第14章 爬虫与反爬的对抗之 JS 逆向进阶 第15章 【综合实战】Scrapy-Redis+验证码识别+Selenium爬取海量数据 第16章 【拓展】视频网站数据分析 第17章 【加餐】爬虫高频面试题 第18章 课程总结 来源: (新版)Python 分布式爬虫与 JS 逆向进阶实战 |