大数据入门第一课 Hadoop基础知识与电商网站日志数据分析 本课程从Hadoop核心技术入手,以电商项目为依托,带领你从0基础开始上手,逐步掌握大数据核心技术(如:HDFS、YARN、MapReduce以及Hive),并使用这些技术进行实战,最终完成电商行为日志分析项目,让你轻松入门大数据! 适合人群 对大数据技术感兴趣的在职人员 希望从事大数据工作的零基础高校学生 掌握课程内容,你将轻松步入大数据生态圈 技术储备要求 熟悉Linux基本命令 了解Java SE的基础知识 了解MySQL的基本使用 另: 1:《新手入门大数据 Hadoop基础与电商行为日志分析》来自某课网,原价288,由猿人部落整理发布!猿人部落承诺,本站所有课程百分百高清,完整,原画,包含所有的视频+素材+课件+源码,官方同步体验! 2:本站所有课程格式MP4格式无密 可以通过网盘在线学习也可下载到本地,方便快捷! 3: 所有课程全部支持试看任何章节,可通过点击右侧官方微信扫码添加要求试看! 4:官方品质,信誉保证,本站包含某课网,某讯课堂,某易云,饥人谷,某度教育....等上万部课程正在陆续更新,感谢同学们的信任与支持,保证让同学们满意! 5:所有课程都会包更新,只要官方更新本站延迟2-3天就会更新。 6:爱好学习,一直提升自己的小伙伴可以开通会员,享受全站免金币无限制畅快学习! 7:点击下方链接进行试看,在线看默认流畅,调节成原画,最好直接下载到本地是超清! 可以联系QQ客服索要更多试看,可以试看任何章节(直接qq临时会话[qq]772441382[/qq]也可添加客服微信) 章节目录: 第1章 大数据概述 本章将从故事说起,让大家明白大数据是与我们的生活息息相关的,并不是遥不可及的,还会介绍大数据的特性,以及大数据对我们带来的技术变革,大数据处理过程中涉及到的技术以及大数据典型应用。 1-1 课程导学 试看 1-2 ***学前必读***(助你平稳踩坑,畅学无忧,课程学习与解决问题指南) 1-3 课程目录 1-4 从一个案例说起 1-5 什么是大数据以及大数据的4V特征 试看 1-6 大数据带来的技术变革 1-7 大数据现存的模式 1-8 大数据的技术概念 1-9 大数据带来的挑战 1-10 如何对大数据进行存储和分析 1-11 大数据典型应用 第2章 初识Hadoop 本章节将带领大家认识Hadoop以及Hadoop生态系统、Hadoop的发展史、Hadoop的优势、Hadoop的三个核心组件、Hadoop发行版的选择,为后续深入讲解Hadoop打下坚实的基础。 2-1 课程目录 2-2 Hadoop概述 2-3 Hadoop核心组件之HDFS概述 2-4 Hadoop核心组件之MapReduce 2-5 Hadoop核心组件之YARN 2-6 Hadoop优势 2-7 Hadoop发展史 2-8 Hadoop生态圈 2-9 Hadoop发行版选型 2-10 OOTB环境的使用 第3章 分布式文件系统HDFS 本章将从Hadoop的设计目标、架构及文件系统命令空间出发,快速搭建单节点伪分布式HDFS的实验环境,通过讲解使用hdfs shell以及Java API的方式操作HDFS文件系统,详细分析HDFS文件的读写流程,并通过HDFS API来实现词频统计案例,使得大家对Hadoop分布式文件系统HDFS有深刻的认识以及实战。 ... 3-1 HDFS概述 3-2 HDFS设计目标 3-3 HDFS架构详解 3-4 文件系统NameSpace详解 3-5 HDFS副本机制 3-6 本课程使用的Linux环境介绍 3-7 Hadoop部署前置介绍 3-8 JDK1.8部署详解 3-9 ssh无密码登陆部署详解 3-10 Hadoop安装目录详解及hadoop-env配置 3-11 HDFS格式化以及启动详解 3-12 HDFS常见文件之防火墙干扰 3-13 Hadoop停止集群以及如何单个进程启动 3-14 Hadoop命令行操作详解 3-15 深度剖析Hadoop文件的存储机制 3-16 HDFS API编程之开发环境搭建 3-17 HDFS API编程之第一个应用程序的开发 3-18 HDFS API编程之jUnit封装 3-19 HDFS API编程之查看HDFS文件内容 3-20 HDFS API编程之创建文件并写入内容 3-21 HDFS API编程之副本系数深度剖析 3-22 HDFS API编程之重命名 3-23 HDFS API编程之copyFromLocalFile 3-24 HDFS API编程之带进度的上传大文件 3-25 HDFS API编程之下载文件 3-26 HDFS API编程之列出文件夹下的所有内容 3-27 HDFS API编程之递归列出文件夹下的所有文件 3-28 HDFS API编程之查看文件块信息 3-29 HDFS API编程之删除文件 3-30 HDFS项目实战之需求分析 3-31 HDFS项目实战之代码框架编写 3-32 HDFS项目实战之自定义上下文 3-33 HDFS项目实战之自定义处理类实现 3-34 HDFS项目实战之功能实现 3-35 HDFS项目实战之使用自定义配置文件重构代码 3-36 HDFS项目实战之使用反射创建自定义Mapper对象 3-37 HDFS项目实战之可插拔的业务逻辑处理 3-38 HDFS Replica Placement Policy 3-39 HDFS写数据流程图解 3-40 HDFS读数据流程图解 3-41 HDFS Checkpoint详解 3-42 HDFS SaveMode 第4章 分布式计算框架MapReduce 本章将从架构、编程模型等角度带大家认识Hadoop的分布式计算框架MapReduce,掌握MapReduce各个核心组件编程,并通过两个案例让大家深入掌握MapReduce编程的方方面面。 4-1 课程目录 4-2 MapReduce概述 4-3 MapReduce编程模型详解 4-4 MapReduce编程模型核心概念详解 4-5 词频统计之自定义Mapper实现 4-6 词频统计之自定义Reducer实现 4-7 词频统计之自定义Driver类实现 4-8 词频统计之本地方式运行 4-9 词频统计之通过Debug方式进一步了解偏移量以及重构代码 4-10 词频统计升级之Combiner操作 试看 4-11 流量统计实战之需求 4-12 流量统计实战之自定义复杂数据类型 4-13 流量统计实战之自定义Mapper类 4-14 流量统计实战之自定义Reducer实现 4-15 流量统计实战之Driver开发 4-16 流量统计实战之代码重构及NullWritable的使用 4-17 流量统计实战升级之自定义Partitioner 第5章 资源调度框架YARN 本章将从YARN的产生背景、YARN的架构及执行流程的角度带大家认知Hadoop的资源调度框架YARN,快速搭建单节点伪分布式YARN的实验环境并掌握如何提交MapReduce作业提交到YARN上运行。 5-1 课程目录 5-2 YARN产生背景 5-3 YARN概述 5-4 YARN架构详解 5-5 YARN执行流程 5-6 YARN环境部署 5-7 提交example案例到YARN上运行 5-8 提交流量统计案例到YARN上运行 第6章 电商项目实战Hadoop实现 本章将通过电商用户行为日志分析的项目实战,来将前面几个章节讲解的知识点串联起来,综合使用Hadoop的技术进行离线统计分析。 6-1 课程目录 6-2 用户行为日志概述 6-3 为什么要记录用户行为日志 6-4 日志内容介绍 6-5 用户行为日志分析的意义所在 6-6 电商常用术语 6-7 项目需求描述 6-8 数据处理流程及技术架构 6-9 浏览量统计功能实现 6-10 省份浏览量统计之IP库解析 6-11 省份浏览量统计之日志解析 6-12 省份浏览量统计之功能实现 6-13 页面浏览量统计之页面编号获取 6-14 页面浏览量统计之功能实现 6-15 数据处理过程中ETL的重要性 6-16 原始日志ETL操作 6-17 浏览量统计功能升级 6-18 省份浏览量统计功能升级 6-19 页面浏览量统计功能升级思路 6-20 打包到服务器上运行 6-21 项目扩展 第7章 数据仓库Hive 本章将从Hive的产生背景、体系架构、Hive部署、DDL以及DML来掌握Hive使用的方方面面。 7-1 课程目录 7-2 Hive产生背景 7-3 Hive是什么 7-4 为什么要使用Hive 7-5 Hive在Hadoop生态圈中的位置 7-6 Hive体系架构 7-7 Hive部署架构 7-8 Hive与RDBMS的区别 7-9 Hive部署 7-10 Hive快速入门 7-11 Hive DDL之数据库操作 7-12 Hive DDL之表操作 7-13 Hive DML之加载和导出数据 7-14 Hive QL基本统计 7-15 Hive QL之聚合函数 7-16 Hive QL之分组函数 7-17 Hive QL之join的使用 7-18 Hive QL执行计划 第8章 电商项目实战Hive实现 本章将使用Hive对电商用户行为日志分析进行重新实现,让大家对MapReduce编程和Hive实现的方式进行对比,体会Hive在生产上使用的便捷性。 8-1 课程目录 8-2 外部表在Hive中的使用 8-3 track_info分区表的创建 8-4 将ETL的数据加载到Hive表 8-5 使用Hive完成统计分析功能 8-6 Hive实现项目的方便性体现 第9章 Hadoop分布式集群搭建 本章将带领大家搭建一个三个节点的分布式Hadoop集群环境,让大家对于Hadoop集群的安装有更深入的认识,并将项目实战案例运行在分布式集群环境中。 9-1 课程目录 9-2 Hadoop集群规划 9-3 前置条件安装 9-4 JDK安装 9-5 Hadoop集群部署 9-6 提交作业到Hadoop集群上运行 9-7 课程总结 第10章 (彩蛋番外篇)Join在MapReduce中的实现 本章将从SQL中的join入手,详细剖析如何在MapReduce中实现JOIN,这是面试中经常被考察到的点,考察你的MapReduce功底以及优化策略。 10-1 Join概述 10-2 ReduceJoin流程分析 10-3 ReduceJoin功能实现 10-4 MapJoin实现原理 10-5 MapJoin功能实现 第11章 (讨论群内直播内容分享)Hadoop小问题剖析 本次分享中,主要针对剖析小文件的产生、对集群带来的影响以及解决方案相关内容进行了讲解。 11-1 小文件问题 11-2 什么是小文件 11-3 小文件怎么产生的 11-4 小文件解决方案(上) 11-5 小文件解决方案(下) 11-6 Hadoop真的凉了吗 |