大数据的入门级学习_高中生题库网|高考真题|高考试题-「密云二中」

电池英文-下三滥是什么意思

2020年10月22日发(作者：骆根兴)

大数据的入门级学习

基础和分布式集群技术学完此阶段可掌握的核
心能力：熟练使用Linux，熟练安装Linux上的软件，了解
熟悉负载均衡、高可靠等集群相关概念，搭建互联网高并发、
高可靠的服务架构；学完此阶段可解决的现实问题：搭建负
载均衡、高可靠的服务器集群，可以增大网站的并发访问量，
保证服务不间断地对外服务；学完此阶段可拥有的市场价值：
具备初级程序员必要具备的Linux服务器运维能力。1.内容
介绍：在大数据领域，使用最多的操作系统就是Linux系列，
并且几乎都是分布式集群。该课程为大数据的基础课程，主
要介绍Linux操作系统、Linux常用命令、Linux常用软件安
装、Linu x网络、防火墙、Shell编程等。2.案例：搭建互联
网高并发、高可靠的服务架构。2.离线计算系统课程阶段1.
离线计算系统课程阶段Hadoop核心技术框架学完此阶段可
掌握的核心能力：1、通过对大数据技术产生的背景和行业
应用案例了解hadoop的作用；2、掌握hadoo p底层分布式
文件系统HDFS的原理、操作和应用开发；3、掌握
MAPREDUCE分布式运算系统的工作原理和分布式分析应
用开发；4、掌握Hive数据仓库工具的工作原理及应用开发。< br>学完此阶段可解决的现实问题：1、熟练搭建海量数据离线
计算平台；2、根据具体业务场景设计、实现海量数据存储

方案；3、根据具体数据分析需求实现基于mapreduce的分
布式运算程序；学完此阶段可拥有的市场价值：具备企业数
据部初级应用开发人员的能力1.1 HADOOP快速入门1.1.1
hadoop知识背景什么是hadoop、hadoop产生背景、hadoop
在大数据云计算中的位置和关系、国内hadoop的就业情况
分析及课程大纲介绍国内外hadoop应用案例介绍分布式系
统概述、hadoop生态圈及各组成部分的简介1.1 .2 HIVE快
速入门hive基本介绍、hive的使用、数据仓库基本知识1.1.3
数据分析流程案例web点击流日志数据挖掘的需求分析、数
据来源、处理流程、数据分析结果导出、数据展现1.1.4
hadoop数据分析系统集群搭建集群简介、服务器介绍、网
络环境设置、服务器系统环境设置、JDK环境安装、hadoop
集群安装部署、集群启动、集群状态测试HIV E的配置安装、
HIVE启动、HIVE使用测试1.2 HDFS详解1.2.1 HDFS的
概念和特性什么是分布式文件系统、HDFS的设计目标、
HDFS与其他分布式存储系统的优劣势比较、HDFS的适用
场景1.2.2 HDFS的shell操作HDFS命令行客户端启动、
HDFS命令行客户端的基本操作、命令行客户端支持的常用
命令、常用参数介绍1.2.3 HDFS 的工作机制HDFS系统的
模块架构、HDFS写数据流程、HDFS读数据流程
NAMENO DE工作机制、元数据存储机制、元数据手动查看、
元数据checkpoint机制、NAMENOD E故障恢复、

DATANODE工作机制、DATANODE动态增减、全局数据
负载均衡1.2.4 HDFS的java应用开发搭建开发环境、获取
api中的客户端对象、HD FS的java客户端所具备的常用功
能、HDFS客户端对文件的常用操作实现、利用HDFS的JAVA客户端开发数据采集和存储系统1.3 MAPREDUCE详
解1.3.1 MAPRE DUCE快速上手为什么需要MAPREDUCE、
MAPREDUCE程序运行演示、MAPREDU CE编程示例及编
程规范、MAPREDUCE程序运行模式、MAPREDUCE程序
调试d ebug的几种方式1.3.2 MAPREDUCE程序的运行机
制MAPREDUCE程序运行流程解析、MAPTASK并发数的
决定机制、MAPREDUCE中的combiner组件应用、
MAPREDUCE中的序列化框架及应用、MAPREDUCE中的
排序、MAPREDUCE中的自定义分区实现、MAPREDUCE
的shuffle机制、MAPREDUCE利用数据压缩进行优化、
MAPREDUCE程序与YARN之间的关系、MAPREDUCE
参数优化通过以上各组件的详解，深刻理解MAPREDUCE
的核心运行机制，从而具备灵活应对各种复杂应用场景的能< br>力MAPREDUCE实战编程案例：通过一个实战案例来熟悉
复杂MAPREDUCE程序的开发。该程序是从nginx服务器
产生的访问服务器中计算出每个访客的访问次数及每次访
问的时长。原始数据样例如下：通过一系列的MAPREDUCE
程序——清洗、过滤、访问次数及时间分析，最终计算出需

求所要的结果，用于支撑页面展现：1.4 HIVE增强1.4.1
HIVE基本概念HIVE应用场景、HIVE内部架构、HIVE与
hadoop的关系、H IVE与传统数据库对比、HIVE的数据存
储机制、HIVE的运算执行机制1.4.2 HIVE基本操作HIVE
中的DDL操作、HIVE中的DML操作、在HIVE中如何实
现高效的JO IN查询、HIVE的内置函数应用、HIVE shell
的高级使用方式、HIVE常用参数配置、 HIVE自定义函数和
TRANSFORM的使用技巧、HIVE UDF开发实例1.4.3 HIV E
高级应用HIVE执行过程分析及优化策略、HIVE在实战中的
最佳实践案例、HIVE优化分类详解、HIVE实战案例--数据
ETL、HIVE实战案例--用户访问时长统计HIVE实战案例--
级联求和报表实例：离线数据挖掘系统学完此阶段可掌握的
核心能力：1、通过对数据仓库知识的加强初步掌握数据仓
库的核心概念和设计流程;2、通过对HADOOP生态圈关键
辅助工具的学习掌握hadoop分析系统的整合能力;3、通过
电商系统点击流日志数据挖掘系统实战项目，掌握hadoop
离线数据挖掘系统从数据采集、入库、分析及报表展现的整
套流程学完此阶段可解决的现实问题：1、可根据企业具体
场景设计海量数据分析系统的通用架构2、根据具体场景的
特点有针对性地调整数据分析各环节的技术选型;3、根据具
体需求搭建起整套离线数据分析系统;4、简单数据仓库模型
的设计和架构5、各环节具体功能模块的开发实现学完此阶

段可拥有的市场价值：具备企业数据部中高级应用开发和初
级架构师能力2.1 数据仓库增强2.1.1 数据仓库及数据模型
入门什么是数据仓库、数据仓库的意义、数据仓库核心概念、
数据仓库的体系结构2.1.2 数据仓库设计建立数据仓库的步
骤、数据的抽取、数据的转换、数据的加载、什么是数据模
型、数据模型的常见类型、如何设计数据模型、如何选择数
据建模的架构典型数据模型——星型建模实例2.1.3 数据仓
库建模样例业务建模、领域建模、逻辑建模、物理建模web
点击流日志分析系统数据仓库设计实战：通过对数据特点和
业务需求的分析，关系梳理，设计出一个主题明确、层次合
理的数据模型2.2 离线辅助系统2.2.1 数据采集系统数据采
集概念介绍FLUME日志采集框架介绍、FLUME工作机制、
FLUME核心组件、FLUME参数配置说明、FLUME采集
nginx日志实战案例2.2.2 任务调度系统任务调度系统概念
介绍、常用任务调度工具比较、OOZIE介绍、OOZIE核心
概念、OOZIE 的配置说明、OOIZE实现mapreducehive等
任务调度实战案例2.2.3 数据导出数据导出概念介绍、
SQOOP基础知识、SQOOP原理及配置说明、SQOOP数
据导入实战、SQOOP数据导出实战、SQOOP批量作业操
作2.3 web点击流日志分析系统实战项目2.3.1 项目介绍1.
在PC时代，营销的核心是购买，在移动互联网时代，其核
心是如何实现用户个性化互动，对用户传播更为精准化的内

容，而实现这一核心的基础就是对数据的管理和分析——数
据驱动型商业模型。2. 各类互联网服务产品(如网站、APP)
都可以通过前端技术获取用户的详细行为数据(如访问的页
面，点击的区域、登陆的频次、注册行为、购买的行为等)，
将这些点击流日志数据与后台商业数据综合起来，就可以挖
掘对公司运营决策意义非凡的商业价值。3. 本项目则是一个
用大数据技术平台实现的点击流日志分析数据挖掘系统，项
目内容涵盖一个典型数据挖掘系统中，包括需求分析、数据
采集、数据存储管理、数据清洗、数据仓库设计、ETL、业
务模型统计分析、数据可视化的全部流程。2.3 .2 需求分析
什么是点击流日志、点击流日志的商业价值、点击流日志分
析需求业务模型指标体系设计——流量分析、来源分析、受
访分析、访客分析、转化率分析2.3.3 系统设计及开发1. 系
统架构设计2. 数据采集设计及开发——数据格式、数据内
容分析、数据生成规律、采集系统技术选型解析、FLUME
采集系统实现3. 数据存储设计及开发——存储技术选型、
存储业务流程解析、存储目录规划及文件命名规则、小文件
合并实现4. 数据统计设计及开发——数据预处理、数据加
载、原始数据表的创建、数据入库、数据ETL5. 报表统计设
计——数据模型设计、事实表设计、维度表梳理6. 业务指
标设计及开发——PV 统计(时间维度、终端维度、地域维度)、
来访次数统计(时间维度、地域维度、终端维度)、独立访客

统计(时间维度、终端维度、地域维度)、受访页面统计(时间
维度、栏目维度 )、页面热点图、转化率分析、来源关键词分
析、来源搜索引擎分析、来源广告推广分析2.3.4 任务调度
系统设计实现任务调度单元实现、各环节任务运行频次及依
赖关系梳理、工作流设计及实现、工作流定义配置上传部署、
工作流启动即状态监控2.3.5 数据可视化——结果报表展现
1. hive分析结果使用sqoop导出到msyql数据库2. 报表展
现系统技术选型：后台使用spingmvc + spring + mybatis前
端页面使用全静态异步刷新技术jQuery + Echarts3. web展
现程序架构搭建，使用maven构建项目工程4. web展现程
序页面设计开发：原型页面设计、js代码开发5. 最终实现
以下数据可视化效果：(1)流量概况可视化效果：(2)来源地域
分析可视化效果：(3)来源类型分析可视化效果：实
时计算部分阶段实时课程分为两个部分：流式计算核心技术
和流式计算计算案例实战。1.流式计算核心技术流式计算核
心技术主要分为两个核心技术点：Storm和Kafka，学完此
阶段能够掌握Storm开发及底层原理、Kafka的开发及底层
原理、Kafka与Storm集成使用。具备开发基于storm实时
计算程序的技术能力。学完此阶段可掌握的核心能力：(1)、
理解实时计算及应用场景(2)、掌握Storm程序的开发及底层
原理、掌握Kafka消息队列的开发及底层原理(3)、具备Kafka
与Storm集成使用的能力学完此阶段可解决的现实问题：具

备开发基于storm的实时计算程序的能力学完此阶段可拥有
的市场价值：具备实时计算开发的技术能力、但理解企业业
务的能力不足1.1、流式计算一般结构2011年在海量数据处
理领域，Hadoop是人们津津乐道的技术，Hadoop不仅可
以用来存储海量数据，还以用来计算海量数据。因为其高吞
吐、高可靠等特点，很多互联网公司都已经使用Hadoop来构建数据仓库，高频使用并促进了Hadoop生态圈的各项技
术的发展。一般来讲，根据业务需求，数据的处理可以分为
离线处理和实时处理，在离线处理方面Hadoop提供了很好
的解决方案，但是针对海量数据的实时处理却一直没有比较
好的解决方案。就在人们翘首以待的时间节点，sto rm横空
出世，与生俱来的分布式、高可靠、高吞吐的特性，横扫市
面上的一些流式计算框架，渐渐的成为了流式计算的首选框
架。如果庞麦郎在的话，他一定会说，这就是我要的滑板鞋!
上图是流式分析的一般架构图，抽象出四个步骤就是数据采
集、数据缓冲、数据处理、数据输出。一般情况下，我们采
用Flume+kafka+Storm+Redis的结构来进行流式数据分析。
实时部分的课程主要是针对Kafka、Storm进行学习1.2、流
式计算可以用来干什么一淘-实时分析系统：实时分析用户的
属性，并反馈给搜索引擎。最初，用户属性分析是通过每天
在云梯上定时运行的MR job来完成的。为了满足实时性的
要求，希望能够实时分析用户的行为日志，将最新的用户属

性反馈给搜索引擎，能够为用户展现最贴近其当前需求的结
果。携程 -网站性能监控：实时分析系统监控携程网的网站性
能。利用HTML5提供的performance 标准获得可用的指标，
并记录日志。Storm集群实时分析日志和入库。使用DRPC
聚合成报表，通过历史数据对比等判断规则，触发预警事件。
一个游戏新版本上线，有一个实时分析系统，收集游戏中的
数据，运营或者开发者可以在上线后几秒钟得到持续不断更
新的游戏监控报告和分析结果，然后马上针对游戏的参数和
平衡性进行调整。这样就能够大大缩短游戏迭代周期，加强
游戏的生命力。实时计算在腾讯的运用：精准推荐(广点通广
告推荐、新闻推荐、视频推荐、游戏道具推荐) ;实时分析(微
信运营数据门户、效果统计、订单画像分析);实时监控(实时
监控平台、游戏内接口调用)为了更加精准投放广告，阿里妈
妈后台计算引擎需要维护每个用户的兴趣点(理想状态是，你
对什么感兴趣，就向你投放哪类广告)。用户兴趣主要基于用
户的历史行为、用户的实时查询、用户的实时点击、用户的
地理信息而得，其中实时查询、实时点击等用户行为都是实
时数据。考虑到系统的实时性，阿里妈妈使用Storm维护用
户兴趣数据，并在此基础上进行受众定向的广告投放。1.3、
Storm核心技术点基础技术点linux环境准备、zookeeper
集群搭建、Storm集群搭建、Storm配置文件配置项讲解、
集群搭建常见问题解决。Storm练习案例根据蚂蚁金服提供

的最新数据，今年双十一的交易峰值为8.59万笔秒，是去年3.85万笔秒的2.23倍。这一数据也超过了6万笔秒的
预估。如何实时的计算订单金额，让公司领导层看到呢?(图
为双十一支付宝成交金额)Storm基础及原理Storm常用组
件和编程API：Topology、 Spout、Bolt、Storm分组策略
(stream g roupings)、Storm项目maven环境搭建、使用
Strom开发一个WordCoun t例子、Storm程序本地模式
debug、Storm消息可靠性及容错原理、Storm任务提交流
程、Strom消息容错机制。(图为storm组件)1.4、Kafka核
心技术点St orm结合消息队列Kafka：消息队列基本概念
(Producer、Consumer、Topi c、Broker等)、消息队列Kafka
使用场景、Storm结合Kafka编程API、Kaf ka负载均衡、
Kafka消息存储原理等。(图为Kafka消息队列原理)2.流式计
算案例实战实战案例部分主要有三个企业实战案列，分别是
基于点击流的日志分析系统、基于系统日志的监控告警系统、
基于订单系统的交易风控系统，三个案列是企业中的典型项
目。学完此阶段能够独立根据企业的业务性质开发相关的
storm程序。学完此阶段可掌握的核心能力：1、掌握企业核
心业务需求2、掌握实时系统常见的开发流程及运营经验学
完此阶段可解决的现实问题：可以独立开发 storm程序来满
足业务需求学完此阶段可拥有的市场价值：熟练学习和掌握
后，可满足企业开发的初级需求，根据市场反馈数据看，薪

资普遍在 15000-18000元月。2 .1、案例：流量日志分析流
量日志分析之漏斗模型：大型电商网站，上亿规模的用户，
千万级别的活跃用户，如何评估一个商品专题页面的效果好
不好呢?比如：浏览次数、加入购物车次数、下单次数、支
付次数、完成。(图为日志分析漏斗模型-数据部必备)流量日
志分析之基础数据分析：电商网上商品数量在千万级别，店
铺数量在百万级别，如何实时的计算一个每个商品页的访问
数、用户数、来源信息等基础信息呢?如何实时的计算每个
店铺的访问数、用户数、来源信息等基础数据呢 ?(图为页面
浏览分析-数据部必备)2.2、案例：统一监控告警系统随着公
司业务发展，支撑公司业务的各种系统越来越多，为了保证
公司的业务正常发展，急需要对这些线上系统的运行进行监< br>控，做到问题的及时发现和处理，最大程度减少对业务的影
响。不同业务的会有几十上百台服务器去支撑，大型企业可
能是成千上万台服务器，那么每台服务器的硬件状态、业务
应用状态如何实时的监控，做到及时发现，快速解决问题
呢?(图为企业产生日志的系统清单)统一监控系统触发的短< br>信告警统一监控系统触发的邮件告警2.3、案例：交易风控
系统电子商务是以互联网络为平台的贸易新模式，它的一个
最大特点是强调参加交易的各方和所合作的伙伴都要通过
Interne t密切结合起来，共同从事在网络环境下的商业电子
化应用。用户信息容易受到计算机病毒、黑客的攻击，商业

信息和数据易于搭截侦听、口令试探和窃取，为了防止用户
信息异常给商家和用户带来不必要的损失，企业期望针对用
户的订单进行分析，对触发规则的订单进行风险预警，在必
要情况下进行拦截及锁定订单。(图为订单异常拦截)
内存计算阶段学完此阶段可掌握的核心能力：1.掌握Scala
函数式编程特性，熟练使用Scala开发程序，可以看懂其他
用Sc ala编写源码。2.搭建Spark集群、使用Scala编写Spark
计算程序，熟练掌握Spa rk原理，可以阅读Spark源码。3.
理解DataFrame和RDD之间的关系，熟练使用Da taFrame
的API，熟练使用Spark SQL处理结构化数据，通过Spark
SQL对接各种数据源，并将处理后结果写回到存储介质中。
4.理解Spark Strea ming的核心DStream，掌握DStream的
编程API并编写实时计算程序。学完此阶段可解决的现实问
题：熟练使用Scala快速开发Spark大数据应用，通过计算
分析大量数据，挖掘出其中有价值的数据，为企业提供决策
依据。学完此阶段可拥有的市场价值：学习完spark并掌握
其内容，将具备中级大数据工程师能力，薪水可以达到
20K~25K。函数式编程介绍：Scala是一门集面向
对象和函数式编程与一身的编程语言，其强大的表达能力、
优雅的A PI、高效的性能等优点受到越来越多程序员的青睐。
Spark底层就是用Scala语言编写，如果想彻底掌握Spark，
就必须学好Scala。案例：Scala编程实战，基于Akka框架，

编写一个简单的分布式RPC通信框架2.使用Spark处理离
线数据介绍：Sp ark是基于内存计算的大数据并行计算框架，
具有高容错性和高可伸缩性，可以在大量廉价硬件之上部署
大规模集群，在同等条件下要比Hadoop快10到100倍。
3.使用Spark SQL处理结构化数据介绍：Spark SQL的前身
是Shark，专门用来处理结构化的数据，类似Hive，是将
SQL转换成一系列RDD任务提交到Spark集群中运行，由
于是在内存中完成计算，要比hive的性能高很多，并且简化
了开发Spark程序的难度同时提高了开发效率。 4.使用Spark
Streaming完成实时计算介绍：Spark Streaming类似于
Apache Storm，用于流式数据的处理。根据其官方文档介绍，
Spark Streaming有高吞吐量和容错能力强等特点。Spark
Streaming支持的数据输入源很多，例如：Kafka、Flume、
Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可
以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而结果也能保存在很多地方，如HDFS，数据
库等。另外Spark Stream ing也能和MLlib(机器学习)以及
Graphx完美融合综合项目：介绍：该项目使用了
Spark SQL和Spark Streaming对游戏整个生命周期产生的
数据进行了分析，从玩家第一次登录游戏到每天产生的游戏
日志，通过大量的数据来分析该游戏的运营情况和玩家的各种行为：如活跃用户、用户留存、充值比例、游戏收人、外

挂分析等。通过玩家登录游戏产生的数据分析一天之内各个
时间段进入游戏的情况通过玩家登陆游戏产生的数据分析
玩家在全国地区的分步情况，调整广告投放策略用户留存指
标可以分析游戏对玩家的吸引力，分析用户流失原因用户等
级信息可以分析玩家等等级分布情况、调整装备爆率和游戏
难度通过上面游戏各个数据指标的分析，可以让游戏运维者
了解游戏的运维情况，为运维者提供各种个性化的调整策略，
从而保证游戏健康、稳定的运营。

匈怎么读-神州行电话卡

相性-862

朝花夕拾读后感600字-mindless

央求是什么意思-请缨的意思

分为-平静的近义词

英文信结尾-教练的英文

adjusting-开除英文

ups电源是什么意思-sker

本文更新与2020-10-22 15:27，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/418763.html

返回列表：英语

上一篇：GRE经典备考书籍大推荐
下一篇：英语专业考生学习英语的15种方法

当前您在：主页 > 英语 >

大数据的入门级学习

电池英文-下三滥是什么意思

匈怎么读-神州行电话卡

相性-862

朝花夕拾读后感600字-mindless

央求是什么意思-请缨的意思

分为-平静的近义词

英文信结尾-教练的英文

adjusting-开除英文

ups电源是什么意思-sker

返回列表：英语

大数据的入门级学习的相关文章

爱心与尊严的高中作文题库

爱心与尊严高中作文题库

爱心与尊重的作文题库

爱心责任100字作文题库

爱心责任心的作文题库

爱心责任作文题库

爱心长在作文题库

爱心中国感恩励志作文题

爱心助考作文题库

爱心助农作文题库

爱心尊重宽容拒绝作文题

爱心尊重作文题库

爱心作文题库好段

爱心作文题库120字

爱心作文题库读者

爱心作文题库分论点

爱心作文题库简短

爱心作文有哪些题库

爱需要被尊重作文题库

爱需要传递200字作文题库

爱需要公平作文题库

爱需要行动作文800高中作

爱需要行动作文题库

爱需要交流与沟通作文题

当前您在： 主页 > 英语 >

电池英文-下三滥是什么意思

匈怎么读-神州行电话卡

相性-862

朝花夕拾读后感600字-mindless

央求是什么意思-请缨的意思

分为-平静的近义词

英文信结尾-教练的英文

adjusting-开除英文

ups电源是什么意思-sker

大数据的入门级学习的相关文章

当前您在：主页 > 英语 >