设为首页 收藏本站
开启辅助访问 快捷导航
菜单
猿人部落 主页 资讯 查看内容

大数据能做什么,为什么学习大数据

2019-8-1 05:10 发布者: 蚂蚁部落 评论 0 查看 1209
Hadoop和大数据是这两年最火的词儿们之一,越来越多的公司对这个东西感爱好,但是我打仗到的大多数公司里的人,无论

Hadoop和大数据是这两年最火的词儿们之一,越来越多的公司对这个东西感爱好,但是我打仗到的大多数公司里的人,无论是技能职员照旧老板。都不知道怎么能把这些东西用于改善自己公司的业务。在解答的过程中,提炼出几个要点,记载一下。
在这里插入图片形貌
大数据和云是不是一回事?

这是最容易肴杂的概念之一,我个人以为这是两回事,云服务,无论是云主机照旧云存储照旧云的其他应用,都是向用户提供一个接口,但这个接口的后端是假造机技能,大概分布式存储技能,大概其他分布式盘算技能等等。简而言之,云的概念就是我向你提供服务,而你不须要关心这种服务的架构大概技能实现有多么复杂。打个比方,就好象是,云之前的期间我们要用电,就须要自己造一个电厂发电,造机组,造变电站,然后再去用它。而云服务就好象是别人搭好了一个电厂,电线直接进你家,你要用,只须要插上插头,不须要关心电是怎么被制造出来的。电力的生产和电力装备的维护都由国家电网负担。接洽到网络方面,就是,我们从前要自己买服务器,自己装体系,自己上架,自己做负载均衡,自己维护软硬件情况。有了云之后,这些都通过云服务商的假造机技能完成了。数据安全和网络安全都由云服务商提供,你也不须要专门请人维护一堆装备。

假如你想要学好大数据最好参加一个好的学习情况,可以来这个Q群251956502 如许各人学习的话就比力方便,还可以或许共同互换和分享资料

而说到大数据,这个可以是基于云的,也可以是不基于云的。大数据的处理处罚技能与提供云服务的技能是不尽雷同的,但是又有所交集。可以说,云服务是根本办法,是市政工程,而大数据是都会里的高楼大厦。大数据可以基于云,也可以不基于云。

从技能角度上说,国内的大多数云服务商,紧张提供的是假造机服务,这是一种分的概念,把一台物理服务器拆成多个假造的小服务器,尽大概多的使用其物理资源,克制浪费。而大数据是合的头脑,是把很多台服务器归并成一个假造的巨型服务器,通太过配盘算资源使数据可以快速的为生产力服务。用一句中国的老话形容大数据和Hadoop就是:三个臭皮匠顶个诸葛亮。用归并起来的盘算资源逾越小型机大概中型机的盘算本事。这内里固然也有云的概念存在着,就是说,你不须要关心数据的存储和盘算到底是怎么完成的,你只须要用就可以了。

大数据技能是不是肯定须要数据量大才可以,数据量不大就不须要用?

通常是如许以为的,但是并不绝对,盘算维度大,盘算过程复杂也都可以以为是大数据。换句话说,就是,假如你所须要的数据,在你所须要的时间内无法正常盘算出来,你大概就须要用到大数据的技能了。

一方面,你的数据须要的存储量凌驾数据库大概数据堆栈的本事范围,你大概须要大数据技能;另一方面,你的盘算量凌驾传统的数据处理处罚本领的时效性本事范围之外,你也大概须要大数据技能。而典范的盘算本事的挑衅就是来自于数据发掘和多维度分析。大概数据量不大,但是算法和过程很复杂,也大概会须要大数据的技能。比如对用户做保举,基于用户群的分类做精准的广告投放。大概在传统行业盘算景象预报,盘算地质数据做石油探测,矿产探测。又大概用在金融行业,通过对汗青数据创建数学模子,对证券和期货贷款等做风险预估。之以是阿里巴巴对于中国的经济和收支口的猜测比商务部和统计局更精准,除了他们有一群数学和统计专家外,大数据是完全不可或缺的技能本领。

大数据技能是不是就是谁人什么憨杜普?

显然不是,大数据范畴存在很多厂商和应用,有开源的,有收费的。比如一些非Hadoop大数据处理处罚的公司和软件,EMC的Greenplum,Splunk公司的splunk等等。这些都不是基于Hadoop的,但是也有共同的缺陷,就是很贵。以是,大多数公司采取开源软件来完成大数据的业务处理处罚。而开源范畴做得最好的,应该就是hadoop了。以是如今hadoop根本成了大数据处理处罚的代名词了。基于Hadoop衍生了很多家贸易公司,由于Apache的允许协议并不拒绝贸易。像国内比力着名的Cloudera,MapR,他们的贸易产物都是基于Hadoop及其周边的生态软件。

大数据应该怎么推进公司业务的发展?

这是个关乎想象力的变乱,有了大容量和大盘算,至于怎么用,这只能自己想。原来数据怎么做如今还怎么做,不外除了啤酒与尿布,口香糖与避孕套之外,另有一个比力生动的案例约莫是如许的:美国有一个公司,在各产粮区每隔一英里插一个传感器,网络氛围湿度和土壤含氮量等数据。网络上来以后通过大数据的处理处罚本领和算法,猜测出该地域的收获大概会是什么情况,然后把猜测陈诉卖给美国的农业保险公司。

Hadoop有什么优缺点?

Hadoop的长处是数据的容量和盘算本事以及数据的备份安全性有了很洪流平的提拔,1.0最大可以支持到约莫4000台服务器的并行存储和运算,而2.0约莫可以支持6000台服务器。不外2.0如今还不是很美满,以是生产情况照旧发起用1.0。我以为4000台集群的容量和盘算本事足以对抗IBM的大型机,从客岁12月15号的中国银行大型机宕机变瞎搅看。大型机就算安全性再有保障,也究竟是单点。真出了故障,谁也不敢拍板切换到备份大型机上。Hadoop 1.0已经有了很多方案去办理单点标题,2.0自己就支持单点故障切换。大概将来继续发展,将全面逾越大型机。究竟上,IBM已经开始出自己的Hadoop发行版了。

至于缺点,就是Hadoop1.0照旧存在单点标题,但是可以通过其他技能本领增补做到热切换,只是要求维护职员的技能程度较高。别的一个缺点是盘算的时间会比力长,还无法做到实时查询和快速决定相应。但是有很多其他的方案在增补Hadoop的这个标题,像Apache出的跟Google Dremel竞争的Drill,Cloudera推出的Impala,和其他一些产物。而实时盘算则有Twitter开源的Storm集群,计划理念跟Hadoop是一样的,但是可以对实时数据流举行盘算,并立即天生盘算效果。做到随查随出。

在各个开源社区的支持下,在全天下步调员的共同积极下,大数据的处理处罚本事也在高速的发展,步调员们正在用自己的智慧改造这个天下。



路过

雷人

握手

鲜花

鸡蛋
收藏 邀请
上一篇:分布式架构之CAP理论/AP架构/CP架构下一篇:大规模离线计算产品的调研

相关阅读

一周热门

头条攻略!

日排行榜

相关分类