城市直播房产教育博客汽车
快传网
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

HADOOP概述

1月25日 听雨眠投稿
  一、Hadoop概述
  1。1Hadoop是什么
  Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
  主要解决,海量数据的存储和海量数据的分析计算问题。
  广义上来说,Hadoop通常是指一个更广泛的概念Hadoop生态圈。
  Google是Hadoop的思想之源(Google在大数据方面的三篇论文,GFSHDFS,MapReduceMR,BigTableHBase)
  Hadoop三大发行版本:Apache、Cloudera、Hortonworks。
  1。2Hadoop的优势
  高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
  高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
  高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
  高容错性:能够自动将失败的任务重新分配。
  1。3Hadoop组成(面试重点)
  在Hadoop1。x时代:Hadoop由HDFS、MapReduce组成,MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大
  在Hadoop2。x时代,增加了Yarn,Yarn只负责资源的调度,MapReduce只负责运算
  Hadoop3。x在组成上没有变化。
  1。3。1HDFS架构概述
  HadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统。
  NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
  DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
  SecondaryNameNode(2nn):每隔一段时间对NameNode元数据备份。
  1。3。2YARN架构概述
  YetAnotherResourceNegotiator简称YARN,另一种资源协调者,是Hadoop的资源管理器。
  YARN架构概述
  ResourceManager(RM):整个集群资源(内存、CPU等)的老大
  NodeManager(NM):单个节点服务器资源老大
  ApplicationMaster(AM):单个任务运行的老大
  Container:容器,相当一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。
  说明:客户端可以有多个,集群上可以运行多个ApplicationMaster,每个NodeManager上可以有多个Container
  1。3。3MapReduce架构概述
  MapReduce将计算过程分为两个阶段:Map和Reduce,Map阶段并行处理输入数据,Reduce阶段对Map结果进行汇总
  MapReduce架构概述
  待分析数据10Tmap阶段(集群)reduce阶段汇总处理数据
  HDFS、YARN、MapReduce三者关系
  1。4大数据技术生态体系
  Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySQL)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
  Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;
  Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统;
  Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
  Flink:Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
  Oozie:Oozie是一个管理Hadoop作业(job)的工作流程调度管理系统。
  Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
  Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
  ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等
投诉 评论 转载

埃森哲发布2022年技术展望四大技术趋势将成元宇宙基石来源:经济日报经济日报讯(记者袁勇)埃森哲日前发布报告《技术展望2022》指出,未来网络、编码世界、虚实共生、无限算力四大技术趋势将成为构建元宇宙的基石,也蕴藏着大量机遇,值得……在街上被阿姨骗了,卖苹果6才400块周六下午下班时,回家的路上,无意中遇到了一位阿姨大约年龄有50多岁的样子,问我需不需要苹果手机?我好奇地看了一下她手中拿着的手机,外观还行,内存64G,没有网络就没有试上网功能……好消息!传华为海思芯片即将归来年底发布?小米12首发骁龙898由于美国无理的四轮制裁,华为面临着芯片卡脖子的问题,其自研的麒麟芯片能设计但无法生产,现在已经绝版了。目前麒麟9000芯片在功耗发热的控制……史上最长618来袭又一轮剁手要开始了又有什么新玩法?上半年最大的电商促销节日618,今年各平台统一提前至5月24日开启。5月20日,仿佛商量好了一样,京东、天猫、苏宁都步调一致地官宣今年618大促启动,并不约而同地把618……无缘2亿GalaxyS22Ultra仍使用前代相同的1。08援引韩媒TheElec报道,三星不会在GalaxyS22Ultra主摄上使用2亿像素的ISOCELLHP1相机传感器,而是会依然使用和GalaxyS21Ultra相同的1。08……什么人适合配用助听器?当听力有下降,到医院就医后仍然无法恢复到正常听力,并还有残余听力的人群都可以考虑助听器,因为每个人的耳道形状和听损程度各有所不同,建议到专来的助听器验配中心进行检测,试听,效果……互联网大厂,什么时候才能体面点人类从来不是活在‘大词’之中的,我们需要从中层视角(企业、组织等)重新审视社会与文明。今天这篇文章从阿里女员工案谈起,结合中、外经验,破题互联网大厂的企业文化。互联网企业本该是……拍摄vlog,你们都是用什么后期工具制作视频呢?关于拍摄vlog,你们都是用什么后期工具制作视频呢这个问题,我的回答如下:一开始我用的是快剪辑,因为在快剪辑里有一个专业模式,当时就觉得用这个快件可能比较好,是在电脑上操……HADOOP概述一、Hadoop概述1。1Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决,海量数据的存储和海量数据的分析计算问题……陶琳再发声引发网友质疑消费者需要教育?中新经纬客户端5月11日电10日,昔日不妥协的特斯拉全球副总裁陶琳再度发声,称需加强消费者教育,引发网友质疑。有网友表示:原来是这届消费者不行。还有网友指出,买你的东西还要被你……智能家居的几个认知误区任何一种新生事物在刚出现的时候,都会因为处于发展初期,大家接触到的信息不对称,从而导致人们在认知上出现偏差甚至是误解。近些年来,智能家居在国内各大商家不断的推广下,开始普及开来……魅族发力,120Hz骁龙865,旗舰机沦为白菜价大家好,我是科技君的探讨,欢迎关注我,与我一起进行科技的探讨。骁龙5G旗舰处理器已经迭代到第三代了,虽然性能、5G网速都有所增强,但不得不说缺点也随着升级更加明显。骁龙8……
冷链物流驶上发展快车道逆袭!被苹果剔除的欧菲光迎来了好消息!央视说的果然没有错华为徐直军2021年底将有3亿设备搭载鸿蒙,将与全球TOP2苹果新款MacBookPro马上来了,同时带来的还有AirP蔚来ES8致死事故背后的质疑与反思linux下删除一个文件名为乱码的文件一汽丰田皇冠陆放正式上市售27。58万35。08万华为FreeBuds4i耳机评测低价且优质的无线降噪耳机2022年,你还会买纯燃油车么?4千元左右的手机,选哪款好?什么才是科技?670km续航长途不慌,豪华行政级空间带快充,实拍小鹏汽车P
浅谈民事诉讼中的和解制度个关于性的真相夫妻双方都了解一下否小程序如何帮我们快速的赚钱?博世舒适科技亮相AWE,智能供暖成就健康舒适生活热博聚热点网 用引人注目造句集锦edm是什么意思(外贸EDM)年适合后白手起家赚钱的十大暴力行业口蘑清洗的方法热闻聚热点网 征地听证,放弃后可否再申请?驴肉是凉性还是热性驴肉孕妇可以吃吗天蝎座男与狮子星座女人合适吗(狮子座和天蝎座的爱情)人到中年,你选择做脸还是看牙?

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找江西南阳嘉兴昆明铜陵滨州广东西昌常德梅州兰州阳江运城金华广西萍乡大理重庆诸暨泉州安庆南充武汉辽宁