城市直播房产教育博客汽车
投稿投诉
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

分布式存储系统ApacheHBase的现状和发展

10月2日 囍孤女投稿
  导读:ApacheHBase(HadoopDatabase),是一个基于GoogleBigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。全文将围绕以下几个方面展开:Base是什么Base社区的发展Base2。0Base未来规划如何成为Committer
  01hrBase是什么
  HBase(HadoopDatabase),是一个基于GoogleBigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。
  它有以下特征:HBase仍然是采用行存储的,采用松散表的结构来获得动态列的功能;原生海量数据分布式存储。在单个数据库中可以存档GB甚至上pb。在一行中也可以存储上百万列。任何大小的数据量都适合采用HB不仅支持随机查询,还支持范围查询;高吞吐,低延迟。一个集群可以有上千万个dps,平均的延迟可以做到一毫秒之内;在线NOSQL数据库;多版本,增量导入,多维删除。
  1。HBase的四大基因
  (1)自动分区
  最开始的时候,我们的数据库是单机的数据库。慢慢的我们发现单机的数据库无法承受数据和访问的爆发式增长。因此就出现了分库分表的方案。将数据库和表拆分到多个服务器上,然后利用中间件作为一个路由。这里就会遇到一个问题,随着数据的增加,中间件就会成为一个瓶颈。如果请求量爆发式增长的时候,要加载新的进去,整个物理的变化需要进行搬迁之后才能够进行使用。
  而在HBase中,使用的是自动分区功能。当访问量和请求量增加的时候它可以自动的进行数据分片,以应对数据和请求的爆发式增长。
  (2)LSMTree
  LSM(LogStructuredMerge)Tree,它的一个重要的功能就是随机写变成顺序写。
  现在LSM模型是大数据库的标配。它主要包括如下几个特点:写吞吐量高不受hdd随机写瓶颈和ssd随机写入放大干扰超强数据导入能力
  (3)存储计算分离
  HBase本身不会存任何数据。数据都是存储在底层的HDFS中。存储计算分离有以下好处:负载均衡更高效、资源扩容更节省、存储优化更便捷。
  (4)Base生态
  HBase有一个非常强大的朋友圈。具体见下:
  2。场景
  HBase是几乎可以满足所有的大数据场景需求。比如说对象存储,比如说推荐系统。比如说用来存储订单,用来存储聊天记录。高性能推送的朋友圈应用的场景。针对一些其他的场景,我们可以利用HBase加上组件能力来实现这些场景的应用。比如说HBase加Linux,来实现NEWSQL的数据库。比如说HBase加上geomesa来实现时空数据的存储,滴滴就是采用这种方案来存储他们的轨迹数据。在物联网场景,可以采用HBase加openjsdb来存储海量的时序数据。
  3。使用HBase的商业公司
  基本上每一个大型的公司都在使用HBase。
  4。HBase特性总结
  HBase,为大数据而生,有LSM树:离线导入效率巨高、实时写入吞吐大、增量导入隔离性强;伸缩性强;TTL:数据时效性,系统自动处理、时效性的个性化设置;多版本:数据的第三维度、高效删除方式;动态列:数据发散的利器;协处理器:数据校正、高效适应个性化;异构介质多副本存储:海量与实时的性价比满足;ErasureCode:因大而生。
  02hrBase社区的发展
  1。HBase的起源
  HBase于2006年诞生于Powerset,一家从事自然语言处理和搜索的创业公司(后被微软收购)
  HBase的实现基于Google发布的BigTable论文,用来解决Hadoop中随机读写效率低下的问题。HBase最初的开发人员是MichaelStack和JimKellerman。2007年4月,HBase做为一个模块提交到Hadoop的代码库中,代码量8000行,2010年5月HBase成为Apache的顶级项目,同年,Facebook把HBase使用在其消息平台中。
  2。HBase项目现状
  目前HBase的代码已经超过100万行,HBase仍然是最活跃的Apache项目之一,拥有76个Committer,42位PMC,共有328位Contributor,其中14位CommitterPMC来自中国。
  3。HBase目前版本
  Base目前版本众多。见下图:
  03hrBase2。0
  1。HBase2。0版本发布历史
  HBase2。0的发布是一部血泪史,因为在四年前已经有这个版本了,由于一些因素,造成了没有人管理。最后花了一年多的时间才稳定他的版本发布出来,他的ReleaseManger多次更换,才把他发布出来。由此,我们吸取了这次教训,我们以后会做好版本控制,把控好发布的节奏。
  2。新功能
  (1)RegionReplica
  RegionReplica这个功能在1。2版本中已经存在,但是为什么叫做新功能呢?是因为之后修改了很多bug,在1。4版本才稳定下来,然后1。4和2。0是同时发布的。在CAP理论中,HBase一直是一个CP系统,遵循强一致的读写语义,所以Server宕机后需要一定的恢复时间,如果宕机了,客户端可以从另外的副本中去读取数据,RegionReplica为数据分片Region准备了多个副本,host在不同的RegionServer上,同时,客户端也可以做到,对多个副本同时发请求,然后做到选择最快速的那个副本,提供高可用读,宕机0影响,规避抖动,毛刺,降低P999延迟;缺点是需要额外耗费CPUMemory资源,但不会占用额外空间。
  (2)读写链路Offheap
  第二个新功能是全链路Offheap,意思就是读写链路数据端到端Offheap,减少javaGC带来的停顿,进一步降低P999延迟,提高吞吐。这个功能我们从两方面来实现的:写链路Offheap,我们使用在RPC层使用Netty的OffheapByteBuffer,使用支持Offheap的Protobuf。同时使用Offheap的Chunk来存储Memstore中的KeyValue。
  在读链路Offheap方面,使用Offheap的BucketCache,HBase自己管理内存的,我们从BucketCache读取数据的时候,先要从Protobuf做一次拷贝,因为可能读取的时候,发生内存不够了,再次分配的情况。在读取对BucketCache进行引用计数,保证读取的时候,内存不会被回收掉,读取时不再需要先拷贝到heap,对BucketCache进行了一系列性能优化。
  后面这是HBase官方放着阿里巴巴在双十一对HBase优化之后的对比图,可以看到优化之后他的请求的曲线更加平稳,吞吐量增长了30,这个案例大家可以去HBase的官方去看一下。
  (3)InMemoryCompaction
  在HBase2。0中另外一个重磅的功能就是InMemoryCompaction,以前我们知道HBase中使用的数据结构是java中原生的跳表,但是跳表依然是一个松散的结构,这样的话,虽然内存不断的在增大,但是刷到之后,会造成通过Inmemory的flush不会到hdfs上,反而回转到更加紧凑的CellArrayMap这个结构,同时多个CellArrayMap会在内存中做compaction,使内存的使用更加紧凑。然后通过Inmemory的flush和compaction,在内存中可以存储更多的数据,因此可以提高读性能,同时减少磁盘IO,减轻compaction小文件造成的写放大。这个功能社区也有介绍。
  (4)小对象存储MOB
  之前我们建议在HBase上不要存很大的KV值,但是MOB(ModerateObjectStorage)功能使HBase能高效地存储那些100k10M中等大小的对象。这使得用户可以把文档、图片对象保存到HBase系统中,用户写入的小对象flush成一个独立文件,原有的KV中的value只存这个对象的引用路径,对于存储对象文件,更少地进行compaction来减少写入放大效应。
  (5)AssignmentMangerV2
  这是一个非常重要的模块,HBase中的状态流转,建表删表,都需要在AssignmentMangerV2上进行,之前旧AM系统参与角色多,状态更新混乱,效率低,无事务保证,容易出现RIT问题。所以AMV2使用ProcedureV2来保证TableRegion状态转换在master重启后仍然能恢复执行,然后去除了Zookeeper做为中间角色,MasterRegionServer直接交互,Regionassignunassgin速度大大提升。
  (6)其他
  在HBase2。0中,还有非常多的新功能,具体如下:
  3。兼容性和升级建议
  建议如下:
  04hrBase未来规划
  1。HBaseConAsia开发者圆桌会议
  HBase众多开发者也会参加这个会议,参与讨论它的未来发展方向。
  2。更加易用
  HBase已经提供了,Java的API,但是这个案例不太友好,我们目前打算提供Native的SQL接口,能够做到轻量级的SQL支持、内置的二级索引方案、与SparkSQL更好地结合等功能。
  3。更高性能
  在以后的版本中,不用在对HBase的性能担心了,我们在以后的版本中准备从UseCCSMaptoimproveHBaseYGCtim、全链路异步化、基于非易失存储的WALLess方案等方面努力成为LSM模型下性能最好的Java存储引擎。
  4。更强扩展性和稳定性
  这个方面我们以下几个方面来解决:
  05hr如何成为Committer
  今天的分享就到这里,谢谢大家。
  阅读更多技术干货文章、下载讲师PPT,请关注微信公众号DataFunTalk。
  分享嘉宾:杨文龙阿里巴巴技术专家,HBase社区CommitterPMC
  内容来源:HBaseMeetUp《ApacheHBase的现状和发展》
  出品社区:DataFun
  分享嘉宾:
  杨文龙,阿里巴巴技术专家。HBase社区CommitterPMC,AliHBase内核负责人,对分布式存储系统的设计、实践具备丰富的大规模生产的经验。
  活动推荐:
  关于我们:
  DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100线下和100线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号DataFunTalk累计生产原创文章700,百万阅读,14万精准粉丝。
  欢迎转载分享评论,转载请私信。
投诉 评论

新消息传来,汽油价格还要涨?或将进入9元时代?本文原创,禁止抄袭,违者必究!大家的生活现在是越来越好了,以前是只有少数人买得起自行车,现在是绝大部分人都能买得起小汽车。根据相关数据显示,截至2021年全国机动车……肾结石或与饮食不当有关,医生预防肾结石,饮食尽量注意这5点说到肾结石的问题,相信大家在生活当中都有听说过,肾结石是常见的泌尿系统疾病,在人群当中大约有7的发病率。早期的肾结石,不会有特别明显的症状,但随着病情的不断发展,症状明显……鼻毛变白是衰老前兆吗?医生或与4个因素有关,建议参考相信大家都知道,对于一些动物身体表面都是存在体毛的,不仅是为了保暖,而且也是能够保护表面肌层皮肤免受外界的伤害,而人体也是存在一定的体毛,只不过存在的位置不同,并不是覆盖全身。……李根罕见晒娃!娇妻名校博士,生涯总薪资超1亿,被前妻卷跑财产自从淡出CBA联盟以后,前中国男篮最强锋线李根就很少出现在公众的视线,不过在近日,李根这边却接连更新了个人社交媒体账号,和球迷们分享了他的好消息。6月20日的时候,李根更……克莱普尔季后赛命中率接近180俱乐部难以想象这是28号秀的表直播吧7月2日讯在参加伊戈达拉和埃文特纳的播客节目时,克莱称赞了队友普尔的发挥。克莱说道:我们在做着不同的事情,但我们可以完美共存,他可以持球,而我可以在外线拉开空间。而……分布式存储系统ApacheHBase的现状和发展导读:ApacheHBase(HadoopDatabase),是一个基于GoogleBigTable论文设计的高可靠性、高性能、可伸缩的分布式存储系统。全文将围绕以下几个方面展……灌篮高手手游不会做饭的厨师不是好中锋!聊聊他到底该如何设计大家好,我是正在思考鱼住的何二维一。今天官方算是在某个渠道已经极大概率的暗示了下个球员是集训鱼住的信息,所以既然官方已经暗示了,维一也不藏着掖着了,今日份的分析文章就来简……科学家的新发现有可能颠覆粒子物理学的标准模型据NewAtlas报道,经过长达10年的分析,物理学家们的合作项目对一个关键粒子的质量进行了最精确的测量。新的测量结果与基于标准模型的预测大不相同,暗示了新的物理学。自从……五大联赛新赛季开赛时间确定法甲赛程超300天五大联赛重燃战火,各大联赛官方已经公布新赛季赛程。由于卡塔尔世界杯是首次在北半球冬季举行,因此赛程上也做出让步,这也是新赛季与以往相比最为不同的地方。英超联赛新赛季将于8……vivo推出S15Pro旗舰机,vivoS12沦为弃机,彻底2022年上半年,vivo推出S15Pro旗舰机。用户对这款手机的综合评价很好,在鲁大师的评价上有83万的跑分。S15Pro搭载天机8100处理芯片。SOC采用5nm制造制造工……这些食品不合格!涉京东天猫拼多多等近期,市场监管总局组织食品安全监督抽检,抽取粮食加工品、食用农产品、食糖、茶叶及相关制品、乳制品、饮料、酒类、糕点、炒货食品及坚果制品、饼干、淀粉及淀粉制品、方便食品、薯类和膨……手机关机后还能被找到吗?要回答这个问题,首先要搞清手机是如何被定位的。答案很简单,信号基站!就是靠信号基站!为什么这么说呢,大家在路过省界、市界的时候一定收到过类似短信xxx故里,全国文明城欢迎您!这……
NBA西部最新积分榜灰熊三连胜,勇士反超独行侠,湖人躺降第1小孩急性喉炎能吃鸡蛋吗浩荡两千年读书笔记口述我刚怀孕妈宝男老公就请婆婆帮忙找其他女人女子纤腰黄金法则如何经营你的爱情只须找准爱语众多的造句用众多的造句大全法兰克福汇报时代杂志推世界50处最美丽地方叙尔特成北海唯一中老妈的漫画像车辆行驶途中是否可以双闪什么情况下需要开启双闪看来吴承恩也是个化学高手啊周末愉快的说说短语周未快乐心情祝福句子宁夏城建集团与民生银行银川分行浪潮通用软件有限公司战略签约杜鹃花种植的病害防治高考作文常见易混字100例永夜角声悲自语,客心愁破正思家。如何烤鸡翅强化证券监管为资本市场高质量发展护航废财2迎来完结梁舒涵为戏首披婚纱能谈90集恋爱的机会那些年我们一起的怀旧情结陷入梦里美国控制原油出口:三重负面影响的“奇葩政策”女娲和伏羲是什么关系两人先是兄妹后结合成夫妻适合18岁男生的发型清爽帅气展现青春活力

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找