城市直播房产教育博客汽车
投稿投诉
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

湖仓才是数据智能的未来?那你必须了解下国产唯一开源湖仓了

8月16日 艮山观投稿
  机器之心发布
  机器之心编辑部
  国产唯一的开源数据湖存储框架LakeSoul近期发布了2。0升级版本,让数据智能触手可及。
  湖仓一体作为新一代大数据技术架构,将逐渐取代单一数据湖和数仓架构,成为大数据架构的演进方向。当前已有DeltaLake、Iceberg、Hudi等国外开源的数据湖存储框架。LakeSoul是数元灵科技研发的,国产唯一的开源数据湖存储框架,并于近期发布了2。0升级版本。本文将结合大数据架构的演变历史及业务需求,深度剖析国产唯一开源湖仓一体框架LakeSoul带来的现代化数据架构和关键业务价值。
  数据架构的演进
  从传统数据库到数仓再到数据湖,数据架构一直伴随着业务需求的驱动不断迭代,使数据应用场景向复杂化、多元化转变,从最初的交易场景,到分析场景,再到混合场景、复杂分析场景,最后到如今的实时混合场景,大数据架构也在不断演进:
  在数据架构演进中,不同的架构方案也存在着缺陷:
  1。传统数仓。传统数据仓库作为一个中心化的数据源,仍然沿用了数据库的架构,即计算存储耦合在一起,不方便扩展,成本较高。并且中心数据仓库通常需要专门团队来开发维护,面对纷繁的业务需求往往存在响应不及时等问题。
  2。Hadoop数仓。目前有大量的企业使用HadoopHive的方式搭建数据仓库。然而由于Hive无法支持实时、流式的场景,需要通过Lambda架构维护实时、批量两套数据处理逻辑,带来重复开发、数据口径不一致、架构复杂等问题。
  3。数据湖。数据湖使用云上的对象存储,能够解决存储扩展性问题。然而数据湖原先是为存储任意类型的数据所设计,缺乏对元数据的组织管理,容易形成数据沼泽,难以发挥数据的价值。
  4。湖仓一体。湖仓一体作为新一代架构,仍然需要解决HadoopLambda架构的固有缺陷,即实时、批量无法统一。甚至由于对象存储的一些问题,实时计算的存储变得更加困难,性能也难以满足新兴的业务需求;各类SQL、AI的计算框架与对象存储的适配也不完善。
  数元灵科技认为,解决以上各类问题,首先需要有一套完善的湖仓存储,在云上提供数据高并发、高吞吐读写的能力和完整的数仓管理能力,并且将这样的存储能力以通用的方式提供给多种计算引擎访问;这也是数元灵科技研发LakeSoul的初衷。
  LakeSoul:构建现代化数据智能架构
  LakeSoul是北京数元灵科技自主研发的湖仓一体存储框架,也是目前国内唯一的开源湖仓平台。LakeSoul开源项目地址:https:github。commetasoulLakeSoul
  作为现代化的数据智能架构的底层支撑,LakeSoul具有以下几个核心能力:
  1。流批一体的存储
  LakeSoul在存储层面,统一支持实时和批量两种方式对湖仓中的数据进行更新写入和读取,不再需要分别开发两套不同的数据链路。这一方面大幅降低了开发成本,也消除了两套链路带来的数据口径不一致等问题,并且使用者不再需要维护多个存储系统,能够节省大量资源成本。
  2。在数据湖上构建数据仓库
  通过LakeSoul在数据湖上构建数据仓库,能够充分利用云原生架构下对计算资源和存储资源的弹性能力。LakeSoul针对对象存储做了专门的性能优化,在数据湖上构建出完整的实时数仓功能,支持数据的实时更新写入。湖仓一体化的方式大幅简化基础设施的使用门槛,并极大提升资源利用效率和性能。
  3。支持多种数据计算引擎
  数据的价值释放有多种方式,包括如报表分析和算法模型落地等。LakeSoul在统一的湖仓存储层之上,支持多种计算引擎,提供涵盖数据实时导入、数据分析、BI报表、AI模型训练等多种计算模式。使用一套湖仓存储即可完成全链路的实时数据智能业务搭建,开箱即用。开发者能够专注业务数据的处理逻辑,构建以数据为中心的开发范式。
  LakeSoul通过统一的实时、批量存储的核心能力,构建了流批一体、湖仓一体、分析智能一体的现代湖仓数据智能架构。
  基于LakeSoul的湖仓智能架构如下图所示:
  LakeSoul的核心技术特性解读
  1。高可扩展的Catalog元数据服务
  随着数据量的快速增长,数据仓库需要能够处理快速增加的分区和文件。LakeSoul使用PostgreSQL数据库来存储Catalog信息,提升元数据可扩展性和事务并发能力。
  LakeSoul通过精心组织元数据层表的主键和索引,对一个叶子级别分区只需要做一次主键操作就可以获得这个分区的所有信息,以及读写当前版本的snapshot等。一个分区的snapshot中包含了全量写入和增量更新的文件完整路径和提交类型。通过对snapshot中文件提交进行顺序的遍历,就可以构建出该分区读取计划。这样一方面分区信息访问很高效,另一方面也避免了对文件目录的遍历,对于S3、OSS这样的对象存储系统是比较重要的优化手段。LakeSoul的分区管理机制示意:
  2。支持并发写和ACID事务
  LakeSoul通过元数据服务实现了并发控制,在同一分区支持多个作业并发更新,通过智能区分写入类型来控制合并或回退机制。具体来说,当计算引擎产出要提交的各个分区的文件后,会首先提交分区文件更新的信息,例如全量更新或增量更新,然后通过元数据事务操作来更新读者可见的版本。在检测到并发更新发生的场景,LakeSoul会自动区分写入类型判断是否属于有冲突情形,并决定是自动解决冲突还是需要回退数据计算。冲突检测的具体规则如下表所示(X表示这种冲突不能自动解决,会通过抛异常的方式交给业务层处理):
  3。支持增量写入和Upsert更新
  LakeSoul提供了增量追加和行列级别Upsert的功能,支持MergeonRead模式,提升数据摄入的灵活性和性能。LakeSoul实现了高效的MergeonRead,在表具有主键的情况下,LakeSoul支持了更为高效的Upsert机制。在每个主键哈希分桶内,LakeSoul将文件根据主键进行排序。执行多次Upsert后,就获得了多个有序的文件。对于读取作业,只需要将这些有序文件进行归并,即可完成MergeonRead。Upsert的示意如下:
  通过这样的方式,写入时不需要读取并合并数据,提供了很高的写入性能。而经过优化的MergeReader保证了读性能不受损失。
  4。实时数仓功能
  LakeSoul支持流式和批量的写入,行列级别更新,通过SQL即可完成绝大部分更新操作,使用体验更接近于数据库。同时,LakeSoul支持MVCC多版本控制,并提供了快照读(TimeTravel)和版本回滚的功能。在2。0版本更新中,还支持了FlinkCDC实时写入,通过将CDC更新流转化为LakeSoul的Upsert操作,能够实现高效的实时入湖。通过对接FlinkTableAPI,同样能够通过几行SQL完成在线数据库的CDC入湖。
  5。开放生态
  LakeSoul使用Parquet作为文件存储格式,支持云上对象存储,并提供抽象统一的存储访问层,能够很方便的对接各类计算引擎。目前能够支持Spark、Flink,并支持将表分区自动导入到HiveMeta中。近期LakeSoul还将支持对接Presto等MPP计算引擎,从而更加完整地支持ETL、OLAP、AI模型训练等各类数据智能计算业务。
  LakeSoul的业务价值
  LakeSoul现代湖仓数据智能架构能够带来如下几个核心业务价值:大幅简化数据智能架构,降低运维成本计算成本降低,不需要多套存储不依赖Kafka或Flink等有状态服务避免资源潮汐效应简化开发流程,降低人力成本使用SQL、Python即可快速开发数据智能业务现有数仓逻辑可以快速迁移,改造难度低数据可靠,状态可见透明,提升数据使用效率每层计算结果实时可见、可查询,数据可复用上游补数、修复简单快捷,避免单点故障避免数据孤岛、数据冗余、数据沼泽全链路T0实时计算计算延迟大幅降低,天级降低到分钟级业务效果快速反馈
  LakeSoul应用场景举例
  1。实时数据快速导入湖仓
  使用LakeSoul提供的FlinkCDCSink功能,可以将在线数据库的变更实时同步到LakeSoul湖仓,不再需要T1导入作业,从数据源头实现实时化。并且得益于FlinkCDC,也不再需要额外部署Kafka等组件。实时数据入湖的架构流程:
  可以看到LakeSoul实时入湖只需要一条流式的链路即可完成入湖,不需要额外的批处理流程,既简化开发工作量,消除数据口径不一致,也简化了部署架构,显著降低了运维成本。
  2。实时分析报表
  LakeSoul的流批一体更新的特性,使得报表开发者不需要使用复杂的计算引擎接口来开发流式计算的作业,通过SQL即可完成实时的数据提取和转换和开发,无论是ETL还是数据分析的流程都更加简单:
  通过LakeSoul能够快速上线实时BI报表,随时高效支撑商业决策。
  3。AI应用落地
  在互联网搜广推业务中,需要不断积累用户的实时反馈,并结合历史数据进行模型训练,自然是流批一体发挥巨大价值的重要场景。通过LakeSoul可以很好地支持实时搜广推的OnlineLearning范式,构建实时的机器学习样本库,无缝对接AI模型的实时训练和在线推理,实现数据智能化的应用。
  结语
  LakeSoul作为当前国产唯一的开源湖仓一体框架,近期发布了2。0版本,增加了FlinkCDC、快照回滚、Hive对接等业务生态功能,进一步增强和丰富了在实际生产环境中的业务落地能力。LakeSoul带来现代化的湖仓数据智能架构,能够大幅降低数据智能应用的开发运维门槛,让数据智能成为触手可及的技术,充分释放数据的业务价值红利。
  通过下文链接,直接访问Github:https:github。commetasoulLakeSoul
投诉 评论 转载

陈冲携女现身,母女二人长相身材神似,但女儿穿搭不如妈妈精致作为叱咤影坛的实力派演员,很多女明星已经摆脱曾经的光环回归生活,偶尔出现在大众面前也让不少观众怀念从前,陈冲曾弃养双胞胎养女引起大众争论,而如今的她带着亲生女儿现身尽显慈母形象……中超0双杀止连败,10人沧州9轮不胜北京时间7月12日,中超第一阶段最后一轮(第10轮)的最后一场比赛中,天津津门虎迎战沧州雄狮。第21分钟,赵英杰一脚似传似射因为沧州门将邵璞亮的失误入网为津门虎打破僵局,第40……寸土不让!翟晓川和印尼小将争球,笑容灿烂就不给你,杜锋抬手17月18日消息,18日晚上2022男篮亚洲杯的复赛,中国男篮以10858大胜印度尼西亚。本场比赛,翟晓川只得到3分2篮板,但是在防守中表现出的顽强令人印象深刻,尤其是和19岁印……湖仓才是数据智能的未来?那你必须了解下国产唯一开源湖仓了机器之心发布机器之心编辑部国产唯一的开源数据湖存储框架LakeSoul近期发布了2。0升级版本,让数据智能触手可及。湖仓一体作为新一代大数据技术架构,将逐渐取……净赚238。64亿元!特斯拉上海工厂功不可没,工人年薪过10马斯克的口袋鼓起来了!据特斯拉三季度财报表现来看,特斯拉今年79月实现营收214。54亿美元,同比增长56。净利润为33亿美元(约238。64亿人民币),同比增长103。……智电生活智能插座认证测试标准介绍摘要:如今这个高速发展的时代,智能家居的发展已经势不可挡,智能家居不仅为我们提供了操作便利,同时也带来了美观,避免了错综交叉的电源线密布的环境。智电生活智能插座认证测试标……小牛SUV将上市!增程纯电两种动力,5。9秒破百,纯电续航5提起小牛,大家首先想到的肯定是电动车。毕竟它的出现打破了常规电动车在智能化、高端化定位上的空缺,备受年轻消费者喜爱。而随着新能源汽车市场的大爆发,越来越多的新势力车企诞生……本山传媒多位艺人退出,娇娇警告老东家,逼得太紧啥事都能干出来本山传媒现在真是多事之秋,多位艺人都选择退出,这不禁让人回忆起娇娇之前的控诉:本山传媒工资太低。《乡村爱情》中谢永强、皮长山、王小蒙的扮演者贺树峰、孟令宇、毕畅都在近日宣……正式入网!华为Mate40的接班人来了?麒麟芯片5G网络换汤受限于美国政府的制裁禁令,华为的手机业务快速萎缩,出货量一跌再跌。为了抵御危机,华为想出了很多办法,先是自研鸿蒙操作系统,随后又一鼓作气割舍掉了子品牌荣耀。而现在,华为居……千万不要小看了晚餐,很多人不知道它对健康至关重要一天工作完成,很累,晚上好好吃一顿,犒劳一下自己,你是不是也经常这么做?但是这样做经常吃得丰富,大鱼大肉使血糖、血脂、血压也都容易升高有健康专家说,晚餐的作用14是……中国男篮近期将前往法国继续海外拉练北京青年报记者9日获悉,中国男篮计划在这两天就将从西班牙启程前往法国,继续海外拉练,进行队伍磨合。中国男篮这次海外拉练的主要目的是为了备战世预赛下个阶段比赛。中国男篮此前……马斯克与谷歌SergeyBrin的妻子搞婚外情跪求原谅谷歌联合创始人SergeyBrin是ElonMusk的老朋友和投资人。据外媒《Vice》报道,Musk和Brin之前经常与谷歌联合创始人LarryPage聚在一起交流想法……
布克24分保罗16助攻,太阳大胜黄蜂紧咬勇士汤普森回归在即他真慌了!首发被剥夺,他用全场最高分为自己证明专家说肿瘤患者误食这些,中药效果大打折扣换季攻略养成这5个护肤习惯,你也可以皮肤不敏感,拥有好皮肤海天味业下跌71后,再次跳空下跌,股票价格创新低一起带领大家领略瑞士少女峰国羽男单独苗退赛!何冰娇弃权引争议,为让陈雨菲保留体力冲冠?钟南山院士分享的早餐中有黑米粥,黑米有什么好处?5类人不宜吃布莱克尼42分!肯帝亚克强敌获两连胜九江市妇幼保健院助薄型子宫内膜患者一次试管成功受孕下月迎来一波新机潮,三款顶尖旗舰手机即将发布,有你喜欢的吗?拼多多价格普遍便宜,从业者道出实情,你知道原因吗?
塑料袋和蔬菜一起放进冰箱保鲜效果更好吗九寨沟旅游需知十个问题企业战略与财务战略谢谢你妈妈以陪伴为题的800字作文微商时代,如何赚钱?夏季怎么吃粗粮养生莲雾能和芒果一起吃吗莲雾和什么相克抖音与腾讯视频达成合作,并不代表“头腾大战”落幕热评聚热点网 水母嫁给二婚男10年,44岁的陈数居然变成这样了“中华人民共和国”原本多出哪两个字

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找江西南阳嘉兴昆明铜陵滨州广东西昌常德梅州兰州阳江运城金华广西萍乡大理重庆诸暨泉州安庆南充武汉辽宁