城市直播房产教育博客汽车
投稿投诉
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

ElasticSearch原理及应用

6月6日 长歌行投稿
  ElasticSearch是一个分布式、基于RESTful风格的数据搜索和分析引擎。ElasticSearch的底层全文检索基于Lucene实现,其灵活的数据存取和分析方式、良好的性能和稳定性使其在大数据存储和分析领域被广泛使用。
  ElasticSearch的概念和原理
  Lucene
  ElasticSearch的底层存储基于Lucene实现,Lucene是Apache软件基金的一个开源子项目,是一套全文检索引擎架构,提供了完整的文本分析引擎、数据查询引擎和数据索引引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以便在目标系统中实现全文检索的功能,或者以Lucene为基础建立一套完整的全文检索引擎。
  倒排索引InvertedIndex
  倒排索引表中的每一项都包括一个属性值和具有该属性值对应记录的地址。由于不是按照记录来确定属性值的,而是由属性值来确定记录的位置的,因此被称为倒排索引。
  带有倒排索引的文件被称为倒排索引文件(InvertedFile)。倒排索引的索引对象是文档或者文档集合中的单词,倒排索引文件被用来存储这些单词在一个文档或者一组文档中的位置。
  Lucene的架构
  Lucene是一个高并发、高吞吐、可扩展的全文检索库。它基于Java实现,使用方便。Lucene内部的数据结构叫作文档(Document),当应用层的数据(例如,FileSystem、WebData、DataBase等)进入Lucene时,首先会进行索引文档(IndexDocument)操作,按照索引规则创建倒排索引;在应用程序查询数据的时候,直接查询提前建好的倒排索引,因此其效率十分高。
  Lucene的全文检索流程
  创建索引:获取文档、构建文档对象、文档分词和创建索引;
  查询索引:调用查询接口、创建查询、执行查询和结果返回。
  创建索引流程:
  (1)获取文档:获取文档的过程即数据采集的过程。Lucene中的文档指要索引和搜索的原始内容。文档内容可以是互联网上的网页、数据库中的数据、磁盘上的日志文件等。
  (2)构建文档对象:当获取文档内容后,需要根据文档内容构建文档(Document)对象,每个文档对象都包含一个唯一的文档id和多个Field,每个Field中都存储着不同的文档内容。例如,将磁盘上一个包含一篇文章的TXT文件当成一个Document,则Document中包含多个Field。每个Field都包含不同的内容,比如filename(文件名称)、filepath(文件路径)、filesize(文件大小)、filecontent(文件内容)。
  (3)分析文档:分析文档的过程是将原始内容创建为包含Field的文档(Document)并对Field的内容进行分析的过程。分析文档的过程需要对原始文档执行提取单词、大小写转换、去除标点符号、去除停用词等操作,然后生成最终的语汇单元。语汇单元中的每个单词都被叫作一个Term,不同的Field拆分出来的相同单词是不同的Term。Term中包含两部分:一部分是文档的Field名称,另一部分是单词的内容。
  4)创建索引:创建索引指对所有文档分析得出的Term都进行索引并记录该Term在每个Document中出现的次数的过程。
  查询索引流程:
  查询索引即根据用户输入的关键字,从索引(Index)中进行搜索的过程。查询索引的具体过程为:根据关键字搜索索引,根据索引找到对应的文档,从而找到要搜索的内容。
  (1)用户查询接口:全文检索系统提供的用户搜索界面,实现用户搜索关键字或关键词的提交,以及搜索完成后搜索结果的展示。
  (2)创建查询对象:用户在输入关键字执行搜索之前,需要先构建一个查询对象。查询对象中可以指定要搜索的文档Field、关键字等。
  (3)执行查询:根据查询语法在倒排索引词典表中分别找出对应搜索词的索引,从而找到索引对应的文档链表。搜索过程为在索引中查找Field为fileName且关键字为Lucene的Term,然后根据Term找到对应的文档id列表。
  (4)返回查询结果:将查询的文档id列表返回到用户查询接口。
  ElasticSearch的特点
  (1)高容量:ElasticSearch集群支持PB级数据的存储和查询。
  (2)高吞吐:ElasticSearch支持对海量数据近实时的数据处理。
  (3)高可用:ElasticSearch基于副本机制支持部分服务宕机后仍可正常运行和使用。
  (4)支持多维度数据分析和处理:除了支持全文检索,ElasticSearch还支持基于单字段精确查询和多字段联合查询等复杂的数据查询操作。
  (5)API简单易用:ElasticSearchAPI简单易用,除了支持RESTAPI,还支持Java、Python等多种客户端形式,且查询方式简单灵活。
  (6)支持插件机制:ElasticSearch支持插件式开发,基于ElasticSearch可以开发自己的分词插件、同步插件、Hadoop插件、可视化插件等。
  ElasticSearch的应用场景
  (1)全文检索
  (2)分布式数据库
  (3)日志分析:通过Logstash等日志采集组件,ElasticSearch可实现复杂的日志数据存储分析和查询,最常用的组合是ELK(ElasticSearchLogstashKibana)技术组合。
  (4)运维监控:运维平台可以基于ElasticSearch实现大规模服务的监控和管理。(5)BI系统:ElasticSearch广泛应用于BI(BusinessIntelligence,商业智能)系统,例如按照区域统计用户的操作习惯等。
  ElasticSearch的数据模型
  ElasticSearch的数据模型由Index(索引)、Type(类型)和Document(文档)组成。索引是一组具有共同特征的文档集合。每个索引都包含多个类型,每个类型都包含多个文档,每个文档都包含多个Field。
  ElasticSearch分布式架构
  ElasticSearch基于分布式的架构能够支撑PB级数据的搜索和分析。ElasticSearch分布式架构的核心内容包括集群节点角色、集群选举原理、集群状态、数据路由规则、数据分片和副本策略等。
  集群节点角色
  ElasticSearch集群节点角色包括:
  MasterNode(主节点):主要负责集群节点状态的维护、索引的创建删除、数据的Rebalance、分片的分配等工作。MasterNode不负责具体数据的索引和检索,因此其负载较低,服务比较稳定。当MasterNode宕机时,ElasticSearch集群会自动从其他MasterNode中选举出一个Leader继续为集群提供服务。为了防止在选举过程中出现脑裂现象,常常需要设置discovery。zen。minimummasternodesN21,其中N为集群中MasterNode的个数。建议集群中MasterNode的个数为奇数,如3个或者5个。一个节点只包含MasterNode角色的配置如下。
  在一般生产环境中,为了保障MasterNode的稳定运行,不建议在MasterNode上配置数据节点。
  DataNode(数据节点):DataNode是集群的数据节点,主要负责集群中数据的索引创建和检索,具体操作包括数据的索引、搜索、聚合等。DataNode属于IO、内存和CPU密集型操作,需要的计算资源较大,如果资源允许,则建议使用SSD以加快数据读写的效率。
  设置一个节点为DataNode的配置如下。
  IngestNode(提取节点):IngestNode是执行数据预处理的管道,它在索引之前预处理文档。通过拦截文档的Bulk和Index请求,然后加以转换,最终将文档传回Bulk和IndexAPI,用户可以定义一个管道,指定一系列预处理器。如果集群有复杂的数据预处理逻辑,则该节点属于高负载节点,建议使用专用服务器。
  CoordinatingNode(协调节点):CoordinatingNode用于接收客户端请求,并将请求转发到各个DataNode上。各个DataNode在收到请求后,在本地执行请求操作,并将请求结果反馈给CoordinatingNode,CoordinatingNode在收到所有DataNode的反馈后,进行结果合并,然后将结果返回客户端。
  TribeNode(部落节点):允许TribeNode在多个集群之间充当联合客户端,用于实现跨集群访问。在5。4。0版本以后,TribeNode已经被废弃,并不建议使用,其替代方案为crossclusterSearch。
  数据路由规则
  ElasticSearch的数据路由(Routing)规则用于确定文档存储在哪个索引(Index)的哪个分片(Shard)上。根据路由规则,ElasticSearch将不同文档索引到不同索引的不同分片上。在查询文档的时候,ElasticSearch根据路由规则找到该索引及其对应的分片并查询该文档。
  上述公式简述为文档所在分片等于routing的Hash值除以主分片数量(numberofprimaryshards)的余数。这也是为什么ElasticSearch索引的主分片数量在确定后就不能再修改的原因,因为如果主分片数量发生变化,则之前路由的所有分片都会失效。在使用时,所有API(get、index、delete、bulk、update以及mget)都接收一个叫作routing的路由参数,通过这个参数应用程序可以自定义文档到分片的映射。一个自定义的路由参数可以用来确保所有相关的文档(例如所有属于同一个用户的文档)都被存储到同一个分片中。
  文档分片和副本策略
  ElasticSearch文档分片的原则如下。
  (1)ElasticSearch中的每个索引都由一个或多个分片组成,文档根据路由规则分配到不同分片上。
  (2)每个分片都对应一个Lucene实例,一个分片只能存放Integer。MAXVALUE1282147483519个文档。
  (3)分片主要用于数据的横向分布,ElasticSearch中的分片会被尽可能平均地分配到不同节点上,当有新的节点加入时,ElasticSearch会自动感知并对数据进行relocation操作(例如,有2个节点,4个主分片,那么每个节点都将会分到2个分片,当再增加2个节点后,ElasticSearch会自动执行relocation操作,这时每个节点都将会分到1个分片),relocation保障了集群内数据的均衡分布。
  ElasticSearch文档副本的策略如下。
  (1)ElasticSearch的副本即主分片(PrimaryShard)对应数据的副本分片(ReplicaShard)。
  (2)为了防止单节点服务器故障,ElasticSearch会将主分片和副本分片分配在不同节点上。ElasticSearch的默认配置是一个索引包含5个分片,每个分片都有1个副本(即5Primary5Replica10个分片)。
  ElasticSearch的写操作流程
  ElasticSearch的写操作
  ElasticSearch的写操作主要包括索引的创建和删除,以及文档的创建、删除、更新等操作。ElasticSearch首先会在主分片上执行写操作,当主分片上执行成功时,根据集群的数据一致性要求,将在其他副本分片上执行写操作,只有达到一致性要求的节点都执行成功后才向客户端发送成功响应。
  (1)客户端向Node1发送新建、查询或者删除文档的请求。节点根据文档的id为1确定文档属于分片1。
  (2)因为分片1的主分片P1被分配在Node3上,所以请求会被转发到Node3。
  (3)在Node3的主分片上执行请求,如果执行成功,则将请求同时转发到Node1和Node2的副本分片R1上执行。
  (4)当所有副本分片都报告执行成功时,Node3才向协调节点报告执行成功。
  (5)协调节点向客户端报告成功。当客户端收到成功响应时,文档更新已经在主分片和所有副本分片上都执行成功。
  ElasticSearch的读操作流程
  ElasticSearch在处理读取请求时,协调节点在每次收到客户端请求的时候都会通过轮询所有副本分片来达到负载均衡。当检索时,被索引的文档可能已经在主分片上,但是还没有同步到副本分片。在这种情况下,副本分片可能会报告文档不存在,但是主分片可能会成功返回文档。一旦索引请求成功返回用户,文档在主分片和副本分片上都是可用的。
  (1)客户端向Node1发送文档读取请求。
  (2)协调节点Node1根据文档的id来确定文档属于分片1。分片1的文档数据存在所有3个节点上。在这种情况下,它将请求转发到Node2。
  (3)Node2在本地执行查询操作并将查询结果返回到Node1。
  (4)Node1(此时Node1为CoordinatingNode角色)接收Node2的查询结果,如果查询到请求对应的文档,则将该文档返回客户端。如果在Node2上未查询到对应的文档数据,则Node1会继续向其他节点发送文档读取请求,直到查询到文档对应的数据后才返回。如果要读取的文档在所有节点上都不存在,则向客户端报告文档不存在。
  ElasticSearch的应用
  ElasticSearch广泛应用于大数据存储、日志分析、运维监控等多种场景,支持单机部署和集群部署两种方式。在API使用层面,ElasticSearch支持JavaAPI和RESTAPI两种方式。下面将对集群部署和API使用进行介绍。
  ElasticSearch的安装
  (1)安装Java环境,ElasticSearch建议JDK版本大于1。8。
  (2)各服务器之间互信配置。
  (3)到官网下载安装包,ElasticSearch官网的下载。
  (4)执行以下命令修改集群配置文件elasticsearch。yml。
  需要修改的核心配置如下
  (5)执行以下命令启动ElasticSearch。
  (6)在命令行输入curlhttp:localhost:9200查看ElasticSearch集群的状态,返回结果如下。
  通过上述接口的查询结果可以看到,ElasticSearch集群名称为elasticsearch,集群id为383fPBn4R12SR4msaqaeQ,集群版本为7。4。2,对应的Lucene版本为8。2。0。
  ElasticSearch的配置和性能调优
  JVM性能调优
  ElasticSearch基于Java实现,默认使用的堆内存为1GB,对于生产环境需要根据系统资源对堆内存进行合理的设置以达到良好的性能表现。执行以下命令对JVM堆内存进行设置。
  如果操作系统有32GB内存,则建议将JVM堆内存的最小值和最大值都设置为16GB。
  这里将堆内存最小值(Xms)与最大值(Xmx)设置相同,防止在ElasticSearch运行过程中JVM改变堆内存大小,引起JVM内存震荡。
  需要注意的是,ElasticSearch除了使用JVM堆内存,其内部Lucene还需要使用大量非堆内存。ElasticSearch内部使用Lucene实现全文检索。Lucene的段分别存储在单个文件中,因为段是不可变的,对缓存友好的,所以在使用段数据时操作系统会把这些段文件缓存起来,以便更快地访问。同时,Lucene可以利用操作系统底层机制来缓存内存数据,加速查询效率。
  Lucene的性能取决于与操作系统交互的速度,而这些交互都需要大量的内存资源(非JVM堆内存),如果把全部内存都分配给JVM堆内存,则将导致Lucene在运行过程中因资源不足而性能下降。一般建议将系统的一半内存分配给JVM堆内存,另外一半内存预留给Lucene和操作系统。比如有32GB内存,可以把16GB分配给JVM堆内存,剩余的16GB预留给Lucene和操作系统。
  操作系统的性能调优
  (1)设置文件句柄:Linux中的每个进程默认打开的最大文件句柄数都是1024,对于服务器进程来说该值太小,可以通过修改etcsecuritylimits。conf来增大打开的最大文件句柄数,一般建议设置为65535。
  (2)设置虚拟内存:maxmapcount定义了进程能拥有的最多内存区域,一般建议设置为102400。
  (3)关闭Swap:Swap空间是一块磁盘空间,操作系统使用这块空间保存从内存中交互换出的操作系统不常用的Page数据,这样可以分配出更多的内存做PageCache。通过Swap可以提升系统的吞吐量和IO性能,但ElasticSearch需要一个所有内存操作都能够被快速执行的环境,服务一旦使用到了Swap内存,就会大大降低数据的存取效率,严重影响性能。
  (4)开启mlockall:打开配置文件中的mlockall开关。它的作用是允许JVM锁住内存,禁止操作系统将内存交换出去。elasticsearch。yml文件中的设置如下
  ElasticSearchAPI的使用
  ElasticSearch支持JavaAPI和RESTAPI两种方式,下面以JavaAPI为基础介绍ElasticSearchAPI的基本用法。
  基于SpringBoot建立ElasticSearch项目的步骤如下。
  (1)添加pom。xml依赖:新建SpringBoot项目,并在pom。xml中添加如下ElasticSearch依赖。
  (2)application。yml配置:在项目中添加application。yml配置文件,并在文件中配置ElasticSearch的服务地址和端口
  (3)创建索引:定义BaseElasticService类,并在类中定义创建索引的方法createIndex。具体代码如下
  上述代码中依赖的是RestHighLevelClient实例,SpringBoot会根据配置文件进行自动装配,应用程序只要在需要的时候依赖注入即可。上述代码定义了索引的创建方法createIndex,具体步骤为:定义CreateIndexRequest对象,设置索引的分片数量和副本数量,调用restHighLevelClient。indices()。create()创建索引。
  (4)查询索引:在BaseElasticService类中按照如下代码定义查询索引的方法getIndex。
  (5)删除索引:在BaseElasticService类中按照如下代码定义删除索引的方法deleteIndex。
  (6)使用索引API:创建测试类ElasticsearchTest,并在类中添加测试用例IndexAPITest,测试上述(3)~(5)的代码定义的createIndex、getIndex和deleteIndex方法。
  上述代码在测试类ElasticsearchTest中依赖注入BaseElasticService,并调用createIndex、getIndex和deleteIndex方法实现索引的创建、查询和删除。
  (7)新增文档:在BaseElasticService中添加如下新增文档的方法。
  上述代码定义了向ElasticSearch中添加文档的方法add,具体步骤为:定义IndexRequest对象,设置文档id,设置文档数据,执行创建索引操作,返回创建结果。
  (8)批量新增文档:在BaseElasticService中添加批量新增文档的方法。
  上述代码定义了批量新增文档方法batchAdd,具体步骤为:定义BulkRequest对象;遍历List,将文档id和文档内容封装到BulkR批量提交插入操作;返回插入结果。
  (9)查询文档:在BaseElasticService中添加如下查询文档的方法。
  上述代码定义了文档查询方法search,具体步骤为:定义SearchRequest对象,设置SearchSourceBuilder,执行查询,获取查询结果,将查询结果的数据存入List,返回查询结果。
  (10)删除文档:在BaseElasticService中添加如下删除文档的方法。
  上述代码定义了deleteBatch方法用于根据文档id批量删除文档,具体步骤为:定义BulkRequest对象;遍历List,将Index和待删除文档id封装到BulkR执行批量删除操作。
  (11)执行文档的新增操作测试:在DocumentAPITest中添加文档的新增测试用例,并按照如下代码测试文档的新增操作。
  上述代码定义了添加文档测试用例AddAPITest,添加文档分为单个文档添加和批量文档添加。需要注意的是,上述代码将Map的数据结构转换为JSON字符串后作为文档内容添加到ElasticSearch。
  (12)执行文档的查询操作测试:在DocumentAPITest中添加文档的查询测试用例,并按照如下代码测试文档的查询操作。
  (13)执行文档的删除操作测试:当文档不再被需要时,应用程序可以执行如下代码根据文档id删除文档。
投诉 评论 转载

教育部点名通报,这些竞赛都是违规的11月9日,教育部官网公示了一则通报信息,披露近期教育部指导地方接连查处的多起违规竞赛。教育部表示,2018年以来,教育部持续规范面向中小学生的全国性竞赛活动,连续四年公布通过……ElasticSearch原理及应用ElasticSearch是一个分布式、基于RESTful风格的数据搜索和分析引擎。ElasticSearch的底层全文检索基于Lucene实现,其灵活的数据存取和分析方式、良……至少20地已发出通告抵达不满3或5天不得进入部分公共场所近日,全国多地调整关于外地来返人员的疫情防控措施。据不完全统计,截至11月24日17时,已有上海、江西南昌、黑龙江哈尔滨、安徽合肥、江西高安、湖南长沙、郴州、张家界、岳阳平江县……未开花我承认,我是个不良少女,初中就恋爱了,还是初一!不过,有一点我可以确定的是:这份爱,不会太长没错,我的感觉是对的。这爱,仅仅维持了3个月零几天今天是1月4日,……初二物理教师工作计划在教学过程中,教学计划的编制工作是教师的重要工作职责,面对八年级的物理教学,教师工作计划需要怎么写?一起来看看美文网小编为大家精心整理的2018初二物理教师工作计划,欢迎大家阅……联通电信推出存78元话费三年不停机,白得手机,谁是大受益者?作为曾经运营商中的一员,有时候推出的活动是确实划算,不过最近这几年的活动可以说是环环相套,问清楚他们附加的条件:(1)是不是需要绑定支付宝(2)能不能机卡分离(3)三年期间如果……明日端午节,除了吃粽子,这3菜3肉1汤记得吃,除湿热,顺应节明日端午节,除了吃粽子,这3菜3肉1汤记得吃,除湿热,顺应节气。明天就是端午节了。端午节很多人都会放假在家里,做些美食和家人一起享用。端午节是比较隆重的传统节日。端午节到来,肯……新车经典风格回归!搭载海神V6动力,玛莎拉蒂GranTuri文:懂车帝原创周桐〔懂车帝原创产品〕近日,我们从海外媒体处获取到一组玛莎拉蒂全新GranTurismo的车型官图。新车将拥有全新的外观和内饰设计,继续主打双门GT跑车市场……邻近造句用邻近造句大全121)本校邻近调景岭港铁站;设有校巴服务。122)一跨过村界,你就会看到南街村和邻近农村的差别非常明显。123)目的观察颞下间隙及邻近结构的解剖学关系,为颞下间隙……个人述职述廉总结第1篇第2篇第3篇第4篇第5篇更多顶部第一篇:2014年度个人述职述廉总结第二篇:2014年个人述职述廉总结第三篇:个人述职述廉总结第四篇:2014年度个人述职述廉总结第……组图三明市各地掀起学雷锋活动热潮东南网3月9日讯雷锋以他短暂的一生谱写了平凡而伟大的人生篇章,树起了一座令世人敬仰的思想道德丰碑。60年来,雷锋精神享誉中华大地,不断滋养着中华儿女的精神世界,激励一代又一代人……后路造句用后路造句大全61、结论:俯卧位与侧卧位均为后路腰椎间盘摘除术常用的手术体位,采用双轨可调式拱形脊柱支架摆置俯卧位比侧卧位有明显的优越性。62、而你,却太没有安全感,别人对你好一分,你……
高龄女性做试管婴儿为什么容易失败?01日本,两连败小组垫底,国足后面保持全胜,能出世界杯吗?一个人认知度越来越高的两种表现顺治皇帝感天动地的爱情故事1990年,于风至临终前留下8字遗言,张学良得知遗言放声大哭立足实战铸铁军春日练兵正当时鲁西新区特巡警掀起春训实战大练兵僧实千里救难天空传来音乐,人们出寺观看,寺院猛然倒塌7岁小孩励志当太监,哭求父亲为他净身,不料刚割完大清就亡了省内高手如云,常州为何能抢到动力电池?斯特林加盟切尔西后拿队内第二高薪!周薪30万镑是若日尼奥的三论马其顿军事体系在希腊化国家中的继承发展与衰亡售价168万元极星6LAConceptedition开启预订乳胶枕头为什么不能晒乳胶枕头晒太阳后有味还能用吗欣赏四季的美钢材合同为中华之崛起而读书打工妹寝室另类的性生活“美男计”让你成功掳获她的芳心后结交行变形记神仙妹妹梁小友,辍学染发当网红,网友变坏了?《老人与海》读书笔记最新女生染发设计个性裙摆染超亮眼【协作者专栏】协作者携手GAP:开展P。A。C。E。公益课程养虎遗患的故事

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找