城市直播房产教育博客汽车
快传网
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

基于LDA主题模型的标签推荐方法研究

5月17日 寒霜坞投稿
  〔摘要〕针对现有的标签推荐方法存在的推荐准确率不高与效果不理想等问题,本文提出了基于LDA主题模型的社会化标签推荐方法。该方法利用LDA主题建模技术将传统的基于对象间关系的推荐方法扩展到融合对象间关系与资源内容特征的统一推荐。实验结果表明,该方法取得了理想的预期效果,能够显著提高标签推荐的质量与效果。
  〔关键词〕标签推荐;LDA主题模型;推荐方法
  DOI:10。3969j。issn。10080821。2016。02。010
  〔中图分类号〕G203〔文献标识码〕A〔文章编号〕10080821(2016)02005304
  〔Abstract〕ThispaperproposesasocialtaggingrecommendationmethodbasedonLDAtopicmodeltosolvetheproblemsofaccuracyandeffectinexistingtaggingrecommendationmethod。ThismethodextendsthetraditionaltaggingrecommendationmethodbasedontherelationofobjectstocombineanalysisoftherelationofobjectsandthecontentofresourcebyusingofLDAmodelingtechnology。Theexperimentresultshowsthatthismethodsgetsagoodexpectantperformanceanddramaticallyimprovethequalityandefficiencyoftaggingrecommendation。
  〔Keywords〕LDArecommendationmethod
  标签作为Web2。0时代信息分类与索引的重要组织方式,其主要原因在于Web2。0强调以用户为中心、用户参与的互联网开放式架构理念,网络信息的产生、发布从传统的网站管理者转移到普通的网络用户身上;但由于普通用户对专业的信息分类体系缺乏了解,基于传统的固定分类体系的信息组织方法难以适应Web2。0时代的信息发布与组织模式。标签系统作为传统分类方法的替代,其随意、灵活、无等级划分的特征使得用户能够很容易利用该系统进行Web2。0上的信息分类与组织,成为Web2。0时代网络信息的重要组织方式〔1〕。随着社会化标注系统的快速发展,用户在使用这类系统进行资源标注时,通常会选择其他用户或自己已使用过的标签进行资源推荐,而由于社会化标签创建的随意性和个性化,难以保证标签的准确性和可用性,且随着用户数量和资源规模的增长,标签数量也随之增多,致使标签系统中存在大量模糊的、可信度低的标签。为解决这些问题,目前的研究主要集中在标签推荐领域,即利用高效的标签推荐方法提升资源所附带标签的质量〔2〕。现有的标签推荐方法主要分为3类:
  (1)基于资源内容的标签推荐方法。基于资源内容的标签推荐方法从标注资源所具备的属性特征出发,通过提取描述资源内容的关键词作为标签推荐的依据。由于该方法在处理过程中仅仅利用了资源本身的信息,没有兼顾相似资源、邻居用户等信息,无法发挥标签的社会化特性,在实际运用过程中的准确率与效率并不理想〔3〕。
  (2)基于协同过滤的标签推荐方法。基于协同过滤的标签推荐方法利用协同过滤技术获取相似资源、邻居用户等标签信息,实现对目标资源的推荐,如Hotho等〔4〕提出的FolkRank方法利用社会化标注系统中用户、标签、资源三者之间存在的关联信息对标签进行排序,根据排序结果进行协同推荐;Mishne〔5〕提出的AutoTag方法利用相似度计算获取与目标资源内容相似的资源,并将相似资源的标签进行聚类、排序,根据排序结果实现协同推荐。这类方法的关键是准确获取相似资源的标签信息,然后从已有的标签库中查找到相似标签进行推荐,故该方法的推荐效果会受到候选标签库规模、标签相似度计算方法准确度的影响〔6〕。
  (3)基于标签语义的标签推荐方法。基于标签语义的标签推荐方法利用用户、标签、资源三者之间蕴含的语义关系获取推荐标签所需的知识并运用到推荐任务中,提高标签推荐的准确性与推荐效果,如Adrian〔7〕提出的ConTag方法将本体思想运用到标签推荐之中,通过将用户、标签、资源三者之间的关系表达成RDF格式进行文档主题建模,实现基于语义主题的标签推荐;Marchetti等〔8〕提出的Semkey方法将语义网与协同过滤技术相结合进行基于语义协作的标签推荐。
  这些标签推荐方法在一定程度上提高了标签推荐的准确性与效率,改善了社会化标签系统的质量和效果。但这些方法主要利用对象间关系进行标签推荐,忽略了资源本身的特征信息,当用户、标签、资源之间的关系比较稀疏时,会严重制约标签推荐的准确度与效果。针对这些问题,本文研究和设计了一种基于LDA(LatentDirichletAllocation,LDA)主题模型的标签推荐方法。该方法综合考虑用户、标签、资源之间的潜在关系及资源内容特性,利用LDA主题模型将用户、标签、资源及资源内容进行关联,实现标签系统中对象间关系与资源内容的融合分析与综合推荐。
  1LDA主题模型原理
  LDA主题模型是一个以文档主题关键词为层次结构、通过加入Dirichlet先验分布来解决PLSA主题模型中存在的过拟合现象的三层贝叶斯概率模型,其基本思想是〔9〕假设任何文本都可以表示成一系列主题的混合分布,记为P(z);同时任意主题都是关键词列表中所有单词的概率分布,记为P(wz),则一个文本中每个关键词的概念分布为:P(wi)kj1P(wizij)P(zij)
  LDA主题模型认为文档是若干关键词的集合,在构建主题模型过程中不考虑任何语法或词语出现的顺序关系,利用该模型产生文档的贝叶斯网络图如图1所示。
  图1中,随机变量表示目标文档中的主题分布向量,隐含变量z表示目标文档分配在每个关键词上的N维主题向量,用来体现文档与关键词之间的潜在关系,w表示目标文档中关键词的向量表示,、分别表示文档和关键词满足相应的Dirichlet分布时的参数。
  利用LDA模型进行文档主题建模时的核心问题是估计隐含变量的概率分布情况,即获取目标文档中隐含主题分布和各隐含主题的关键词分布,其处理过程描述如下:
  (1)获取文档d中每个主题发生的概率d,即抽取服从Dirichlet()分布的d值,其中是Dirichlet分布的参数;
  (2)获取文档d中每个关键词wi的抽样主题zi,即从d的多项式分布中抽取满足条件的zi:P(zi);
  (3)获取文档d中所有关键词的向量表示wi,即从zj的多项式分布中抽取满足条件的wi:P(wizj,)。
  上述处理过程中,主要用来描述特定主题条件下生成的某个关键词的概率,是以主题数目K和特征关键词V组成的二维向量空间为表现形式,即KV,且ijP(wj1zi1)。对于给定的语料库D,LDA主题建模过程就是通过z和的值获取使得P(D,)极大化时参数和的值,通过这些参数值得到文档的主题分布情况以及所有关键词所属的主题类别。由于z和均为潜在变量,通过直接计算是无法得到的,常用的方法是通过吉布斯抽样、变分贝叶斯、最大似然估计等方法进行参数估计〔10〕。
  2基于LDA主题模型的标签推荐方法
  将LDA主题模型运用到社会化标签推荐方法中的典型研究包括Harvey等〔11〕提出的基于LDA主题建模的TTM方法,该方法将标签系统中的用户、标签、资源分别构建相应的主题模型,使其可以估计用户与资源的主题分布情况以及标签关键词的主题分布;Subram等〔12〕将资源的相似性视为依条件概率的随机过程,并将其融入到标签主题的建模中,在此基础上提出了基于RegularizedLDA主题建模的标签推荐方法,验证了LDA主题模型在标签推荐方面具有很好的可扩展性。本文在这些研究的基础上,将LDA主题模型融入社会化标签推荐方法之中,研究和设计了基于LDA主题模型的社会化标签推荐方法。本文方法与这些已有方法的区别主要体现在本文方法将社会化标注系统中的用户、标签、资源及资源内容特征进行融合分析,构建统一的LDA主题模型,使标签推荐从传统的分析对象间关系扩展到融合关系与资源内容特征的综合分析,实现基于关系与内容特征的主题建模与推荐,该方法的贝叶斯网络图如图2所示。
  图2中,D表示文档资源的总数,N表示文档资源中资源内容特征关键词的总数,M表示资源标签中关键词的总数,K表示所有文档资源中包含的主题总数,L表示所有标签中包含的主题总数。利用该模型进行主题建模的过程如下:
  (1)针对任意文档资源di,抽取服从Dirichlet()分布的ci和ti,其中,ci表示文档资源di中主题为k的概率,主要针对文档资源本身内容特征获取主题;ti表示文档资源di的标签中关键词的主题为l的概率,主要针对文档资源标签中的关键词获取主题;
  (2)针对文档资源本身内容特征,选取服从Dirichlet()分布的k,其中,k表示对于给定的主题k,所能得到的所有资源特征关键词的概率;针对文档资源标签中的关键词,选择服从Dirichlet()分布的l,其中,l表示对于给定的主题l,所能得到的所有标签关键词的概率;
  (3)针对文档资源di中的所有内容特征关键词,根据抽取的ci得到相应的主题zc,再根据zc选择主题词针对文档资源di标签中的所有标签关键词,根据抽取的ti得到相应的主题zt,再根据zt选择主题词wt。
  针对上述过程中出现的参数,本文采用吉布斯抽样方法〔13〕进行参数学习,并通过将文档资源内容和资源标签进行分割成独立的文档单元实现参数估计,相应的参数估计方法为:
  上述公式中各变量的含义如表1所示:
  3实验与结果分析
  本文采用对比实验法来检验所提出的基于LDA主题模型的标签推荐方法的准确性与效果。
  3。1实验数据来源
  实验数据选自美国Minnesota大学计算机科学与工程学院的GroupLens项目组收集的MovieLens10M100K数据集〔14〕。该数据集含有movies。dat、ratings。dat、tags。dat3个文件,其中,movies。dat文件主要存储电影的编号ID、名称Title和类别Genres信息,ragings。dat文件主要存储用户对电影的评分Rating和评分时间Timestamp信息,tags。dat文件主要存储用户对电影标记的标签Tag和标记时间Timestamp信息。
  3。2实验环境与测评指标
  实验环境为处理器为Inter(R)Core(TM)4CPU44002。0GHz,内存4G,硬盘500G,操作系统为Windows7,编程语言为Java(JDK1。6。2)。实验测评指标选择标签推荐领域常用的推荐准确率(Precision,P)、推荐召回率(Recall,R)、F1值,其计算方法为:
  PTPTPFP,RTPTPFN,F12PRPR
  其中,TP表示推荐结果与人工评价都认为应该具有的标签数量,FP表示推荐结果具有但人工评价认为不该具有的标签数量,FN表示推荐结果没有但人工评价认为应该具有的标签数量。3。3实验过程与结果
  本文选择标签推荐领域常用的FolkRank方法、HosvdDirect方法、TTM方法作为参照方法进行对比实验。实验结果如表2所示。
  3。4实验结果分析
  通过上述实验结果可以看出,本文提出的基于LDA主题模型的标签推荐方法在推荐准确率、推荐召回率、F1值等测评指标上的结果值明显优于现有的标签推荐方法,能够在实际运用过程中提供更好的标签推荐服务。其主要原因在于本文方法综合运用用户、标签、资源及资源内容特征进行统一主题建模,能够在传统的基于对象关系分析的推荐方法的基础上融入资源内容特征,实现基于对象关系和内容特征的综合推荐,故能够取得比传统推荐方法更好的实验效果。
  通过将每个主题下的标签按照概率进行降序排列,同时记录各主题下的标签集,可以得到该主题的直观标签表示,表3给出了其中5个主题的前8个推荐标签。
  4结束语
  标签是Web2。0时代信息分类与组织的重要方式,是以用户为中心、用户参与创建互联网内容的主要表现形式。本文针对现有的标签推荐方法存在的推荐准确性不高和推荐效果不理想等问题,提出了基于LDA主题模型的社会化标签推荐方法。该方法利用LDA主题建模技术将社会化标注系统中的用户、标签、资源及资源内容特征进行统一主题建模,将传统的基于对象间关系的推荐扩展到基于对象间关系和资源内容特征的综合推荐。通过在真实的测试数据集上进行实验后表明,融合对象间关系与资源内容特征的推荐方法明显优于现有的标签推荐方法,能够显著地提高标签推荐的质量和效果。
  参考文献
  〔1〕张斌,张引,高克宁,等。融合关系与内容分析的社会标签推荐〔J〕。软件学报,2012,23(3):476488。
  〔2〕SeitlingerP,KowaldD,TrattnerC,etal。Recommendingtagswithamodelofhumancategorization〔C〕。Proceedingsofthe22ndACMinternationalconferenceonConferenceoninformationknowledgemanagement。ACM,2013:23812386。
  〔3〕王海雷,俞学宁。基于随机游走算法的社会化标签的用户推荐〔J〕。计算机工程与设计,2013,34(7):23882391。
  〔4〕HothoA,JaschkeR,SchmitzC。InformationRetrievalinFolksomomies:SearchandRanking〔M〕。Berlin:Springer,2006:411426。
  〔5〕MishneG。AutoTag:ACollaborativeApproachtoAutomatedTagAssignmentforWeblogPosts〔C〕。Proceedingsofthe15thInternationalConferenceonWorldWideWeb,2006:953954。
  〔6〕赵亚楠,董晶,董佳梁。基于社会化标注的博客标签推荐方法〔J〕。计算机工程与设计,2012,33(12):46094613。
  〔7〕AdrianB,SauermannL,RothBerghoferT。Contag:ASemanticTagRecommendationSystem〔J〕。JournalofUniversityComputerScience,2007,36(7):297304。
  〔8〕MarchettiA,TesconoM,RonzanoF。SemKey:ASemanitcCollaborativeTaggingSystem〔C〕。Proceedingsofthe16thInternationalConferenceonWorldWideWeb,2007:812。
  〔9〕BleiDM,NgAY,JordanMI。LatentDirichletAllocation〔J〕。JournalofMachineLearningResearch,2003,3(45):9931022。
  〔10〕唐晓波,王洪艳。基于潜在狄利克雷分配模型的微博主题演化分析〔J〕。情报学报,2013,32(3):281287。
  〔11〕HarveyM,BaillieM,RuthvenI,etal。TripartiteHiddenTopicModelsforPersonalizedTagSuggestion〔C〕。Proceedingsofthe32ndEuropeanConferenceonIRResearch,2010:432443。
  〔12〕SubramV,PandianSC。Topicontologybasedefficienttagrecommendationapproachforblogs〔J〕。InternationalJournalofComputationalScienceandEngineering,2014,9(3):177187。
  〔13〕HeinrichG。ParameterEstimationforTextAnalysis〔OL〕。http:www。arbylon。netpublicationstextest。pdf,20151210。
  〔14〕GroupLensResearch。MovieLensDataSets〔OL〕。http:www。grouplens。orgnode73,20150915。
投诉 评论 转载

基于LDA主题模型的标签推荐方法研究〔摘要〕针对现有的标签推荐方法存在的推荐准确率不高与效果不理想等问题,本文提出了基于LDA主题模型的社会化标签推荐方法。该方法利用LDA主题建模技术将传统的基于对象间关系的推荐……论历史研究方法对刑事诉讼法学研究方法体系的意义一、导言从最一般的意义上说,方法就是人们为了解决某种问题而采取的活动方式,既包括思想活动的方式,也包括实践活动的方式。刑事诉讼法学作为一门实践性较强的学科,需要通过系统的……广东国华粤电台山发电有限公司市场竞争战略研究论文【摘要】电力是关系国计民生的重要基础工业,也是国家经济发展战略中的重点和先行产业。通过分析广东地区电力市场形势,积极探索有效的发展战略,提升企业的整体竞争优势。【关键词】……关于数学论文作文锦集九篇在平时的学习、工作中,大家都写过论文吧,论文是讨论某种问题或研究某种问题的文章。那么你有了解过论文吗?以下是小编精心整理的数学论文作文9篇,欢迎大家分享。数学论文作文篇1……审计学本科毕业论文古典文学常见论文一词,谓交谈辞章或交流思想。当代,论文常用来指进行各个学术领域的研究和描述学术研究成果的文章,简称之为论文。以下是小编整理的审计学本科毕业论文,欢迎阅读!……水利工程中帷幕灌浆施工工艺探析0引言水利工程建筑物往往存在于水下环境中,其基础结构由于长期受地下水的侵蚀,容易出现渗漏问题。一旦发生渗漏,就会对水工建筑物质量造成不良的影响,甚至降低整个水利工程的运行……考虑需求不确定性的化工生产计划与调度集成分析引言随着经济全球化的快速发展,供应链优化已经成为企业降低生产成本、增强核心竞争力的利器。化工行业具有大投资与高能耗的特点,运用供应链优化技术提升石化企业管理运营水平,对于……代际差别与个性制约内容提要代际差别是微观国际政治研究的一个重要方面。就个性与心理特点而言,代沟代表着政治上的共生代。历史经历对于人的个性和心理的形成至关重要。代内群体特点首先就是指这些人阅历上的……浅谈儿童英语启蒙教育浅谈儿童英语启蒙教育随着接受教育群体年龄的下降,我们不得不思考一个问题:教育的对象发生了变化,我们的教学工作该如何应对呢?说应对其实并不确切,因为……多元感官联动的中小学音乐教学策略美国著名的教育心理学家,享有多元智能理论之父美誉的加德纳曾经提到,唯有让学生在接触科学过程中探寻到更深层次的‘智识之心’,方能让学生基于不同角度来感悟这个世界,这样的教学才能称……财政政策与县域经济发展(1)论文【论文摘要】目前县域经济的发展严重滞后,面临许多困难和制约因素。文章提出,县域经济发展应当不倚不靠,自谋发展出路;应当把解决三农问题放在突出位置;要按照公共财政取向支持发展壮大……浅谈秋冬季节钢轨折断的预防措施论文前言青藏铁路地处高寒地区,季节特点明显,特别是秋冬时节昼夜温差较大,钢轨作为轨道结构的重要组成部分,由于受热胀冷缩的影响,承受比较大的拉应力,线上钢轨因温度变化差异极易使……
有关机械加工设备的管理和维修的论文农村老年人高血压病家庭用药的指导电子网络与科学工作的社会结构实验教学改革和创新精神培养的论文西方行政学说发展的钟摆规律论文参考企业项目研发经费的核算与财务管理的探讨论文湿地景观园林景观设计论文在语文教学中培养学生创新思维能力论文心理资本理论下的大学生就业能力培养论文发挥工会作用服务企业文化建设工商管理论文唯物史观与宗教信仰在中国传统文化中的嬗变日本知识产权战略区别于欧美的文化原因
关于以书为话题的作文550字小孩子胆子小怎么办小孩子胆子小解决方法旅行者与骆驼年人民币汇率该怎么看金正山:中国反腐最新消息在甘肃省会宁县草滩乡杨川村的精准扶贫 南海铜今日铝价行情男性补肾壮阳偏方秘方大全民间土方特效方国家必须给予补贴,生产自救也很重要男孩子和女儿财产分割法有什么区别的对待吗?女人,我记得你昨天穿什么往来账会计工作总结会计工作总结往来过油肉的做法(山西过油肉做法)

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找江西南阳嘉兴昆明铜陵滨州广东西昌常德梅州兰州阳江运城金华广西萍乡大理重庆诸暨泉州安庆南充武汉辽宁