城市直播房产教育博客汽车
投稿投诉
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

从算法原理看推荐策略

  在信息量爆炸的今天,由于范式的转移,传统的内容和渠道已经不再是稀缺资源;在今天,将信息和内容更好更精准得呈现在用户面前,才是全方面提高效率的方式,真正的稀缺资源变成了推和拉。而在这一切的背后,推荐算法的作用都功不可没。
  推荐算法简介
  目前的推荐算法一般分为四大类:
  协同过滤推荐算法
  基于内容的推荐算法
  混合推荐算法
  流行度推荐算法
  协同过滤的推荐算法
  协同过滤推荐算法应该算是一种用的最多的推荐算法,它是通过用户的历史数据来构建用户相似矩阵和产品相似矩阵来对用户进行相关item的推荐,以达到精准满足用户喜好的目的。比如亚马逊等电商网站上的买过XXX的人也买了XXX就是一种协同过滤算法的应用。
  基于内容的推荐算法
  基于内容的推荐算法,是将item的名称、简介等进行分词处理后,提取出TFIDF值较大的词作为特征词,在此基础上构建item相关的特征向量,再根据余弦相似度来计算相关性,构建相似度矩阵。
  混合推荐算法
  混合推荐算法很好理解,就是将其他算法推荐的结果赋予不同的权重,然后将最后的综合结果进行推荐的方法。
  举例来说,比如上述已经提到了三种方式,协同过滤算法中的基于用户和基于item的协同过滤推荐,和基于内容的推荐算法;而混合推荐算法中是将这三种推荐结果赋予不同的权重,如:基于用户的协同过滤的权重为40,基于item的协同过滤的权重为30,基于内容的过滤技术的权重为30,然后综合计算得到最终的推荐结果。
  流行度推荐算法
  这个很基础,看名字就知道了。这种方法是对item使用某种形式的流行度度量,例如最多的下载次数或购买量,然后向新用户推荐这些受欢迎的item。就和我们平时经常看到的热门商品、热门推荐类似。
  浅析推荐算法在实际中的应用
  了解了大概原理后,就可以来看看在实际场景中,推荐算法都是怎么使用的吧。(事先声明,这只是我看了相关东西再结合自己理解进去推测的,如果有说错的地方请各位千万放下手中的刀)
  好,下面开始,先说说协同过滤算法在实际中的应用。
  协同过滤算法
  协同过滤算法一般是怎么做的呢?我们先来看看在图书推荐中的做法:
  协同过滤(CF)大致可分为两类:一类是基于邻域的推荐、一类是基于模型的推荐;邻域方法是使用用户对已有item的喜爱程度来推测用户对新item的喜爱程度。与之相反,基于模型的方法是使用历史行为数据,基于学习出的预测模型,预测对新项的喜爱程度。通常的方式是使用机器学习算法,找出用户与项的相互作用模型,从而找出数据中的特定模式。(由于基于模型的方法我也不太理解,暂时不展开说明,感兴趣的可以查阅相关资料)
  【基于邻域的推荐】即是构建用户相似矩阵和产品相似矩阵
  假设用户表现出了对一些图片的喜欢情况并进行了相应的评分,情况如下:
  不同图书代表不同维度,评分则代表了特征向量在该维度上的投影长度,根据用户对不同图书的喜爱程度建立用户的特征向量,然后根据余弦相似度可以判断用户之间的相似性。根据相似性可以建立用户相似矩阵:
  很显然,通过根据用户对历史图书的评分情况,可以得到用户对其的喜爱情况,在此基础上构建出用户特征向量,可以一定程度上判断两个用户在图书品味上的相似程度,进而我们可以认为,若A和B比较相似,可以认为A喜欢的书B也喜欢。
  在给A用户进行图书推荐时,找到与其相似度较高的其他用户,然后除去A用户已看过的图书,结合相似用户对某本图书的喜爱程度与该用户与A用户的相似度进行加权,得到的推荐指数越高的图书优先进行推荐。
  这应该也是豆瓣等图书社区上使用的推荐算法之一,利用用户之间的相似度来进行推荐。当然,电影推荐也同理。
  同理,反过来我们可以按照相似的方位,以用户为维度来构建item的特征向量。当我们需要判断两本书是否相似时,就去看对这两本书进行过评价的用户构成是否相似,即是使用评价过一本书的用户向量(或数组)表示这本图书;也就是说,如果有两本书的评价中,用户重合度较高,即可认为该两本书相似度较高。其实借用的还是用户相似的基础。(《白话大数据与机器学习》中也提到过相似的推荐算法,感兴趣的同学可以找来看一下)。
  在音乐的推荐中同样用到了协同过滤算法,我们众所周知的使用个性化推荐的音乐app应该属网易云音乐比较典型了。
  那么我们就来yy一下网易云音乐的推荐算法,首先用户过去都会有听歌的历史,由于音乐中没有相关的评分机制,那么可以根据用户对音乐的行为来建立一个喜爱程度模型,例如:收藏5分,加入歌单4分,单曲循环3分,分享5分,听一遍就删0分(本来想说负分滚粗的)。这样就大概有了一个喜欢程度列表,于是接下来就可以根据用户的听歌情况,建立用户的特征向量,接下来的推荐就顺利成章了。
  当然,基于协同过滤算法的用户相似度矩阵算法应该只是网易云采取的一种推荐方式,接下来还会说到另外的方式。
  值得注意的是,协同过滤的推荐算法虽然使用得很广且推荐效果也较好,但还是存在一些不足之处:
  协同过滤算法(CF)推荐中存在流行性偏差,因为协同过滤算法是基于惯性数据来进行推荐的,流行的物品由于关注的用户多,产生的数据也多,因此可以建立较为有效的推荐机制;而对于小众或长尾的产品(没人用过也没人评分过),则无法有效推荐;
  冷启动问题(又叫做新用户问题,或推荐新项问题),同样是由于惯性数据的缺失,导致一开始的推荐算法无法建立;这样的问题可以通过流行性算法进行一定程度的解决,当然也可以利用基于内容的推荐算法来进行解决(后面会提到)。
  基于内容的过滤算法
  简介部分已经提到了基于内容的过滤算法的基本原理,这里就不再重复了,直接说一下具体大概是怎么用的吧。
  基于内容的过滤方式与协同过滤中建立用户相似矩阵的方式类似,都是利用特征向量来进行余弦相似度计算,从而判断物品的相似性。
  首先,利用分词技术对书籍的标题和内容进行处理,去掉权重为0的词(如的、得、地等);
  然后,取TFIDF值较大的词作为特征词,并将其提取出来作为标签;
  接着,根据特征词建立书籍的特征向量;
  最后,计算不同书籍之间的余弦相似度,并凭次建立书籍之间的相似度矩阵;
  基于内容的协同过滤算法,最主要的初级步骤是通过分词技术对标题和简介等进行处理,形成特征标签。例如,对于图书和电影而言,可以对名称和简介进行特征词提取,从而构建特征向量;当然,在豆瓣上发现可以用一种更省事的方法,就是让用户进行对作品评价时需要勾选相关的标签,这样只要为不同种类提供足够多的标签供用户选择即可(当然这是我猜的);
  而如果对于音乐的推荐呢?没有相关简介,歌名也不具备足够的指向性,这种情况下则可以通过音乐本身的类别来作为标签进行特征向量的构建,例如:民谣、摇滚、怀旧等;我猜这也是网易云音乐采用的一种推荐方式吧。
  而对于36氪之类的资讯网站,采用什么样的推荐算法也能够有一定程度的理解了吧,原理都是类似的。
  基于内容的推荐由于不需要太多的惯性数据,因此可以部分解决冷启动问题和流行性偏差,也就是弥补了协同过滤算法中的部分不足,因此也可以将两者混合起来使用,例如混合推荐算法就是采用了这样的方式;其次,需要注意的是,如果单纯使用基于内容的过滤算法,会出现过度专业化问题,导致推荐列表里面出现的大多都是同一类东西,有的小伙伴可能也观察到了类似的现象,比如在亚马逊上购买哪本书(比如java相关的),会发现推荐的书籍里全是java相关的,就是因为出现了过度专业化的现象。
  结语
  推荐算法的原理其实基于数学的原理得到解决(向量、余弦相似度等),其实其他各类也同理,都是可在数学的基础上得到思路和衍生,如用来进行情感判断的朴素贝叶斯算法,就是将人才能理解的情感问题转化成了基本的概率问题而得到解决,包括自然语言处理(NLP)和语音识别等,由此真是可以体会到数学的博大精深啊。
  作为一名初级产品汪而言,从算法原理角度理解一些实际问题还是很有帮助的,当然具体上手层面还需要开发同学的大力协助。
  关于文中对推荐算法的理解和猜测,若有不足之处欢迎指教

服装软件哪个好(设计裙子的软件)美萍服装管理软件是一款功能强大、操作简单实用的服装管理系统。系统中包括客户会员管理、财务管理、会员提醒、商品管理、库存管理、库存查询、批量和零售、邮件文档、统计报表等完善的管理……手机微信原图查定位(免费查手机定位)手机微信原图查定位(免费查手机定位)现在的社会,手机现已成为了万众随身的一种设备,它可以上网和联络朋友,可以作为人们的掌上电脑。现在的手机大多数都是智能化的,可以和……万泉达净水器怎么样(万泉达净水器评价)来源:中国网2014年9月17日14:06【评论0条】字号:TT根据有关调查数据显示,目前韩国家用净水器市场普及率达95,其次为欧美、日本,而中国家用净水器普及率只有23……为什么选择风控(被风控了如何解除)支付宝的花呗,自推出以来就深受广大年轻群众的喜爱,无论是网上购物还是线下消费,统统都可以使用花呗进行支付。但有不少朋友在使用花呗的过程中,可能存在不合规的操作,导致花呗被风控不……新版微信怎么查聊天记录条数(怎么查询微信的聊天记录)新版微信怎么查聊天记录条数(怎么查询微信的聊天记录)微信现已成为我们最常用的谈天东西,因为微信的运用率十分高,我们也常常会收拾一下微信谈天记载和其他软件的缓存文件来腾出手……惠达怎么样(惠达卫浴口碑怎么样)本报记者赵学毅见习记者张晓玉3月12日,惠达卫浴(603385。SH)披露2020年年度报告,公司实现营业收入32。18亿元,同比增长0。24;归属于上市公司股东的净利润……哪里能查手机号定位系统(怎么查找别人手机位置)哪里能查手机号定位系统(怎么查找别人手机位置)现在的社会,手机现已成为了万众随身的一种设备,它能够上网和联络朋友,能够作为人们的掌上电脑。现在的手机大多数都是智能化……如何查老公微信零钱(微信能不能找到个人转账记录)如何查老公微信零钱(微信能不能找到个人转账记录)微信现已成为咱们最常用的谈天东西,由于微信的运用率非常高,咱们也常常会拾掇一下微信谈天记载和其他软件的缓存文件来腾出手机空……微信很久的聊天记录怎么查(怎么可以查聊天记录)微信很久的聊天记录怎么查(怎么可以查聊天记录)微信现已成为我们最常用的谈天东西,因为微信的运用率十分高,我们也常常会收拾一下微信谈天记载和其他软件的缓存文件来腾出手机空间……在手机上怎么查已经删除的微信聊天记录(怎样找回删除的聊天记录在手机上怎么查已经删除的微信聊天记录(怎样找回删除的聊天记录)微信现已成为我们最常用的谈天东西,由于微信的运用率非常高,我们也常常会收拾一下微信谈天记载和其他软件的缓存文……怎么用苹果手机查定位系统(苹果手机如何查找手机)怎么用苹果手机查定位系统(苹果手机如何查找手机)现在的社会,手机现已成为了万众随身的一种设备,它可以上网和联络朋友,可以作为人们的掌上电脑。现在的手机大多数都是智能……查通话记录能查多久的(通话记录最长可查几年)查通话记录能查多久的(通话记录最长可查几年)(来自于Konsn抖音的评论)小哥哥,小哥哥,iPhone的通话记录怎么保留时间长一点?是的,iPho……
埋葬卡希姆阿里巴巴来到哥哥家,嫂子一见丈夫的尸体就痛哭不已。阿里巴巴好言劝慰,半天才稍微平息些。阿里巴巴对嫂子说:现在,事已如此,再哭也没什么用了,我们应该商量一下如何埋葬哥哥,既……queen是什么意思(queen首字母要大写吗)queen〔kwin〕n。女王356queen。mp30:19来自索思Danielaudio英英解释(牛津词典):thefemalerulerofanindepen……女人皮肤好黑怎么变白白皙的皮肤可以说是每个女孩梦寐以求的事情,但是除去先天因素以外,后天的保养和防晒也是必不可少的。皮肤好黑怎么变白?想必不少人都探索过这个问题,或者还在探索的道路中,那么今天我们……狼狈逃窜造句用狼狈逃窜造句大全【狼狈逃窜】:狼狈:窘迫的样子。形容逃跑时的丑态。1。敌人被我军打得狼狈逃窜。2。敌人被我军打得七零八落,狼狈逃窜。3。英勇的解放军叔叔打得敌人丢盔弃甲,狼狈……苹果手机查平时定位(查询苹果手机位置)苹果手机查平时定位(查询苹果手机位置)现在的社会,手机现已成为了万众随身的一种设备,它可以上网和联络朋友,可以作为人们的掌上电脑。现在的手机大多数都是智能化的,可以……贵气造句用贵气造句大全(61)小叶女见那少年,虽然脸上因为啃食西瓜,弄得花里胡梢的,依旧透出一股逼人的高贵气质和阳刚之气,美貌清秀异常。(62)最新的2012春夏系列女鞋以镂空为主要设计元素,……手机电话怎么查定位(怎么定位手机位置)手机电话怎么查定位(怎么定位手机位置)现在的社会,手机现已成为了万众随身的一种设备,它可以上网和联络朋友,可以作为人们的掌上电脑。现在的手机大多数都是智能化的,可以……胃癌吃什么好上班族防胃癌必吃种食物胃癌的原因有多种,但与我们最相关的就是饮食方面的问题。那么,生活中是否有一些食物能够预防胃癌呢?下面就和小编一起来了解一下哪些食物能够有效预防胃癌吧!上班族胃癌吃什么好……我的心爱之物我的心爱之物是平板电脑。这个平板是妈妈从姐姐的同学那里买到的,一看价格2711元。老妈说:太贵了,买不起!但是想到我的学习,妈妈一咬牙一跺脚还是买了。我买的是银色,……古代的诸葛亮一直隐居隆中为何却能通晓天下大事说到诸葛亮小编相信很多人都是知道的了,诸葛亮被人们称做是神机妙算,当然了,诸葛亮在古代确实算得上是比较厉害的一位人物了,小编也是很好奇,为什么古代的诸葛亮一直隐居隆重,为什么还……手机查酒店记录(酒店入住查询记录)手机查酒店记录(酒店入住查询记录)实践日子中酒店的入住记载怎样查?假定说你有入住宾馆记载,那么就能够直接进入处理网络去查询自己的一个个人信息,所以在日常日子傍……三大造句用三大造句大全(61)第三,降低系统风险应将这三大目标量化于监管者的业绩考核,避免因监管目标不清,导致监管者缺乏动力,因循守旧,不求有功,但求无过,监管效率低下。(62)跳槽应遵循的三……
友情链接:易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网