城市直播房产教育博客汽车
投稿投诉
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

十种机器学习算法的预测分析

8月24日 相见欢投稿
  摘要
  机器学习算法被描述为学习一个目标函数(f),它最好地将输入变量(X)映射到输出变量(Y):Yf(X)
  最常见的机器学习类型是学习映射Yf(X)以针对新X预测Y。这称为预测建模或预测分析,目标就是要做出最准确的预测。
  十种机器学习算法
  TOPMACHINELEARNINGALGORITHMSYOUSHOULDKNOWLinearRegression线性回归LogisticRegression逻辑回归LinearDiscriminantAnalysis线性判别分析ClassificationandRegressionTrees分类和回归树NaiveBayes朴素贝叶斯KNearestNeighbors(KNN)K最近邻(KNN)LearningVectorQuantization(LVQ)学习向量量化(LVQ)SupportVectorMachines(SVM)支持向量机(SVM)RandomForestBagging和随机森林BoostingBoostingAdaBoostAdaBoost一、线性回归
  线性回归是统计和机器算法中最容易理解的算法之一。
  线性回归的表示是一个方程,它通过找到称为系数(B)的输入变量的特定权重来描述最适合输入变量(x)和输出变量(y)之间关系的直线。
  例如:yB0B1x我们将在给定输入x的情况下预测y,线性回归学习算法的目标是找到系数B0和B1的值。
  可以使用不同的技术从数据中学习线性回归模型,例如普通最小二乘的线性代数解决方案和梯度下降优化。二、逻辑回归
  逻辑回归是机器学习从统计学领域借用的另一种技术。它是二进制分类问题(具有两个类值的问题)的首选方法。
  逻辑回归类似于线性回归,其目标是找到加权每个输入变量的系数值。与线性回归不同,输出的预测是使用称为逻辑函数的非线性函数转换的。
  逻辑函数看起来像一个大S,会将任何值转换为0到1的范围。这很有用,因为我们可以将规则应用于逻辑函数的输出以将值捕捉到0和1(例如,如果小于0。5则输出1)并预测一个类值。
  由于模型的学习方式,逻辑回归所做的预测也可以用作给定数据实例属于0类或1类的概率。这对于需要给出更多理由的问题是很有用一个预测。
  与线性回归一样,当您删除与输出变量无关的属性以及彼此非常相似(相关)的属性时,逻辑回归的效果会更好。这是一个快速学习的模型,并且对二元分类问题有效。三、线性判别分析
  逻辑回归是一种传统上仅限于两类分类问题的分类算法。如果您有两个以上的类别,则线性判别分析算法是首选的线性分类技术。
  LDA的表示非常简单。它由您的数据的统计属性组成,为每个类计算。对于单个输入变量,这包括:每个类别的平均值。跨所有类计算的方差。
  通过计算每个类别的判别值并针对具有最大值的类别进行预测。假设数据具有高斯分布(钟形曲线),因此最好事先从数据中删除异常值。它是分类预测建模问题的一种简单而强大的方法。四、分类和回归树
  决策树是预测建模机器学习的一种重要算法。
  决策树模型的表示是二叉树。这是来自算法和数据结构的二叉树,没什么花哨的。每个节点代表一个输入变量(x)和该变量上的一个分割点(假设变量是数字)。
  树的叶节点包含一个输出变量(y),用于进行预测。通过遍历树的分裂直到到达叶节点并在该叶节点处输出类值来进行预测。
  树的预测速度也很快。它们通常对于广泛的问题也很准确,并且不需要对数据进行任何特殊准备。五、朴素贝叶斯
  朴素贝叶斯是一种简单但功能强大的预测建模算法。
  该模型由两种类型的概率组成,可以直接从您的训练数据中计算出来:每个类别的概率;给定每个x值得每个类的条件概率。计算后,概率模型可用于使用贝叶斯定理对新数据进行预测。当数据是实值时,通常假设高斯分布(钟形曲线),以便可以轻松估计这些概率。
  朴素贝叶斯被称为朴素,因为它假设每个输入变量都是独立的。这是一个强有力的假设,对于真实数据来说是不现实的,然而,该技术在处理大量复杂问题时非常有效。六、K最近邻(KNN)
  KNN算法非常简单,非常有效。KNN的模型表示是整个训练数据集。
  通过在整个训练集中搜索K个最相似的实例(邻居)并汇总这些K个实例的输出变量,对新数据点进行预测。
  对于回归问题,这可能是平均输出变量,对于分类问题,这可能是模式(或最常见的)类值。
  诀窍在于如何确定数据实例之间的相似性。
  KNN可能需要大量内存或空间来存储所有数据,但仅在需要预测时才及时执行计算(或学习)。这个期间你可以随着时间的推移更新和管理训练实例,以保持预测的准确性。七、学习向量量化(LVQ)
  KNearestNeighbors的一个缺点是需要保留整个训练数据集。
  学习向量量化算法(或简称LVQ)是一种人工神经网络算法,它允许选择要挂起的训练实例数量并准确了解这些实例的外观。
  LVQ的表示是码本向量的集合。这些是在开始时随机选择的,并适合在学习算法的多次迭代中最好地总结训练数据集。学习后,码本向量可以像KNearestNeighbors一样用于进行预测。通过计算每个码本向量与新数据实例之间的距离,找到最相似的邻居(最佳匹配码本向量)。然后返回最佳匹配单元的类值或(回归情况下的实际值)作为预测。如果重新调整数据以具有相同的范围,例如在0和1之间,则可以获得最佳结果。
  如果发现KNN在你的数据集上提供了良好的结果,可以尝试使用LVQ来减少存储整个训练数据集的内存需求。八、支持向量机(SVM)
  支持向量机可能是最受欢迎和谈论最多的机器学习算法之一。
  超平面是分割输入变量空间的线。
  在SVM中,选择一个超平面来最好地将输入变量空间中的点按它们的类(类0或类1)分开。在二维中,你可以将其可视化为一条线,假设我们所有的输入点都可以被这条线完全隔开。SVM学习算法通过超平面找到导致类的最佳分离的系数。
  超平面和最近数据点之间的距离称为边距。可以分离这两个类的最佳或最优超平面是具有最大边距的线。
  只有这些点与定义超平面和构建分类器有关。这些点称为支持向量。它们支持或定义超平面。在实践中,使用优化算法来找到最大化边际的系数值。九、Bagging和随机森林
  随机森林是最流行和最强大的机器学习算法之一。它是一种集成机器学习算法。称为BootstrapAggregation或bagging。
  Bootstrap是一种强大的统计方法,用于从数据样本中估计数量。
  在bagging中,使用相同的方法,但用于估计整个统计模型,最常见的是决策树。
  获取训练数据的多个样本,然后为每个数据样本构建模型。当你需要对新数据进行预测时,每个模型都会进行预测,并对预测进行平均以更好地估计真实输出值。
  随机森林是对这种方法的一种调整,其中创建了决策树,因此不是选择最佳分割点,而是通过引入随机性来进行次优分割。
  因此,为每个数据样本创建的模型与其他模型相比更加不同,但仍然以其独特和不同的方式准确。结合他们的预测可以更好地估计真实的潜在输出值。十、Boosting和AdaBoostBoosting
  Boosting是一种集成技术,它试图从多个弱分类器中创建一个强分类器。
  这是通过从训练数据构建模型,然后创建第二个模型来尝试纠正第一个模型中的错误来完成的。添加模型直到训练集被完美预测或添加最大数量的模型。
  AdaBoost是为二进制分类开发的第一个真正成功的提升算法。这是理解boosting的最佳起点。
  AdaBoost与短决策树一起使用。在创建第一棵树后,树在每个训练实例上的性能用于衡量下一棵创建的树应该对每个训练实例的关注程度。难以预测的训练数据被赋予更高的权重,而易于预测的实例被赋予更少的权重。
  模型一个接一个地按顺序创建,每个模型都会更新训练实例上的权重,这些权重会影响序列中下一棵树执行的学习。
  在构建完所有树之后,将对新数据进行预测,并且每棵树的性能取决于它在训练数据上的准确程度。
  由于算法非常重视纠正错误,因此拥有干净的数据并删除异常值非常重要。如何实践?
  如果想要验证机器学习在金融上的应用,可以来BigQuant上实践,以上算法都有,还有海量的金融数据任君挑选。
  如何抵达:百度BigQuant。
投诉 评论 转载

2022年夜饭菜单来了,精选12道家常菜,荤素搭配,家人都喜大家好,欢迎大家来到我的美食自媒体,我是美食领域创作者锦绣V山东:专注美食,让生活更有味。今天为大家带来了几道家常美食的做法,这几道美食也是深受大家的喜欢,而且是很常见的几道美……邓颖超去世,聂帅女儿聂力哭着扑向骨灰盒邓妈妈再让我吻你一次1976年1月15日晚,周总理的骨灰从飞机上洋洋洒洒地落在祖国山水上。生前恩爱有加,离世之后却连个念想也没有留下,众人都以为邓颖超会崩溃难过,但是伟大的邓妈妈却用一句话让……您想体验慢节奏的生活吗?您是否一直处于快节奏的生活里呢?世界上最懒的国家,您坐汽车就可以到达,您知道他是哪的呢?他就是老挝。从昆明坐卧铺长途可直达,这是老外们最热衷的旅游胜地了,但是,老挝却也是最冷门的旅游地,这是一个充满慢节奏的国……十种机器学习算法的预测分析摘要机器学习算法被描述为学习一个目标函数(f),它最好地将输入变量(X)映射到输出变量(Y):Yf(X)最常见的机器学习类型是学习映射Yf(X)以针对新X预测Y。这……伏明霞父母陪女儿走过跳水生涯有欢乐有泪水,她的婚姻最不放心伏明霞是跳水女皇,曾经斩获三届奥运冠军。伏明霞11岁就进入国家队,14岁参加奥运会,斩获女子10米跳台冠军,是最年轻的奥运金牌得主。风光背后有辛酸有泪水,只有伏明霞……人间清醒悲喜自渡孩子小时候,要主动关心;长大了要告诉孩子:你有什么需要主动找大人商量。界限和距离,什么关系都适用。养孩子是良心活更是技术活;爱孩子不缺热情只缺方法。情绪稳定,学会尊重和沟……带上准考证!中高考生到北京这些景区门票减免!全国多地热门景区中、高考相继落下帷幕在这个充满收获的季节很多同学会用一场旅行来定格青春一大波福利来袭!做好防疫,注意安全北京各景区这些优惠政策一起来看……曼城成欧洲黑店!送走3位二流前锋,狂赚1。6亿,巴萨第一个喊近日,欧洲足坛诞生了多笔转会,其中曼城前锋斯特林加盟了切尔西。据悉,斯特林与切尔西签下了5年合同,还有1年的续约选项,而斯特林的转会费则为5620万欧元。随着斯特林更换了……人类有可能穿越未来?这位90后物理博士后冲上热搜人类可能可以穿越到未来!这位来自湖北的90后女博士后因中国物理学会抖音直播间的一句话冲上热搜短头发、戴银框眼镜的她看似语出惊人却娓娓道来背后的物理知识:比如你坐在椅子上一……中兴Axon40SE真机谍照偷跑屏下摄像头硬朗外观设计此前,中兴已预告努比亚Z系列新机将于7月份发布,将有望为命名为Z40SPro,并宣称该机将是一款直屏旗舰新标杆。而除了这款旗舰外,有海外爆料达人透露,中兴品牌也将在近期带来一款……帮你准确了解什么是白大衣高血压白大衣高血压的定义或标准是指:未曾接受降压治疗的患者,诊室血压14090mmHg,而动态血压(全天平均13080mmHg;白天平均血压13585mmHg,夜间平均血压12070……博尔特的实力究竟到了哪一个层面?博尔特被称为世界上最快的男人,很神奇的是,他的名字也在英文中代表着闪电,可谓是人如其名了。世界男子短跑的一系列最快成绩是。毫无意外的都被这位大佬所垄断。有媒体称之为外星人……
6月买旗舰机不可盲目,这四款才是现阶段值得入手的盖棺定论!曾凡博的特训令国王老板心动不已预测选秀结果出炉中国芯片设计水平全球第一,美国再次下手封杀EDA软件勇士球员战力排行汤神排行第三,库里高居第一,格林被严重高估关注特殊群体需求vivo听说登陆其他品牌手机37已经不再正常?人类体温正在不断下降,到底是怎么回事?不再指望詹姆斯,安东尼加盟绿军,新赛季年薪曝光,绿军出手大方膨胀的京郊民宿房价直逼马尔代夫,游客直呼加班3天住不起1晚长沙国际车展首设新能源汽车专馆近280款新能源汽车将集中大秀小孩要先学做人,再学知识不管有钱没钱,你要谨慎处理人际关系真荒唐!盒子也要有盒子权!?
华中农业大学发布2023年国家优秀青年科学基金(海外)项目华为新旗舰P8中国正式发布!售价超意外热传聚热点网 莎士比亚《亨利四世》主要内容概要及赏析是您,妈妈送龙友上春官上阵父子兵,特朗普爷俩同给拜登起外号认定构成侮辱罪如何量刑处罚欢乐的一家人初中作文40女性不用怕,日常通勤单品这样选,简约清爽又不浪费钱白敬亭千玺舒淇等明星的小八卦手机上怎么安装定位器(手机上怎么安装定位)自来水前置过滤器有哪些好品牌详细介绍

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找江西南阳嘉兴昆明铜陵滨州广东西昌常德梅州兰州阳江运城金华广西萍乡大理重庆诸暨泉州安庆南充武汉辽宁