城市直播房产教育博客汽车
投稿投诉
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

从到盘点年最受欢迎的十大机器学习库

1月21日 罗刹长投稿
  十二月是静静坐下来总结过去一年成就的时候。对程序员来说,则通常是回顾那些今年推出的开源库,或者由于其极好地解决了一个特定问题而最近变的大为流行的开源库。
  过去两年来,我们一直通过发表博文的方式做这件事,指出当年Python社区中出现的一些最佳工作。现在,2017年即将结束,又到了总结的时刻。
  但是这次开源库的评选限定在了机器学习的范围内。也许非机器学习库的大牛认为我们有偏见,恳请你们原谅。很希望读者在评论中对本文做出反馈,帮助我们查缺补遗未收录的顶级软件。
  因此,放轻松,让我们开始吧!
  1。Pipenv
  项目地址:https:github。compypapipenv
  2017年排名第一的python库非Pipenv莫属。它在今年初发行,但却影响了每个Python开发者的工作流程,尤其是现在它成了用于管理依赖项的官方推荐工具。
  Pipenv源自大牛KennethReitz的一个周末项目,旨在把其他软件包管理器的想法整合进Python。安装virtualenv和virtualenvwrapper,管理requirements。txt文件,确保依赖项的依赖项版本的可复现性,以上这些统统不需要。借助Pipenv,你可以在Pipfile(通常使用添加、删除或更新依赖项的命令构建它)中指定所有你的依赖项。Pipenv可以生成一个Pipfile。lock文件,使得你的构建成为决定性的,避免了寻找bug的困难,因为甚至你也不认为需要一些模糊的依赖项。
  当然,Pipenv还有很多其他特性,以及很好的文档,因此确保检查完毕,再开始在所有你的Python项目上使用它。
  2。PyTorch
  项目地址:http:pytorch。org
  如果有一个库在今年特别是在深度学习社区中大为流行,那么它很可能是PyTorch。PyTorch是Facebook今年推出的深度学习框架。
  PyTorch构建在Torch框架之上,并对这个(曾经?)流行框架做了改善,尤其是PyTorch是基于Python的,这与Lua形成鲜明对比。鉴于过去几年人们一直在使用Python进行数据科学研究,这为深度学习的普及迈出了重要一步。
  最值得注意的是,由于其实现了全新的动态计算图(DynamicComputationalGraph)范式,PyTorch成为了众多研究者的首选框架之一。当使用其他框架比如TensorFlow、CNTK、MXNet编写代码时,必须首先定义一个称之为计算图的东西。该图指定了由我们的代码构建的所有操作与数据流,且它在构建完后会进行编译和利用框架潜在地优化,因此静态计算图能很自然地在GPU上实现并行处理。这一范式被称为静态计算图,它很棒,因为你可以利用各种优化,并且这个图一旦建成即可运行在不同设备上(因为执行与构建相分离)。但是,在很多任务中比如自然语言处理中,工作量经常是变动的:你可以在把图像馈送至算法之前把其大小重新调整为一个固定的分辨率,但是相同操作不适用于语句,因为其长度是变化的。这正是PyTorch和动态图发挥作用的地方。通过在你的代码中使用标准的Python控制指令,图在执行时将被定义,给了你对完成若干任务来说很关键的自由。
  当然,PyTorch也会自动计算梯度(正如你从其他现代深度学习框架中所期望的一样),这非常快,且可扩展,何不试一试呢?
  3。Caffe2
  项目地址:https:caffe2。ai
  也许这听起来有点疯狂,但是Facebook在今年也发布了另外一个很棒的深度学习框架。原始的Caffe框架多年来一直被广泛使用,以无与伦比的性能和经过测试的代码库而闻名。但是,最近的深度学习趋势使得该框架在一些方向上停滞不前。Caffe2正是一次帮助Caffe赶上潮流的尝试。
  Caffe2支持分布式训练、部署(甚至在移动端平台)和最新的CPU、支持CUDA的硬件。尽管PyTorch更适合于研究,但是Caffe2适合大规模部署,正如在Facebook上看到的一样。
  同样,查看最近的ONNX工作。你可以在PyTorch中构建和训练你的模型,同时使用Caffe2来部署!这是不是很棒?
  4。Pendulum
  项目地址:https:github。comsdispaterpendulum
  去年,Arrow一个旨在为你减负同时使用Pythondatatime的库入选了榜单;今年,该轮到Pendulum了。
  Pendulum的优点之一在于它是Python标准datetime类的直接替代品,因此你可以轻易地将其与现有代码整合,并在你真正需要时利用其功能。作者特别注意以确保时间区正确处理,默认每个实例意识到时间区。你也会获得扩展的timedelta来简化日期时间的计算。
  与其他现有库不同,它努力使API具有可预测性行为,因此知道该期望什么。如果你正在做一个涉及datetime的重要工作,它会使你更开心。查看该文件获得更多信息:https:pendulum。eustace。iodocs。
  5。Dash
  项目地址:https:plot。lyproductsdash
  研究数据科学的时候你可以在Python生态系统中使用如Pandas和scikitlearn等非常棒的工具,还可以使用JupyterNotebook管理工作流程,这对于你和同事之间的协作非常有帮助。但是,当你的分享对象并不知道如何使用这些工具的时候,该怎么办?如何建立一个可以让人们轻松地处理数据并进行可视化的接口?过去的办法是建立一个专业的熟悉JavaScript前端设计团队,以建立所需要的GUI,没有其它办法。
  Dash是几年发布的用于构建网页应用(特别针对于数据可视化的高效利用)的纯Python开源库。它建立在Flask、Plotly。js和React的顶部,可以提供数据处理的抽象层次的接口,从而让我们不需要再学习这些框架,进行高效的开发。该app可在浏览器上使用,以后将发布低延迟版本,以在移动设备上使用。
  可以在这个网站中查看Dash的有趣应用:https:plot。lydashgallery。
  6。PyFlux
  项目地址:https:github。comRJT1990pyflux
  Python中有很多库可以用于研究数据科学和机器学习,但是当你的数据点是随时间演化的度量的时候(例如股价,甚至任何仪器测量值),这就不一样了。
  PyFlux就是一个专用于处理时序数据的开源Python库。对时序数据的研究是统计学和经济学的一个子领域,其研究的目的可以是描述时序数据的(关于隐变量或感兴趣特征的)演化行为,也可以是预测时序数据的未来状态。
  PyFlux允许使用概率方法对时序数据建模,拥有多种现代时序数据模型的实现,例如GARCH。
  7。Fire
  项目地址:https:github。comgooglepythonfire
  大多数情况下,我们需要为项目创建一个命令行界面(CLI)。除了传统的argparse之外,Python还有clik和docopt等很棒的工具。Fire是今年谷歌发布的软件库,它在解决这个问题上采取了不同的方法。
  Fire是能为任何Python项目自动生成CLI的开源库。这里的关键点是自动化:我们几乎不需要编写任何代码或文档来构建CLI。我们只需要调用一个Fire方法并把它传递到所希望构建到CLI中的目标,例如函数、对象、类、字典或根本不传递参数(这样将会把整体代码导入CLI)。
  一般我们需要阅读该项目下的指导手册,以便通过案例了解它是如何工作的。
  8。imbalancedlearn
  项目地址:https:github。comscikitlearncontribimbalancedlearn
  在理想的情况中,我们总会有完美的平衡数据集,用它来训练模型将十分舒爽。但不幸的是,在实际中我们总有不平衡的数据集,甚至有些任务拥有非常不平衡的数据。例如,在预测信用卡欺诈的任务中绝大多数交易(99)都是合法的,只有极少数的行为需要算法识别为欺诈。如果我们只是朴素地训练ML算法,那么算法的性能可能还不如全都预测为占比大的数据,因此在处理这一类问题时我们需要非常小心。
  幸运的是,该问题已经经过充分的探讨,且目前存在各种各样的技术以解决不平衡数据。imbalancedlearn是一个强大的Python包,它提供了很多解决数据不平衡的方法。此外,imbalancedlearn与scikitlearn相互兼容,是scikitlearncontrib项目的一部分。
  9。FlashText
  项目地址:https:github。comvi3k6i5flashtext
  在大多数数据清理流程或其它工作中,我们可能需要搜索某些文本以替换为其它内容,通常我们会使用正则表达式完成这一工作。在大多数情况下,正则表达式都能完美地解决这一问题,但有时也会发生这样的情况:我们需要搜索的项可能是成千上万条,因此正则表达式的使用将变得十分缓慢。
  为此,FlashText提供了一个更好的解决方案。在该项目作者最初的基准测试中,它极大地缩短了整个操作的运行时间,从5天到15分钟。FlashText的优点在于不论搜索项有多少,它所需要的运行时都是相同的。而在常用的正则表达式中,运行时将随着搜索项的增加而线性增长。
  FlashText证明了算法和数据结构设计的重要性,即使对于简单的问题,更好的算法也可以轻松超越在最快处理器上运行的朴素实现。
  10。Luminoth
  项目地址:https:luminoth。ai
  如今图像无处无在,理解图像的内容对于许多应用程序来说都是至关重要的。值得庆幸的是,由于深度学习的进步,图像处理技术已经有了非常大的进步。
  Luminoth是用于计算机视觉的开源Python工具包,它使用TensorFlow和Sonnet构建,且目前支持FasterRCNN等目标检测方法。此外,Luminoth不仅仅是一个特定模型的实现,它的构建基于模块化和可扩展,因此我们可以直接定制现有的部分或使用新的模型来扩展它而处理不同的问题,即尽可能对代码进行复用。
  它还提供了一些工具以轻松完成构建DL模型所需要的工程工作:将数据(图像等)转换为适当的格式以馈送到各种操作流程中,例如执行数据增强、在一个或多个GPU中执行训练(分布式训练是训练大规模模型所必需的)、执行评价度量、在TensorBoard中可视化数据或模型和部署模型为一个简单的API接口等。所以因为Luminoth提供了大量的方法,我们可以通过它完成很多关于计算机视觉的任务。
  此外,Luminoth可以直接与GoogleCloud的ML引擎整合,所以即使我们没有强大的GPU,我们也可以在云端进行训练。
  更多优秀的Python库
  除了以上十个非常流行与强大的Python库,今年还有一些同样值得关注的Python库,包括PyVips、Requestium和skorch等。
  1。PyVips
  项目地址:https:github。comjcupittpyvips
  你可能还没听过libvips库,但你一定听说过Pillow或ImageMagick等流行的图像处理库,它们支持广泛的格式。然而相比这些流行的图像处理库,libvips更加快速且只占很少的内存。例如一些基准测试表明它相比ImageMagick在处理速度上要快三倍,且还节省了15倍的内存占用。
  PyVips是最近发布用于libvips的Python绑定包,它与Python2。73。6(甚至是PyPy)相兼容,它易于使用pip安装。所以如果你需要处理图像数据的应用,那么这个库是我们所需要关注的。
  2。skorch
  项目地址:https:github。comdnouriskorch
  假设你很喜欢使用scikitlearn的API,但却遇到了需要使用PyTorch工作的情况,该怎么办?别担心,skorch是一个封装,可以通过类似sklearn的接口提供PyTorch编程。如果你熟悉某些库,就会希望使用相应的直观可理解的句法规则。通过skorch,你可以得到经过抽象的代码,从而将精力集中于重要的方面
投诉 评论 转载

中国气象局有关负责人解读IPCC第六次评估报告的第一工作组报近日,联合国政府间气候变化专门委员会(IPCC)发布最新报告《气候变化2021:自然科学基础》。这是IPCC第六次评估报告的第一工作组报告。这一报告的主要内容是什么?具有……吐气造句用吐气造句大全121、昊隆换好衣服,就在床边,盘膝而坐,闭目凝神,舌抵上腭,直背肩张,手握乾坤,悬于丹田之前,纳气深而吐气稳,很快入定。122、而且吸进第三次气息后,至演完一式之前不吐……中国再出手!耗资1500亿,乌兹别克油气直通上海,印度酸了图为西气东输工程现在中国被赋予基建狂魔的称号,完成了国内大量超级工程,但这还远远没有结束,如今中国再次出手!耗资1500亿巨资,并且联手5大邻国,将继续打造一项超级工程,……美国新推出的世界五大军事强国排名说明了什么?多年来,美国一直热衷于对世界各国进行军事排名,日前,其国家智库再度公布了世界五大军事强国的榜单,其名次的序列分别是:中国、美国、以色列、俄罗斯和法国。对此我有五点看法:一……丝瓜什么时候种植什么时候种丝瓜好?丝瓜什么时候播种?丝瓜种植季节是什么时候?丝瓜种植方式有几种?以下耕种帮就作简单介绍,供网友们参考。一、丝瓜种植方式丝瓜一般在夏秋季节供应市场,但随着栽……2020年载入史册!证据表明2020是记录以来最热的一年2020年成记录以来最热的一年!原因由于澳大利亚大火和冠状病毒!根据美国国家航空航天局(NASA)、美国国家海洋和大气管理局(NOAA)、伯克利地球研究小组和英国Hadl……能够赶走宝宝热痱的食疗秘方痱子多发生在炎热潮湿的夏季,其原因是由于汗液排泄不畅引起汗腺周围发炎,患者多为肥胖的婴儿或儿童。热痱为红色小丘疹,分布于脸、颈、胸、背部及皮肤皱折处,瘙痒灼热,遇热时症状加重,……超级星品航天史的这几个传奇,我们用徽章将它们随身纪念从人类发射第一颗卫星到现在不过64年。但在这64年里,不断进取、探索未知的我们,已经写下了一部太空史诗。而在这部史诗里,也有许多值得铭记的传奇,它们有的已经功成身退,有的……从到盘点年最受欢迎的十大机器学习库十二月是静静坐下来总结过去一年成就的时候。对程序员来说,则通常是回顾那些今年推出的开源库,或者由于其极好地解决了一个特定问题而最近变的大为流行的开源库。过去两年来,我们一……快递员投诉后果是什么EMS是邮政特快专递服务,由万国邮联管理下的国际邮件快递服务,在中国境内是由中国邮政提供的一种快递服务。该业务在海关、航空等部门均享有优先处理权,它以高质量为用户传递国际、国内……因为你青春,一首诗的旅行因为你,彼时豆蔻,回梦余季。青春,一首诗的旅行。它悠悠地藏在笔墨纸砚里,慢慢地掩在三月的朦胧烟雨里,缓缓地淌在与好友畅谈诗词歌赋的兴致里。见……迪丽热巴首度公开择偶标准,实力打脸鹿晗前几天,由于当红小生鹿晗突然公开恋情,迪丽热巴也被捆绑上了热搜,虽然很多CP粉无法接受遮掩的事实,但是陆地夫妇的确真的解散了。近日,热巴和老板杨幂在接受记者采访的时候,被……
中国花费147亿,在平潭海峡修建跨海大桥,连通台湾或成现实芋头常见病害有哪些中国造2300吨大国重器,能打通喜马拉雅,为何高价卖给印度?八佰经典台词与好句摘抄顺丰嘿客顺丰嘿客不温不火顺丰嘿客定位与实际运营有高考放榜他根本不努力,凭什么比我考得好?从中枢作用看办公室人员的工作水平培养与质量把控的畅玩大型手游?少不了高性能手机来助力!这几款产品值得拥有疤痕快速修复的方法揭秘汤和为啥不是开国六王睡前一个动作暴瘦肚子坚持做小腹平平大咖专访从未有像中国这样,让深度学习成为国家级优先项目

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找