城市直播房产教育博客汽车
快传网
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

Python机器学习(二十七)Sklearn数据集基本信息

5月21日 拭朱砂投稿
  前面章节中,我们加载了SciKitLearn自带的数据集digits,可以通过以下语句查看数据集中包含哪些主要内容:digits。keys()
  输出dictkeys(〔data,target,targetnames,images,DESCR〕)data样本数据target目标值targetnames目标名称images图像格式(二维)的样本数据DESCR描述信息
  查看数据集的描述:print(digits。DESCR)
  输出。。digitsdataset:OpticalrecognitionofhandwrittendigitsdatasetDataSetCharacteristics::NumberofInstances:5620:NumberofAttributes:64:AttributeInformation:8x8imageofintegerpixelsintherange0。。16。:MissingAttributeValues:None:Creator:E。Alpaydin(alpaydinboun。edu。tr):Date:J1998ThisisacopyofthetestsetoftheUCIMLhandwrittendigitsdatasetshttps:archive。ics。uci。edumldatasetsOpticalRecognitionofHandwrittenDigitsThedatasetcontainsimagesofhandwrittendigits:10classeswhereeachclassreferstoadigit。PreprocessingprogramsmadeavailablebyNISTwereusedtoextractnormalizedbitmapsofhandwrittendigitsfromapreprintedform。Fromatotalof43people,30contributedtothetrainingsetanddifferent13tothetestset。32x32bitmapsarepidedintononoverlappingblocksof4x4andthenumberofonpixelsarecountedineachblock。Thisgeneratesaninputmatrixof8x8whereeachelementisanintegerintherange0。。16。Thisreducesdimensionalityandgivesinvariancetosmalldistortions。ForinfoonNISTpreprocessingroutines,seeM。D。Garris,J。L。Blue,G。T。Candela,D。L。Dimmick,J。Geist,P。J。Grother,S。A。Janet,andC。L。Wilson,NISTFormBasedHandprintRecognitionSystem,NISTIR5469,1994。。。topic::ReferencesC。Kaynak(1995)MethodsofCombiningMultipleClassifiersandTheirApplicationstoHandwrittenDigitRecognition,MScThesis,InstituteofGraduateStudiesinScienceandEngineering,BogaziciUniversity。E。Alpaydin,C。Kaynak(1998)CascadingClassifiers,Kybernetika。KenTangandPonnuthuraiN。SuganthanandXiYaoandA。KaiQin。LineardimensionalityreductionusingrelevanceweightedLDA。SchoolofElectricalandElectronicEngineeringNanyangTechnologicalUniversity。2005。ClaudioGentile。ANewApproximateMaximalMarginClassificationAlgorithm。NIPS。2000。
  这是一个手写数字的数据集。
  类似地,你也可以查看其它内容:。。digitsdataset:OpticalrecognitionofhandwrittendigitsdatasetDataSetCharacteristics::NumberofInstances:5620:NumberofAttributes:64:AttributeInformation:8x8imageofintegerpixelsintherange0。。16。:MissingAttributeValues:None:Creator:E。Alpaydin(alpaydinboun。edu。tr):Date:J1998ThisisacopyofthetestsetoftheUCIMLhandwrittendigitsdatasetshttps:archive。ics。uci。edumldatasetsOpticalRecognitionofHandwrittenDigitsThedatasetcontainsimagesofhandwrittendigits:10classeswhereeachclassreferstoadigit。PreprocessingprogramsmadeavailablebyNISTwereusedtoextractnormalizedbitmapsofhandwrittendigitsfromapreprintedform。Fromatotalof43people,30contributedtothetrainingsetanddifferent13tothetestset。32x32bitmapsarepidedintononoverlappingblocksof4x4andthenumberofonpixelsarecountedineachblock。Thisgeneratesaninputmatrixof8x8whereeachelementisanintegerintherange0。。16。Thisreducesdimensionalityandgivesinvariancetosmalldistortions。ForinfoonNISTpreprocessingroutines,seeM。D。Garris,J。L。Blue,G。T。Candela,D。L。Dimmick,J。Geist,P。J。Grother,S。A。Janet,andC。L。Wilson,NISTFormBasedHandprintRecognitionSystem,NISTIR5469,1994。。。topic::ReferencesC。Kaynak(1995)MethodsofCombiningMultipleClassifiersandTheirApplicationstoHandwrittenDigitRecognition,MScThesis,InstituteofGraduateStudiesinScienceandEngineering,BogaziciUniversity。E。Alpaydin,C。Kaynak(1998)CascadingClassifiers,Kybernetika。KenTangandPonnuthuraiN。SuganthanandXiYaoandA。KaiQin。LineardimensionalityreductionusingrelevanceweightedLDA。SchoolofElectricalandElectronicEngineeringNanyangTechnologicalUniversity。2005。ClaudioGentile。ANewApproximateMaximalMarginClassificationAlgorithm。NIPS。2000。
  注意:如果使用readcsv()导入数据集,数据集已经分割好,导入的数据集中可能没有描述字段,但是你可以使用head()或tail()来检查数据。在这种情况下,最好仔细查看数据描述文件夹!
  接下来,我们进一步了解数据集中的数据。
  可以看到,数据集中的数据都是numpy数组的格式,可以查看这些数组的数据类型,形状,长度等信息。importnumpyasnp打印data数组的形状print(digits。data。shape)输出:(1797,64)打印data数组的类型print(digits。data。dtype)输出:float64打印target数组的形状print(digits。target。shape)输出:(1797,)打印target数组的类型print(digits。target。dtype)输出:int32打印target数组中包含的唯一值数量print(len(np。unique(digits。target)))输出:10打印targetnames数组的形状print(digits。targetnames。shape)输出:(10,)打印targetnames数组的类型print(digits。targetnames。dtype)输出:int32打印images数组的形状print(digits。images。shape)输出:(1797,8,8)打印images数组的类型print(digits。images。dtype)输出:float64
  可以看出,digits。data中,有1797个样本,每个样本有64个特征值(实际上是像素灰度值)。
  digits。target中,包含了上面样本数据对应的目标值(样本标签),同样有1797个目标值,但10个唯一值,即09。换句话说,所有1797个目标值都由0到9之间的数字组成,这意味着模型要识别的是从0到9的数字。
  digits。targetnames包含了样本标签的名称:09。
  最后,可以看到digits。images数组包含3个维度:有1797个实例,大小为88像素。digits。images数据与digits。data内容应该相同,只是格式不同。可以通过以下方式验证两者内容是否相同:print(np。all(digits。images。reshape((1797,64))digits。data))输出:true
  把digits。images改变形状为(1797,64),与digits。data比较,两者相等。numpy方法all()可以检测所有数组元素的值是否为True。
投诉 评论 转载

Python机器学习(二十七)Sklearn数据集基本信息前面章节中,我们加载了SciKitLearn自带的数据集digits,可以通过以下语句查看数据集中包含哪些主要内容:digits。keys()输出dictkeys(〔da……1080ti还能再战吗?你怎么看?GTX1080ti是NVIDIA在2017年发布的一款旗舰级显卡,虽说现在已经有3年了,但是性能还是在第一梯队的,当然了也早就已经停产了,这显卡再战个三五年还是没问题的,毕竟一……3000块安卓手机推荐华为nova9pro这款手机外观是蓝色和紫色渐变的风格,光线暗的时候呈蓝色,在光线下旋转呈现淡淡的紫色,妥妥的高颜值外观。重量也只有186克,厚度7。97mm,说它轻薄手……开了特斯拉modelx,再开奥迪etron,老司机这差距我一如今不少的国家都在大力推进新能源汽车,作为传统车企行业大佬的BBA,也是抓紧布局自己的电动汽车,其中奥迪就推出了首款豪华纯电C级轿跑SUV奥迪etron,这辆车无论从设计还是动……拒绝996,中国程序员的呼声传到了国外面具戴太久就会长到脸上,再想摘下来,除非伤筋动骨扒皮。996,从来如此,便对么?996,一次文化概念的输出在中文互联网世界,因为一些众所周知却无法言说的问题,中国程序员与……iOS15正式版推送,更像安卓的苹果系统,你升级了吗?和之前苹果预告的一样,今天凌晨1点,苹果就推送了4大系统的更新。包括iOS,iPadOS,watchOS和TVOS。大众用户最关心的还是iOS15的正式版,这款系统的主要新功能……河南职业技术学院分类培养精准施教近年来,河南职业技术学院根据学生兴趣爱好、能力特长、就业取向等不同特点,大胆探索实践,创造性地构建了基于大数据的分类培养、精准施教人才培养模式,收到了喜人的改革成效。构建……田言梦语新款iPhoneSE价格破发!最低只要2940元谁能想到,新款iPhoneSE发布仅不到一个月时间就破发了,如今3000元不到就能买到64GB版本的新款iPhoneSE,在A15仿生芯片的加持下,这款手机将成为3000元价位……大家有搭载麒麟960970810,骁龙67573083584骁龙处了旗舰芯片其他的就是糊弄人,买骁龙67的芯片的新手机,都不如买个二手旗舰芯片的手机都直接吊打他835配置的米六现在玩普通游戏还畅顺不卡,性能还够用。不玩游戏,……win11正式版,提前来了!却又被网友骂惨了6月24号,Windows11刚发布的时候,微软的官网显示的信息是计划于2022年初推出升级。如果按照这个说法,至少还有半年的时间,Windows11正式版才会跟大家见面……海信造芯两年打造一颗芯,剑指千亿营收21世纪经济报道记者雷晨北京报道芯片是海信大显示战略的核心底层技术。1月11日,海信集团副总裁、海信视像(600060。SH)总裁于芝涛在中国首颗自研8KAI画质芯……插混十年前画下的饼,终于兑现了日常通勤用电,自驾烧油!十一年以前,随着这样一句宣传语,史上第一种插电式混合动力汽车(PHEV),双模混动的比亚迪F3DM上市。采用混动系统,同时安装了较一般混动汽……
Linuxcrontab命令跌至1289元,1亿像素4820mAh,小米爆款5G千元机加华为麒麟960怎么样?这4种家电,越贵智商税越多,满足基本功能,普通款就足够了资本撤退?滴滴失宠?正式入场618,抖音布局电商的第一场大战联想!未来如何联想?自动驾驶商业运营试点来了!百度Apollo完成首单付费组装一台设计用的电脑,平时用3DMAX软件,PS软件,请问有沈万豪4。20晚间比特币以太坊行情分析及操作建议耳闻目睹电脑之怪故障亲身体验排障之奇路数全球手机出货量下降6。7,三星大跌苹果大涨
奥古公主嫁给了亲舅舅女儿成了自己的嫂子乱伦竞选体育委员发言稿梅新育:中国经济地位难以轻易取代春节档7部电影,这部国漫让我看到了国产动画电影的野心职场的语录宝宝换牙可以吃哪些粥来补钙自然风搭配什么样的整体橱柜好自然风整体橱柜怎么选一件红色的毛衣小学生的成长作文500字热传聚热点网 明星们现在都在穿这样的衬衫长袖连衣裙(图)日湖中医提醒这10个驱蚊方法不靠谱

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找江西南阳嘉兴昆明铜陵滨州广东西昌常德梅州兰州阳江运城金华广西萍乡大理重庆诸暨泉州安庆南充武汉辽宁