城市直播房产教育博客汽车
投稿投诉
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

纳博科夫最喜欢的词大数据和文字结合,会有什么有趣发现?

7月15日 霸鲸观投稿
  大数据技术带给我们很多便利,比如各种证件的一网通办,也让我们宛如透明人,在网上搜索了什么,电商平台立马就能捕捉到数据,把相关的推荐给你。
  但我一直觉得理性冰冷的数据和抒情写意的文字没什么关系,不过看了《纳博科夫最喜欢的词》后,发现并非如此,文字和数字结合在一起,也能玩得风生水起。
  作者本布拉特说:任何一个领域,如果拥有数十万个数据点,那么对这些信息进行挖掘一定有助于研究人的行为和心理,挖掘文字同样有效。
  在《纳博科夫最喜欢的词》中,本布拉特将喜欢的书籍和敬仰的作家用数据连接在一起,骤然打开了一扇神奇的窗户,观察到很多有趣的细节,比如文字指纹和写作模式。学习和研究这些细节,也是理解如何写作的一种有效方法。
  那么,在大数据与文字的结合中,具体有哪些有趣的发现呢?
  1。文学指纹:谁才是真正的作者?
  《联邦党人文集》被誉为美国宪法的圣经,是有关美国宪法和联邦制度的评论文章合集,共85篇文章,由18世纪80年代三位美国政治家亚历山大汉密尔顿、詹姆斯麦迪逊和约翰杰伊在制定美国宪法的过程中写出,后来他们分别升任财政部长、总统和最高法院首席大法官。但文集中每篇文章的撰写者分别是谁?三位合著者从来没有公开承认写过哪些特定文章,这成为了20世纪最为知名的文学疑案之一。
  直到1804年,汉密尔顿在与政敌决斗前留下了一封信,信中列出了每篇文章的作者,照道理谜团就此解开。但是13年后,麦迪逊卸任总统,他也列出了自己的著作清单。这份清单与汉密尔顿当年信中所说的有所出入。其中,汉密尔顿认领的12篇文章,麦迪森声称是他的作品。
  这件事重新引燃了大众对于《联邦党人文集》文章归属的探索热情。不少历史学家赞同汉密尔顿的说法;而认为那12篇文章的作者是麦迪逊的人也不在少数。
  直到1963年,这个谜案才最终得以告破。两位数学家哈佛大学的莫斯特勒和芝加哥大学的华莱士发表了论文《一个著作权问题的推论》,利用词频、概率和文本分析,揭开了谜底。
  他们把文字当作随机变量,先研究了几个词,这几个词,汉密尔顿和麦迪逊只有一人会用,另一人基本不用。比如,在已知作者为汉密尔顿的文章中,他会用while,但从来不用whilst。麦迪逊则相反。
  两位教授把文章分成三组:1。作者已知为汉密尔顿;2。作者已知为麦迪逊;3。作者有争议的。然后手工统计每1000个词中,特定词出现的频率,如enoughwhilewhilstupon四个词出现的频率。
  他们计算了每一个词对两位作者来说的可能性。最后得出结论:汉密尔顿所言为虚,那12篇文章的实际作者是麦迪逊。
  经过无数统计和非统计的研究后,两位教授的分析结果目前已成为统计学家和历史学家们的共识。这个研究成果也产生了深远的影响,人们开始思考,著名作家们是不是都有自己的风格指纹?
  如同法医能够通过指纹识别人的身份,每个作家是不是都有自己独一无二的文学指纹?带着这个问题,本布拉特展开了研究。相比于1963年的手工分析,借助于计算机和互联网技术,现在的文本研究要便捷太多。本布拉特挑选了50位作家,600部作品作为测试数据库(样本),验证两位教授的研究方法,最后用99的正确率证实了:无论读者能否感觉出来,每个作者的文中总有自己文学指纹,将他与其他作者区别开来。
  2。伟大的作品如何开头?
  伟大的作品都如何开头?数字可以告诉我们什么?本布拉特同样在样本中观察,文中分析了20部著名作品的开头,下面我摘录部分,或许可以给我们一点启示。叫我以实玛利。《白鲸》,郝尔曼梅尔维尔
  四月间,天气寒冷晴朗,钟敲了十三下。《1984》,乔治奥威尔
  洛丽塔,我生命之光,我欲念之火。《洛丽塔》,弗拉基米尔纳博科夫
  幸福的家庭都是相似的,不幸的家庭各有各的不幸。《列夫托尔斯泰》,安娜卡列尼娜
  那是最美好的时代,那是最糟糕的时代;那是智慧的念头,那是愚昧的念头;那是信仰的时期,那是怀疑的时期;那是光明的季节,那是黑暗的季节;那是希望的春天,那是失望的冬天;我们全都在直奔天堂,我们全都在直奔相反的方向简而言之,那时跟现在非常相像,某些最喧嚣的权威坚持要用形容词的最高级来形容它。《双城记》查尔斯狄更斯
  观察这些开头可以发现,他们的共同之处不在于长短,而是有一定的独创性,拥有出人意料、令人难忘的文字的震撼力。不过嘛,数字告诉我们,规律还是有一点点的,比如在86部普利策获奖作品中,有13部用天气来开头(这会不会和西方的社交习惯有关呢?)。
  3。纳博科夫最喜欢的词是?
  我一直被书名牵动着,到底纳博科夫最喜欢的词是什么?本布拉特以前面挑选的50位作家为样本,继续进行研究。首先他制订了一个标准,作家最喜欢的词需要满足特定要求:必须在作者一半以上的作品中出现;
  以作者的所有作品为基数,每10万词至少出现1次;
  不能太罕见,在美国历史语料库中每100万词至少出现1次;
  不是专有名词。
  遵循这样的标准,本布拉特对作品进行比对,选出了使用率相对最高的三个,而这三个词基本就是作者最喜欢的词了。
  如写《洛丽塔》的纳博科夫,他最喜欢的词是淡紫色;
  写《傲慢与偏见》的简奥斯汀,她最喜欢的词是礼貌、幻想和轻率;
  写《东方快车谋杀案》的阿加莎克里斯蒂,她的词是审讯、不在场证明和可怕;
  而《哈利波特》的罗琳,她的词是魔杖、巫师和魔杖。
  《纳博科夫最喜欢的词》是一本用数字写成的书,妙趣横生,通过数据的透视镜,我们能看到很多有趣的发现。闲暇之余,翻一翻它,或许能带给你不一样的思路。
  我是虎皮柚子,一名教育工作者,喜欢阅读与写作,欢迎关注。
  很高兴在这里遇见你。
投诉 评论

我打死你!4岁娃娃动不动放狠话,父母该怎么处理才合适?每一个父母都把自己的孩子当作天使,然而随着小宝宝年纪的长大,却发现小宝宝的脾气似乎是不太好。上一秒还好好的,下一刻就哭了。明明是自己做错了事情,却要说一些不好的话。当不开心的时……香烟的讲究送礼,就送大中华,送豪华烟,那不是让人家犯错误吗。结婚,要用红双喜,双喜临门,红红火火才能热热闹闹。开业,要送大红鹰,大展鸿图,目标高远才能事业红火。盖房,要……纳博科夫最喜欢的词大数据和文字结合,会有什么有趣发现?大数据技术带给我们很多便利,比如各种证件的一网通办,也让我们宛如透明人,在网上搜索了什么,电商平台立马就能捕捉到数据,把相关的推荐给你。但我一直觉得理性冰冷的数据和抒情写……三月三上独山踏青游乐是三月三的又一大主题。孔子的弟子曾点说自己的最高志向就是暮春者,春服既成,冠者五六人,童子六七人,浴乎沂,风乎舞兮,咏而归,结果孔子大为赞同。和煦的春风里自然少不……秋天真美周日上午,姥姥答应带我去姨姥家。上完课外英语班。我就急忙往家跑。我最爱去姨姥家了。因为她家有我最喜欢的小狗宝宝。还有我最爱吃的刚从树上摘下来的新鲜的水果。到了家,我拽着姥姥就往……为什么要孩子学会做饭?能影响孩子的一生!陪娃100件小事试着问这样一个问题:如果你突然知道自己将要离开孩子,并且再也不能回来,那么你最希望在离开前为孩子留下些什么?我看过很多答案,有些父母会想给孩子留下房子存款,有些父母……每天早上,坚持一个好习惯,你的运气一定越来越好分享创造快乐!在您阅读本文前,可以点击右上角【关注】,以后您每天都可以免费收到老廖爱生活分享的内容!每天早晨,坚持一个好习惯,你的运气一定越来越好!每天早上起……百花蜜结晶颗粒很粗是真的吗百花蜜是蜜蜂采集多种植物精华酿成的,相比单花蜜而言百花蜜营养更全面且更益吸收,其中最具代表性的就是中蜂酿制的土蜂蜜,事实上多数百花蜜也都是由中蜂酿制而的,下面一起来看一看百花蜜……我所理解的短视频社区道与术去中心化社区的魅力在于它的本质是连接,而非秀场。去中心化的魔力日常产品观察中,有2个现象级的产品,是我很难坚持看5分钟以上的,小红书和快手。但随着快手的数据飞跃一个……病毒性脑膜炎的调摄护理脑膜炎后遗症中除了有运动麻痹、异常肌紧张、语言障碍、癫痫发作外,还有性格变化(说话罗嗦,对事情纠缠不休、易生气、多动等)脑炎后遗症乙脑是由其病毒所引起的急性传染病,主要侵犯中枢……苏珊米勒每日星座运势苏珊米勒每日星座运势2018。01。04白羊座天王星在白羊座顺行,让你可以很好地展示自己的天赋和才能。你会开始追求自己今年想完成的一个梦想,今天海王星和太阳的相合让……诺必行婴儿护肤品被查出含克霉唑等违禁物?孩子顶嘴的行为让爸爸妈妈觉得非常生气,在生气的同时也会担心孩子这种脾气以后怎么和人好好相处。所以,在孩子还小的时候,爸爸妈妈就要让孩子改掉这个坏习惯。爸爸妈妈首先应该找出……
素质教育觉醒年代,你的教育方式更需要觉醒又一铁饭碗单位公开招聘,薪资待遇好发展也不差,大专就可以报名从替补到奥运会女团冠军和全运会双料冠军王曼昱孩子的五大社交问题,家长应该这样做口干牙疼,不一定是上火了,可能是糖尿病的信号,别大意做试管胚胎移植后这7件事做错,小心胚胎流掉!深圳住建局发布二手房参考成交价!二手房市场正在地震走近杨辉揭秘三角教学反思艺术教育不只是简简单单地教音乐,它还能让孩子收获这些心理学家假如你有这3种表现,别人就不会拿你当回事猫咪们陪宝宝睡觉,其中一只喵吸引了注意这是喂猪饲料养大的?平时如何避免亚健康孩子从不抱怨负面情绪怎么办孩子从不抱怨负面情绪如何是好2015教师暑假政治学习心得体会我身边的镜子作文500字我真幸运能够成为你的什么作文以京东双为例浅析内如何进行流量转化准备去西藏,有三台车,polo1。4GLE320和宝马525realme真我X50Pro首销获三大平台手机单品销量与销售马来西亚公主9岁了,长得太美变成网红,因被迫营业摆臭脸图兽医分享饲养德牧幼犬的方法要关注不同月份狗狗营养需求消极颓废的句子颓废消沉的短句怀孕吃了变质的食物怎么办司法鉴定程序时间问题是怎么规定的

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找