城市直播房产教育博客汽车
汽车报价
买车新车
博客专栏
专题精品
教育留学
高考读书
房产家居
彩票视频
直播黑猫
投资微博
城市上海
政务旅游

爬虫的紧箍咒

7月11日 囍孤女投稿
  网络爬虫技术本为互联网行业的常用技术之一,被广泛应用到各个领域。人们对于数据的采集和分析能力,获得了大幅的提升。但客观现实是,技术的应用,特别是市场化、大规模的应用,往往具有明确的目的性。在很长一段时间内,恶意爬虫未经授权肆意抓取、突破robots协议爬取、同行业间数据爬取,成为常规操作。
  作为信息时代的重要资源,随着数字经济的发展,数据也逐渐成为企业的一项重要资产,能够产生无穷的商业价值。11月14日,国家互联网信息办公室对《网络数据安全管理条例(征求意见稿)》公开征求意见,数据合规再套紧箍咒。当网络平台或者个人通过技术手段抓取别的平台数据时,这种行为是否合法,平台数据主体是谁,归谁使用,数据如何流转才能提升市场运作效率、对消费者福利带来积极影响,值得深入研讨。
  数据的逻辑
  爬虫技术作为一项常见的抓取技术,在业内广泛使用,技术的发展也形成了技术的标准和技术的规则。Robots协议的英文全称为RobotsExclusionProtocol,指网站所有者通过一个置于网站根目录下的文本文件,即robots。txt,告知搜索引擎的网络机器人(或称网络爬虫、网络蜘蛛)哪些网页不应被抓取,哪些网页可以抓取,其本质上是受访网站与搜索引擎之间的一种交互方式。
  Robots协议解决前置性问题,即抓取行为是否得当。一方面,robots协议要求搜索引擎的网络机器人遵守受访网站的robots协议,另一方面也要求受访网站设置的robots协议本身应当是合理的,不应违背促进信息共享的初衷。网络服务商或网站所有者既可以在robots协议中列明准许或禁止网络机器人抓取的网站内容,也可以列明准许或不准许抓取其网站内容的网络机器人。但网络机器人识别该robots协议后,无论是否遵守,robots协议都不会起到强制禁止访问的结果。
  2012年11月1日,在中国互联网协会的牵头组织下,十二家互联网企业签署了《互联网搜索引擎服务自律公约》(简称《自律公约》),第七条第一款规定:遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)。第八条规定:互联网所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。
  (一)公开数据的限度
  提到对公开数据的爬取,绕不开的是2016年被列为影响中国互联网法治进程十大案例之一的大众点评诉百度不正当竞争案。
  在百度涉案行为的不正当竞争性上,上海知识产权法院认为,在判断经营者使用他人信息的相关行为是否违反商业道德、扰乱公平竞争的市场秩序的时候,主要应综合考虑公司行为是否具有积极的效果、是否超出了必要的限度、超出必要限度的行为对市场秩序所产生的影响、是否影响竞争行为正当性的判断等方面。百度地图大量使用大众点评网的点评信息,替代大众点评网向网络用户提供信息,会导致大众点评网的流量减少。百度地图在大量使用大众点评网点评信息的同时,又推介自己的团购等业务,攫取了大众点评网的部分交易机会。
  同样,作为公开分享平台,在微博诉饭友APP案中,复娱公司开发的饭友App在明星帐号中设置微博专题,并嵌套该明星的新浪微博界面,完整地展示了该明星微博包括界面和内容在内的全部数据,还屏蔽了新浪微博中的部分功能且添加了自有功能。这里有两个行为,一个是爬虫爬取数据的行为,一个是屏蔽微博部分功能替代的行为。
  北京市海淀区人民法院认为,新浪可就他人非法抓取并使用该数据的行为主张权益【(2017)京0108民初24510号】。二审北京知识产权法院维持原判,认为微梦公司作为微博运营者,对微博前后端全部数据享有权益,并通过微博这一生态链实现商业利益。【(2019)京73民终2799号】
  (二)未公开数据的限度
  现在的爬虫技术已经从原来的网页爬虫进入到底层数据的爬取。平台的非公开数据通常涉及数据安全、用户隐私以及平台经营者商业策略的实现等,系平台经营者的核心资源。业内通行的观点认为,这些数据不属于可自由流动的数据范畴,未经平台经营者许可,他人不得随意获取、使用。
  在微博诉饭友APP案中,北京市海淀区人民法院一审认为,鉴于二者的发布时间,点赞、评论和转发数量具体化的程度亦不同,且微博的此类信息相较于饭友App精简等事实,法院认定复娱公司系通过绕开或破坏微梦公司技术保护措施的手段,实施了抓取和展示微博后台数据之行为。
  在抖音诉小葫芦网站案中,浙江省杭州市余杭区法院审查发现,小葫芦网站通过爬虫等技术手段,从抖音等多平台获取抖音平台主播直播数据、抖音直播数据及抖音直播主播详情,短视频数据、电商数据、舆情分析和用户画像等内容。小葫芦网站的行为具有不正当性,也存在侵犯用户隐私可能,还破坏了抖音产品的运营逻辑和秩序。法院对小葫芦网站作出针对非法抓取直播数据行为的全国首例禁令。
  10月中旬,一家名叫胖球数据的直播数据平台,也因涉嫌用爬虫窃取直播相关数据被一锅端这里面有一个核心问题:数据从哪来的。
  (三)公开数据处理的限度
  公开的数据,是否必然可以无限制使用?还是在大众点评诉百度不正当竞争案中,法院认为,在靠自身用户无法获取足够点评信息的情况下,百度公司通过技术手段,从大众点评网等网站获取、大量使用了这些点评信息,其行为具有明显的搭便车、不劳而获的特点。
  2021年6月,美国最高法院驳回了下级法院禁止Linkedln阻止hiQ访问其用户公开信息的判决,并发回旧金山第九巡回法庭重审。此前,领英(LinkedIn)认为其竞争对手hiQLabs从公开资料中收集个人数据的行为威胁用户隐私,因而希望阻止这种行为。事实上,已公开的个人信息是否因已公开状态,二次处理是否具有正当依据,很大程度得进行个案考量。
  法律的逻辑
  在数字经济时代,数据的价值在于流通、开发和使用,但无论是《个保法》还是《数据安全法》,都没能正面回应数据财产权的归属这一问题。《网络数据安全管理条例(征求意见稿)》只能从使用的角度去强化数据处理与流转利用规则。其中,第七条第二款明确规定,国家建立健全数据交易管理制度,明确数据交易机构设立、运行标准,规范数据流通交易行为,确保数据依法有序流通。司法裁判也在不断探索数据权益保护。
  互联网数据中心(DCCI)、未来智库创始合伙人胡延平认为,开放有开放的合作,合作有合作的玩法,分享也有分享的路径。不是因为开放,不是因为是一个互联网,所有人都可以为所欲为,所有企业都可以想怎么抓取就怎么抓取。
  (一)授权的流通
  数据的搜集和整理往往需要通过投入巨大成本才获得数据。如果没有限制地让网络爬虫任意获取他人通过巨大投入获取的数据资源,不但可能直接违背了用户的意愿和知情权,也将没有经营者再愿意投入巨额成本进行类似的创新性、基础性的工作,从而抑制经营者创新的动力。
  在大众点评诉百度不正当竞争案中,法院认为,通过法律维护点评信息使用市场的正当竞争秩序,有利于鼓励经营者创新业务模式,投入成本改善消费者福祉。相反,将没有经营者再愿意投入巨额成本进行类似的创新性、基础性的工作,从而抑制经营者创新的动力。
  在抖音诉刷宝APP案中,海淀区人民法院认为,微播公司作为抖音App的开发者和运营者,投入相应的人力、财力成本,通过正当合法的经营,吸引用户发布、观看、评论、分享短视频,积累用户、短视频内容、流量,并依据与用户的协议在正常的经营活动中使用相关短视频内容,抖音App所展示的短视频内容、用户评论等资源均是微播公司通过正当合法的商业经营所获得,并由此带来经营收益、市场利益及竞争优势,上述合法权益应受反不正当竞争法的保护。
  《网络数据安全管理条例(征求意见稿)》第八条做出了相应的规定,其中第三项规定,禁止通过窃取或者以其他非法方式获取数据。此外,数据处理者向第三方提供个人信息,或者共享、交易、委托处理重要数据的还必须遵循告知、明示、约定处理规则等要求。
  这一条的前提是在向用户明确告知和用户授权的前提下,数据处理者才能向第三方提供相关数据。反之也可以推导出,如果没有得到用户授权,也没有获得数据处理者的同意,第三方数据接收方也没有约定数据的目的、范围、处理方式和安全保护措施,第三方数据接收方不能获取更不能使用相关数据。这一点和三重授权原则有本质上相似的基本逻辑。
  即使相关行为不搭便车,是否就可以全面抓取使用?根据《网络数据安全管理条例(征求意见稿)》第十二条第二款规定,(二)与数据接收方约定处理数据的目的、范围、处理方式,数据安全保护措施等,通过合同等形式明确双方的数据安全责任义务,并对数据接收方的数据处理活动进行监督。由此可见,第三方数据接收方超首先必须合法获取公开数据,其次,如果超过约定的目的、范围、处理方式处理个人信息和重要数据,仍然构成违法。
  (二)合理的流通
  在车来了不正当竞争案中,自2015年11月起至2016年5月,武汉元光科技有限公司为了提高其开发的智能公交应用程序车来了的市场份额及信息查询的准确度,利用网络爬虫技术大量获取竞争对手深圳市谷米科技有限公司经营的同类公交应用程序酷米客的实时公交信息数据,无偿使用于其车来了应用程序,并向公众提供查询服务。
  深圳市中级人民法院在本案中认定【(2017)粤03民初822号】,原告谷米公司出于商业模式或其他需要向公众免费提供数据查询,被告元光公司未经权利人许可,以网络爬虫技术入侵后台盗用数据,并将盗取数据用于经营同类业务的,具有破坏他人市场竞争优势、谋取竞争优势的主观故意,属于严重破坏市场秩序的行为,构成不正当竞争。
  有一个例外,搜索引擎之间相互爬取是否需要获得授权?在北京百度网讯科技有限公司、百度在线网络技术(北京)有限公司与北京奇虎科技有限公司不正当竞争纠纷案中,北京市高级人民法院二审【(2017)京民终487号】判决认为,应结合robots协议设置方与被限制方所处的经营领域和经营内容、被限制的网络机器人应用场景、robots协议的设置对其他经营者、消费者以及竞争秩序的影响等多种因素进行综合判断。这并不意味着对于互联网企业所设置的任何robots协议均能够基于企业自主经营权而当然地认定其具有正当性。
  (三)有序的流通
  任何流通都必须有序进行。互联网平台获取数据一般通过两种方式:一种是通过商业合作进行数据交易或交换(如OpenAPI模式),另一种是利用爬虫技术自动抓取数据的模式。不论是哪一种方式,爬虫技术是否中立要看爬虫的功能及爬虫使用的目的,不能完全脱离其使用目的而去谈它的中立性。在正当性判别上,既要考虑平台的合法权益和相关消费者的利益,也要考虑是否损害正常的竞争秩序,还要考虑是否足以保障数据的安全性。
  有电商平台的负责人曾表述,恶意爬虫案例经常发生在内容平台和电商平台。在内容上被爬取的更多是视频、图片、文字、网红互动数据、用户行为等,在电商领域则多为商家信息和商品信息。这些商业化、市场化的技术应用背后,往往具有商业主体明确的目的性。越来越多的司法判决也在厘清一个基本规则:有序和流转同等重要、缺一不可。
  2014年,北京淘友天下技术有限公司和北京淘友天下科技发展有限公司运营的脉脉未经用户允许和微博平台授权,非法抓取、使用新浪微博用户信息,非法获取并使用脉脉注册用户手机通讯录联系人与微博用户的对应关系。该案也被称为首例大数据不正当竞争纠纷案。
  2017年,北京知识产权法院终审认定,脉脉的经营公司未经用户允许和微博平台授权,非法抓取、使用新浪微博用户信息,构成不正当竞争。也就是在该案中,北京知识产权法院以司法判例方式确立的三重授权原则。三重,指的是第三方开发者通过OpenAPI获得用户信息时必须遵循用户授权平台方公司授权用户授权。
  (四)竞争的权益
  关于数据和竞争的相关讨论,在大众点评诉百度不正当竞争案中,法院考量汉涛公司是否具备可诉诸法律保护的合法权益上,关注了汉涛公司获取涉案数据信息的成本,以及涉案数据信息为汉涛公司带来的效益。法院认为,在百度公司靠自身用户无法获取足够点评信息的情况下,通过技术手段,从大众点评等网站获取点评信息,用于充实百度地图,百度公司的这种类似于搭便车、不劳而获的行为违反了公认的商业道德和诚实信用原则,具有不正当性。
  在微博诉饭友APP案中一审和二审法院均认为,饭友App用户无需注册或登录微博帐号即可查看微博全部内容,饭友App已对微博构成实质性替代;既实际分流走了微梦公司的潜在用户流量,也影响了微梦公司通过微博可以获得的广告、票务等商业收益,给微梦公司实际造成了损失。
  在微博诉今日头条关于robots协议不正当竞争纠纷案二审中,北京市高级人民法院认为,互联网领域中消费者福利的增加,依赖于数据在更大范围和更深层次的共享利用,而非通过数据爬取对数据进行明显替代性或同质化地利用。
  因为数据问题引发的案件还在继续。近日,新浪微博因限制其访问用于分析舆论的数据,蚁坊软件公司声称向长沙市中级人民法院起诉其涉嫌垄断。这也是国内首例因互联网平台拒绝数据许可引发的反垄断民事诉讼。此前(2018年),新浪微博认为蚁坊公司采集、使用微博数据的行为涉嫌不正当竞争,在北京海淀法院提起诉讼。今年3月,北京知产法院二审判决蚁坊公司败诉。
  (五)正当的运营
  抓取不能侵害其他主体的权益。如果爬虫7X24小时自动持续对被爬取方进行访问,每天达几百万次,甚至上千万次,这会给服务器带来难以承受之重,导致受访网站无法正常运行,则有必要对其进行限制。
  2021年9月14日,杭州互联网法院审理一起爬取微信公众号数据中,证据显示,斯氏(杭州)新媒体科技有限公司(以下简称斯氏公司)运营的极致了网站使用自动化脚本不间断爬虫,绕过原告微信公众平台的反爬措施,,还通过多个代理IP操作,绕过封号、封IP等防护措施,日均访问量达70余万次。
  2019年公布的《数据安全管理办法(征求意见稿)》第16条规定,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。
  这一管理办法后被11月14日公布的《网络数据安全管理条例(征求意见稿)》取代。其中第十七条对企业运营网络爬虫的规制做了更明确规定:数据处理者在采用自动化工具访问、收集数据时,应当评估对网络服务的性能、功能带来的影响,不得干扰网络服务的正常功能。自动化工具访问、收集数据违反法律、行政法规或者行业自律公约、影响网络服务正常功能,或者侵犯他人知识产权等合法权益的,数据处理者应当停止访问、收集数据行为并采取相应补救措施。
  (六)安全的底线
  依据《网络安全法》第四十一条取得被收集者同意即自动抓取个人信息,技术使用者即涉嫌构成侵犯公民个人信息罪、非法侵入计算机信息系统罪或非法获取计算机信息系统数据罪等相关罪名。刑事案件中,往往没有对数据的权属进行定性,而是更倾向于从行为和结果进行定罪。
  2021年2月,上海徐汇区检察院通报,某网络公司在未经被害公司授权许可的情况下,被告人李某决策通过非法手段抓取对方直播数据并出售牟利被提起公诉。2021年6月,河南省商丘市睢阳区人民法院公布的刑事判决书【(2021)豫1403刑初78号】显示,逯某和黎某两男子通过自己开发的爬虫软件,对淘宝实施了长达八个月的数据爬取,非法获取近12亿条用户消息。
  在车来了APP爬取酷米客APP公交车行驶实时数据案不正当竞争判决之前,南山区人民法院在刑事判决【(2017)粤0305刑初153号】中认定,邵xx等五人的行为已构成非法获取计算机信息系统数据罪,谷米公司因被非法侵入计算机信息系统所造成的直接经济损失为24。43万元。
  在张xx等非法获取计算机系统数据案【(2017)京0108刑初2384号】中,被告人张xx、宋x、侯xx作为被告单位上海晟品网络科技有限公司主管人员,采用技术手段破解被害单位的防抓取措施,使用伪造deviceid绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制,造成被害单位损失技术服务费2万元,北京市海淀区人民法院以该行为侵入计算机系统的技术方式获取服务器存储数据,构成非法获取计算机系统数据罪定罪。
  (七)全链条的风控
  同样还需要关注的是,数据资源一旦流通,原数据所有者就很难对其用途进行追踪、控制。例如,在剑桥数据门事件中,脸书对剑桥分析公司开放了数据,而后来剑桥分析公司用这些数据所做的事情引发了立法者和监管机构的审查。这也对Facebook造成了重大影响,随后Facebook出于多种原因而暂时封禁数万个应用。
  也正是基于此,《网络数据安全管理条例(征求意见稿)》对于数据合作中的数据处理活动进行监督,关注全球化时代背景下数据全链条的安全。第十二条第一款第二项规定:(二)与数据接收方约定处理数据的目的、范围、处理方式,数据安全保护措施等,通过合同等形式明确双方的数据安全责任义务,并对数据接收方的数据处理活动进行监督。第二款规定:数据接收方应当履行约定的义务,不得超出约定的目的、范围、处理方式处理个人信息和重要数据。
  由此可见,第三方数据接收方首先必须合法获取公开数据,其次,如果超过约定的目的、范围、处理方式处理个人信息和重要数据,仍然构成违法。
  数据相关案件不完全列表:
  2016年,车来了APP爬取酷米客APP公交车行驶实时数据案
  2017年,脉脉非法抓取使用新浪微博用户信息案
  2017年,今日头条未经授权移植新浪微博大V账号内容数据案
  2019年,刷宝APP爬取抖音APP短视频及用户评论数据案
  2020年,北京朝阳:员工通过暗网出售客户信息案
  2021年,极致了网站爬取微信公众号文章数据案
  2021年,魔蝎数据科技有限公司侵犯公民个人信息案
  2021年,上海浦东:公司非法爬取个人信息开展征信业务出售牟利案
  2021年,斯氏(杭州)新媒体科技有限公司爬取微信公众号平台数据案
投诉 评论 转载

每经热评丨数据管理能力,是企业实现数据资产化重要前提每经特约评论员盘和林日前,中国电子信息行业联合会公布了最新一批获得国家数据管理能力成熟度等级证书的单位名单,南方电网公司经过中国电子标准化研究院的专业评估,通过中国电子信……222大厂Java岗面试题全曝光,刷完这1020道,金三银四前言上篇文章给大家介绍在java面试中常见一些面试问题并给出了相应的参考答案,主要包括JavaSE中的多线程问题、反射中常见的一些面试题以及对象的拷贝和JavaWeb中常……爬虫的紧箍咒网络爬虫技术本为互联网行业的常用技术之一,被广泛应用到各个领域。人们对于数据的采集和分析能力,获得了大幅的提升。但客观现实是,技术的应用,特别是市场化、大规模的应用,往往具有明……出差旅行携带方便,男人必备神器须眉剃须刀T6升级版全新发布一把好用且颜值在线的剃须刀是很多男士都无法拒绝的!对于讲究仪表的男同胞来说,不说每天使用剃须刀,但23天基本上都要修整胡须了!这个时候如果有一款携带方便,小巧颜值高的剃须刀那就……性能不输骁龙870!你的下一部手机何必是旗舰机?近期,随着红米K50的热度越来越高,天玑系列的处理器也受到了广泛关注,反正搭载天玑芯片的手机还没上市,天玑芯片的跑分成绩就已经出来,而且令人惊讶的是,天玑7000的跑分就高达7……夫妻相真的存在吗?最新研究结果是据美国《焦点》杂志网站4月21日报道,有大量研究表明,长期伴侣往往看上去很像。但这是因为他们一开始就长得像,还是因为随着时间推移,他们变得越来越像?也许是因为共同的饮食、……构建PythonFlask应用程序的Docker映像我试图为PythonFlask应用程序构建一个Docker映像,但是有构建问题所有文件都位于一个名为web这是项目结构:webinit。pyapp。pyDockerfilemo……Apache安全漏洞全球发酵工信部暂停阿里云合作单位,Log南方财经全媒体记者吴立洋广州报道近日,南方财经全媒体记者独家获悉,工业和信息化部网络安全管理局通报称,阿里云计算有限公司(以下简称阿里云)作为工信部网络安全威胁信息共享平……GPS和北斗到底什么关系?相信越来越多的军迷和小编一样,对中国近10年来的中国军事发展感到非常欣慰和自豪。随着自媒体,短视频的发展,我们越来越能够接收到一些先进武器,如导弹的介绍,当大家看到某某导……没有谁能大而不倒!腾讯被工信部点名,所有APP全部停更文Dong审核张子扬校正知秋近段时间的腾讯,可谓是用户们讨论的焦点企业。当然,也成为相关部门关注的对象。前段时间,腾讯刚刚因为超前点播一事被央视点名批评。超前点播事件的风……比较好用的企业远程桌面控制的软件有哪些?Teamviewteamview,只用过这一种ToDesk,免费不限速,登录就有100列表免费版使用,远程控制神器ToDesk支持版本:IOS、Linux、W……用了两年的固态,掉速严重,上网卡顿,怎么才能恢复原来的速度?在解决这个问题的前提是我们首先要知道如何正确使用固态硬盘。固态硬盘的正确使用方法:1。BIOS中开启AHCI模式2。分区4K对齐3。主板接口尽量SATA……
http的分组传输TransferEncodingchunk特斯拉曝华裔员工盗取密文件跳槽,小鹏汽车回应将内部调查近期iqqo8与PRO版的区别电动牙刷CE认证证书有效期是多长时间?15年前,那个登陆马化腾QQ的16岁黑客,现在过得怎么样?36氪首发推出RASP应用程序自我防护体系,边界无限完成超千除iPhone外AppleWatch也要加入卫星连接功能?爱立信三星和谷歌确认参加2022年世界移动通信大会跨国公司加码中国电动汽车市场超4万人预定,马斯克的新家,可能是未来中国年轻人买房的缩影手机变奏曲(散文)人工智能为一带一路搭建语言服务新平台
汇通造句用汇通造句大全敏感肌肤怎么护理如何预防敏感肌梦想演讲稿小学生放飞梦想演讲稿三想起那个冬日的年关王者荣耀掉分是什么意思有什么好处记得规范旅游市场秩序!三亚公布全市17家正规景区景点名单热传聚热 蜂花护发素怎么用蜂花护发素的正确用法三国名相董允的生平故事介绍历史上董允是怎么死的梳子的种类(各种梳子的用法和效果)时隔六年拳皇15来了!PS4PS5国行版定价公布商翔科技2021年净利487。61万同比增长1450。86美

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找江西南阳嘉兴昆明铜陵滨州广东西昌常德梅州兰州阳江运城金华广西萍乡大理重庆诸暨泉州安庆南充武汉辽宁