资讯内容

网络爬虫设计指北

2020-07-17 15:54 浏览:516

  

  

  近年来,编程似乎成为了一种潮流,越来越多人开始借助程序实现信息收集等原本需要大量人力完成的工作。

  商界大佬潘石屹,也身体力行开始推广python语言

  作为互联网信息收集的主要手段,网络爬虫自然而然成为许多新入门者最重要的学习内容。然而,人们的热情还未高涨就被打入谷底。从去年开始,不断爆出数据风控公司出事的新闻:魔蝎、新颜科技、51信用卡等一大批数据风控公司因利用爬虫收集信息被刑事调查。由此,也出现了“爬虫爬的好,牢饭吃到饱”的说法。一夜之间,爬虫似乎成为万恶的根源,许多互联网公司也开始避免使用此类技术。其实,爬虫就像是参观风景的游客,进入之前先弄清楚主人的态度。如果被允许,进门后没有干扰他人的正常生活秩序,就是受欢迎的客人。

  一、爬虫的法律风险

  作为专门收集网络信息的技术,几乎所有与计算机领域相关的犯罪,都可能直接或间接地与爬虫关联。根据相关风险是否与数据相关,可以划分为与数据相关的风险及与一般性的计算机技术相关的风险。

  二、与数据相关的风险

  作为爬取数据的技术手段,爬虫最本质的特征就在于其对数据的高效收集。其最典型的法律风险,也与数据的采集和使用相关。

  通常而言,如果爬虫收集的数据是保密数据或如局域网内等非公开数据,则相关行为既可能构成侵权、行政违法,也可能构成诸如非法侵入计算机信息系统罪、非法控制计算机信息系统罪等刑事犯罪。

  需要注意的是,并不是只有爬取加密或不公开信息才有风险,即使爬取的是公开信息、甚至是大型网络平台的信息,也有可能构成犯罪。为了应对爬虫,许多网站通过Robot爬虫协议禁止爬虫收集其数据,也有一些网站采取反爬虫措施,限制爬虫的运行。违反Robot爬虫协议或采取技术手段绕开反爬虫措施,可能构成不正当竞争,也可能涉嫌非法获取计算机系统数据罪。

  即使数据来源方没有禁止使用爬虫,也不代表可以不受限制地收集并利用数据。我国法律对特定类型的数据——如个人数据、著作权数据——规定了特殊的保护措施,爬虫收集对该类数据的收集及利用应当遵循相关的法律法规。当收集的是个人数据时,应当注意首先获取权利人的同意。未经允许收集他人的个人数据,即使该数据被合法地公开到了互联网上,也违反网络安全法等法律法规。若非法收集的情形严重或将非法获取的个人信息用于非法用途或出售,或超出授权范围使用个人数据,还有可能构成侵犯公民个人信息罪。去年开始的数据行业风暴,即多源于相关公司对个人数据的非法获取或利用。若未经他人许可而爬取他人著作或视频、音像等,可能违反《著作权法》的相关规定,情节严重的还可能构成侵犯著作权罪。

  此外,数据的收集过程合法,并不代表相关数据可以被无限制的使用,还应注意不侵害他人正当的商业利益。例如,采集竞品公司的数据,用于自己的商业目的,可能构成不正当竞争。在大众点评与百度的纠纷中,百度未经大众点评允许收集其平台中的数据,并将其展示在百度地图或百度知道的搜索页面中,实质性地替代了大众点评的网站,直接影响了用户通过进入大众点评网站浏览相关数据的需求,最终被认定为构成不正当竞争。

  三、与计算机技术相关的风险

  作为计算机技术的应用场景,计算机行业的一般性风险,如破坏计算机信息系统罪、非法控制计算机信息系统罪等典型的计算机犯罪,也可能出现在爬虫应用中。例如,设计爬虫时,不合理地高频收集数据,导致数据来源方系统的正常运行受到影响,除可能承担侵权责任,还可能构成破坏计算机信息系统罪。又如,将开发的爬虫提供给他人用于实施犯罪,可能构成帮助信息网络犯罪活动罪、提供侵入、非法控制计算机信息系统程序、工具罪。此外,若明知他人以计算机技术作为手段实施犯罪,还为他人提供技术帮助,则可能成为他人所实施犯罪的共犯。

  四、使用爬虫的原则:善意、注意

  单看爬虫可能涉及的法律风险或罪名,难免给人一种印象:无论是收集数据还是技术应用,无论是收集保密数据还是公开数据,都可能构成犯罪,因此使用爬虫技术一定要万分小心,许多人因此将爬虫技术视为禁忌。其实,只要谨守两条原则:善意与注意,便可以在最大程度上避免风险。

  所谓善意,与恶意相对,要求在使用爬虫时注意不要故意地侵扰数据来源方、相关第三方或社会公众的利益。在故意侵害他人利益应用爬虫的行为中,恶意表现的较为明显。例如,违反Robot爬虫协议或采取技术手段绕开反爬虫措施,爬虫使用者明确知道数据来源方拒绝其收集信息。同理,通过爬虫收集竞品信息用于自身商业目的的行为中,相关行为人也明确知道其行为可能对竞争对手造成的影响。在使用爬虫作为手段侵入他人系统或恶意改变搜索引擎排名等的情况中,使用者的恶意则更加明显。

  当然,在很多情况下,只有善意并不足够,囿于知识、认识水平等原因,我们常常不会意识到自己的行为可能对他人造成影响或可能违反法律。因此,善意之外,还要求我们保持合理的注意。所谓注意,是指在应用技术时,爬虫使用者应对自己的行为可能侵害他人的利益保持高度的警觉。与注意原则相关的风险,通常出现在爬虫使用者不熟悉相关法律法规,或因个人设计失误而造成他人利益受损的情形。例如,开发者在程序设计时为了更高效地收集信息,未合理了解被爬网站的运行能力,设定了高频率批量收集信息的模式,结果对被爬网站造成干扰,影响被爬网站的正常运行。

  善意与注意,实际上是同一概念下的两个方面,二者都强调爬虫应用时不应不合理地侵害他人权益,前者禁止的是积极地侵犯他人权益,后者禁止的是因自身的放任或忽视导致他人的权益受损。整体来看,绝大多数与爬虫相关的风险中,爬虫使用者都有较为明显的恶意,例如,无论是在病毒、木马式应用,还是绕过系统防控收集他人数据等行为中,爬虫使用者都能够清晰地认识到自己的行为不当。

  因缺乏注意而导致的风险,则往往出现在爬虫使用者没有认识到或容易忽略信息所有者权利的场景中,典型的是对公开的个人数据的收集与利用。虽然近两年有关个人数据的收集规则被大力推广,但普通人对规则的了解还不全面,甚至完全没有个人信息保护的意识。许多爬虫开发者在应用爬虫时可能完全没有意识到自己收集个人数据需要获得用户的授权,所以建立基本的权利保护意识是完全必要的。

  五、非商业化使用的例外:个人的非恶意使用通常不会导致刑事风险

  如果说善意原则能通过个人的道德感、日常生活的学习感知等进行判断,相对容易遵守,注意原则对于许多个人开发者而言,则存在相当大的难度:与商业组织不同,个人开发者往往没有完整的运营团队,也很少系统地学习了除了专业知识之外的内容,所以,没有能力把控各类问题的法律界限。

  同时,对于许多个人开发者而言,无论是日常对相关技术的学习、实验,还是为了家庭或工作方便,都会经常自行开发一些只供自己或少数特定人使用、没有商业目的的小程序,其中,就经常存在利用爬虫技术爬取他人数据的情形。由于只限于小范围内传播,且仅供自身日常使用,所爬取的数据一般都不会对第三方造成影响。

  对于这些个人开发者而言,如果这些仅供个人使用或实验的程序,还需要通过严谨的商业开发流程去谈合作、做合规,无疑是不现实的。这些行为如果被认定为违法甚至构成犯罪,无疑将极大地挫败个人开发者的开发热情,也会对其学习应用相关技术造成阻碍。

  其实,在与爬虫相关的法律规定中,行为人的商业或不法目的通常都是入罪时的重要考量因素,只有有严重危害后果的,才可能构成刑事犯罪。非商业化的应用,一般并不会导致刑事风险。例如,在与爬虫收集最直接相关的侵犯公民个人信息罪中,信息是否被非法提供、出售或被用于非法用途,以及所谓的“赃款”,都是重要的定罪因素。

  从实践中的案例来看,最终被定罪处罚的,都存在诸如将收集的个人信息用于实施诈骗、出卖给第三方用于非法用途或其他的现实危害后果的情形,这在个人因日常需要而使用爬虫的情况中都不会存在。因此,仅仅是爬取网站的信息用于个人使用,通常不会被认定为犯罪。

  因此,对于个人开发者而言,个人因日常需要而非商业化的使用爬虫技术,只要保持最基本的注意,不恶意使用相关技术,没有出现因个人程序影响他人网站正常运行的情形,都没有犯罪的风险。

推荐阅读