在大数据时代,除直接通过用户采集之外,另一大数据来源就是使用网络爬虫采集公开信息。爬虫的使用到了何种程度?有业内人士称,互联网50%以上,甚至更高的流量其实都是爬虫贡献的。对某些热门网页,爬虫的访问量甚至可能占据了该页面总访问量的90%以上。[1]

目前我国还没有专门针对爬虫技术的法律或者规范。一般而言,爬虫程序只是在更高效地收集信息,因此从技术中立的角度而言,爬虫技术本身并无违法违规之处。但是,随着数据产业的发展,数据爬取犹如资源争夺战一般越发激烈白热。数据爬取带来的各种问题和顾虑日渐增加。而“爬”与“反爬”的技术对抗成为军备竞赛一般永无休止,成为所有行业主体的痛。而爬与反爬之间的对抗赛,还存在无法避免的误伤率,导致正常用户的困扰。

数据爬取行为的界限应当如何确定?应当注意哪些问题?除了技术的解决途径,是否存在或应当存在法律层面的解决方案?这些需要技术与法律人群的深度沟通。

网络爬虫是个啥?

网络爬虫是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。[2] 可以理解为一个自动访问网页并进行相关操作的小机器人。本质上就是实现高效、自动地进行网络信息的读取、收集等行为。在大多数情况下,爬虫技术的本质就是通过代码实现对人工访问操作的自动化操作。但是,由于爬虫系通过解析代码的方式工作,因此爬虫还有可能访问到人工访问不会访问、或者无法访问的内容。

最早的爬虫程序是1994年休斯敦大学的Eichmann开发的RBSE。著名的谷歌公司使用的Google Crawler是当时还是斯坦福大学生Brin和Page在1998年用Python开发的。[3]

网络爬虫有啥用?

网络爬虫的应用场景很多,例如(1)搜索引擎都会使用爬虫程序;(2)抓取网络公开数据,建立某种专业数据库,例如股票交易数据库、外汇数据库、商户信息数据库等;(3)用于自身分析及经营行为,如各电商行业之间的比价;(4)建立数字图书馆;(5)其它可以进行数据利用的无限想象空间。

网络爬虫的行为举止

通常来说,一个网络爬虫的行为流程可以分解为几个步骤:(1)采集信息;(2)数据存储;(3)信息提取。

如同人类一样,爬虫根据其设计者的意志,会有不同的特点和行为举止。例如通过不同的算法设定,有的爬虫是爬得宽但是不深,或者反之,甚至有效抓取暗网;有的是主题爬虫,只关注某些内容;有的擅长爬取文字,有的擅长爬取视频或图片;有的长于爬取速度,有的长于准确,等等。

此外,还有的爬虫比较有礼貌,去爬取时会自报姓名(我是哪家的小爬),遵守网站主人的“家规”;有的野蛮粗鲁,生硬闯入,并且不遵守网站的规则。

网络爬虫造成的问题

网络爬虫造成的最主要问题和顾虑如下:

  • 技术方面,过于野蛮的爬虫可能造成网站负荷过大(尤其多线程爬虫),从而导致网站瘫痪、不能访问等。
  • 内容方面,网络爬虫可能导致网站所有人丧失对自己网站数据的控制权,例如有的数据是网站所有人不愿被他人获取的;或者如果网站数据来源付出了较大代价,却可能因为网络爬虫轻易大量被他人获取;
  • 在结果方面,网络爬虫还可能造成他人数据被不正当地复制、使用。网站数据如果涉及他人个人信息,还可能因网络爬虫导致数据大量被他人未经数据主体同意而获取,从而伤害其利益。

目前的网络爬虫行为规则是啥?

对爬虫来说,目前的网络世界仍类似WILD WEST,处于自由发展、技术为王、规则自定的状态。这很大程度源于网络行为的匿名性和不可追踪性。尽管,程序和机器的行为目前仍然是人类行为的结果、受人类意志的控制、并服从于人类的目的。但相关的行为结果和责任却难以归结于操控其的人类主体。

但是,如果我们回忆一下,在过去网站人类使用者也曾经经历过身份难以被识别、法律责任难以追究的历史。但是,随着实名制的强制推行,互联网渐渐不再是匿名黑箱,而是能够在很多情形下实现身份识别和法律追责。所以,我们认为,即便在目前爬虫所有人身份难以被精确识别的情况下,仍然应当认识到爬虫的规则界限及法律风险。

使用爬虫的法律风险

如上所说,爬虫的行为举止各不相同。尽管目前没有非常直接的规定,但我们已经可以从现有的法律规定及司法案例中推导出部分规范和原则。

  • 不遵守robots协议的法律风险

Robots协议是技术界为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。另一种类似的机制为设置Robots Meta标��。[4]

根据中国互联网协会《互联网搜索引擎服务自律公约》第七条的定义,机器人协议(robots协议)是指互联网站所有者使用robots.txt文件,向网络机器人(Web robots)给出网站指令的协议。具体而言,robots协议是网站所有者通过位于置于网站根目录下的文本文件robots.txt,提示网络机器人哪些网页不应被抓取,哪些网页可以抓取。

该文件中主要包括以下几个语句:(1)User-agent:用于指明搜索引擎网络机器人的名字;(2)Disallow:用于指明不希望被访问或抓取的网页或目录;(3)Allow:用于表示允许网络机器人抓取的范围。在实践中,大多数网站在设置robots协议时,主要使用的都是“Disallow:”语句,较少使用“Allow:”语句。

关于Robots协议的法律属性,我国目前法律下并没有明确规定,但《互联网搜索引擎服务自律公约》第七条规定,“遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)”。第八条则规定“互联网站所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则,限制搜索引擎抓取应有行业公认合理的正当理由,不利用机器人协议进行不正当竞争行为,积极营造鼓励创新、公平公正的良性竞争环境。”

虽然《互联网搜索引擎服务自律公约》仅适用于中国互联网协会会员单位和自愿加入《中国互联网行业自律公约》的互联网从业单位,但在司法实践中,robots协议已经被认定构成互联网行业搜索领域内工人的商业道德:北京市第一中级人民法院在百度诉奇虎不正当竞争案件中,将为行业内所公认的Robots协议认定为互联网行业搜索领域内公认的商业道德。法院在判决中指出“在被告推出搜索引擎伊始,其网站亦刊载了Robots协议的内容和设置方法,说明包括被告在内的整个互联网行业对于Robots协议都是认可和遵守的。其应当被认定为行业内的通行规则,应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德”。

因此,无视网站设置的robots协议而随意抓取网站内容的行为将涉嫌构成对《反不正当竞争法》的第二条的违反,即违反诚实信用原则和商业道德的不正当竞争行为。

至于robots协议是否构成网站运营者与爬虫控制者之间有约束力的合同,目前尚未看到有关于此的司法认定。这需要一个细致的法律分析的过来加以论证,此不赘述。

  • 强行突破网站设置的技术措施的法律风险

如前所述说,由于爬虫的批量访问会给网站带来巨大的压力和负担,因此许多网站经营者会采取技术手段,以阻止爬虫批量获取自己网站信息。常见的技术措施包括:(1)通过UA 识别爬虫、(2)设置IP访问频率,如果超过一定频率,弹出验证码(3)通过并发识别爬虫;(4)请求的时间窗口过滤统计;(5)限制单个ip/api token的访问量;(6)识别出合法爬虫(7)蜜罐资源等。

虽然存在多种不同的技术,但该等技术本质上都是网站运营者采取的阻止爬虫批量访问和抓取信息的技术手段,因此从法律上并没有实质性区别。而针对该等技术手段,爬虫开发者可以通过优化自己的代码、使用IP池等多种方式规避上述技术措施,实现对网站信息的批量抓取和复制。

如前所述,由于网络爬虫会根据特定策略尽可能多的访问页面,因而爬虫的使用将占用被访问网站的网络带宽并增加网络服务器的处理开销,甚至无法正常提供服务。另一方面,虽然网站上的信息是公开的,但在没有爬虫的情况下,一般经营者较难批量复制网站上的信息,例如抓取竞争对手的价格以进行比价,或者实时调整自己的价格。而在使用爬虫技术的情况,则能够实现上述模式。

对此,我们认为《反不正当竞争法》第十二条第二款规定有可能得以适用。即,经营者不得利用技术手段,通过影响用户选择或者其他方式,实施列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:…(四)其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。

虽然上述规定仅仅是一个《反不正当竞争法》网络条款中的兜底条款。但是,其体现了法律禁止通过技术手段进行对他人产品的非法干扰的总体原则。因此,如果网站运营者已经采取了一定的反爬虫措施,而爬虫控制者基于经营目的、强行突破网站运营者采取的反爬虫技术措施,并客观导致被抓取网站的正常运行,则大可能构成上述规定所规制的不正当竞争行为。当然,此种情形下,鉴别实施者身份仍然是追责的巨大障碍。

此外,强行突破某些特定被爬方的技术措施,还可能构成刑事犯罪行为。《刑法》第二百八十五条规定,违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,不论情节严重与否,构成非法侵入计算机信息系统罪。《刑法》第二百八十六条还规定,违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成犯罪,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。而违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,后果严重的,也构成犯罪,依照前款的规定处罚。

  • 爬虫抓取特定类型的信息的法律风险

由于爬虫系通过解析代码的方式工作,并且爬虫控制者有可能会为规避网站经营者设置的反爬虫措施而采取伪装行为,因此通过爬虫,爬虫控制者将有可能访问和抓取到一般用户无法解除到的内容。正因为如此,除采用爬虫技术实施数据抓取本身的风险外,爬虫控制者还可能由于抓取到某些受法律保护的信息,而构成违法、违规,甚至刑事犯罪的风险。

1.爬虫抓取的信息属于著作权法保护的作品

无论是网络上的文章、图片、用户评论,甚至网站自身的数据库,都有可能在具备独创性的情况下构成著作权法保护的作品。对于该等信息的抓取和使用是否构成著作权侵权,笔者认为:

  • 就网页访问行为而言,由于爬虫本身仅仅是对人类访问行为的模仿,因此就访问行为而言,对于那些人工访问本身已经可以访问的信息,访问行为并不会构成侵权。但是,如果被抓取的网站本身设置了某些技术措施以保证只有特定用户才能接触该等信息,而爬虫突破了该等限制,则爬虫的访问行为有可能涉嫌破坏技术措施的违法或者侵权行为;
  • 就数据保存行为而言,从著作权法的角度来讲,抓取行为的本质上是对信息的复制,因此该等行为有可能侵犯著作权人的复制权。当然,我国对于临时复制的行为持宽容态度。如果该等信息的保存属于
  • 就数据提取和使用行为而言,如果爬虫控制者抓取信息后在自己的网站上公开传播抓取到的信息,则还有可能进一步侵犯信息网络传播权。
  1. 爬虫抓取的信息属于商业秘密

虽然网络上公开的信息较难构成商业秘密,但由于网络上某些信息可以通过采取技术措施使得仅有特定的用户可以接触,因此网络上的信息仍有可能具备商业秘密要求的秘密性和保密性,构成商业秘密的可能。

根据《反不正当竞争法》第九条,以不正当手段获取他人商业秘密的行为即已经构成侵犯商业秘密。而后续如果进一步利用,或者公开该等信息,则构成对他人商业秘密的披露和使用,同样构成对权利人的商业秘密的侵犯。

因此,如果爬虫控制者在抓取信息的过程中有意地规避了网站经营者设置的保护措施,接触、保存甚至披露了一般用户原本无法访问的信息,而该等信息又构成商业秘密,则爬虫控制者的该等行为存在侵犯他人商业秘密的可能。

  1. 爬虫抓取的信息属于用户的个人隐私

在微博、微信、博客等社交平台,用户可以上传自身的信息后设置访问限制,或者使用加密功能只有自己可以访问,因此,该等信息仍有可能属于用户的个人隐私。因此,如果爬虫控制者绕开上述限制,而抓取用户的该等隐私,又或者在抓取后公开传播该等信息,造成对用户的损害后果的,则有可能侵犯了相关用户的隐私权。

  1. 爬虫抓取的信息属于反不正当竞争保护的数据

在大众点评诉百度不正当竞争案件、以及新浪微博诉脉脉不正当竞争等案件中,法院都认定被告未经许可抓取、使用原告网站中的数据的行为,违反了诚实信用原则及公认的道德,损害了互联网的市场竞争秩序,损害了原告的竞争优势,从而构成不正当竞争。

笔者认为,该等案件的共性在于原告网站中的数据系由用户生成,且该等数据和内容系原告网站的主要竞争力来源。因此,如果抓取大众点评、新浪微博、知乎等UGC模式的网站上用户发布的信息,并在自己的产品或者服务中发布、使用该等信息,则有较大的风险构成不正当竞争。

  1. 爬虫抓取的信息属于用户的个人信息

根据《民法总则》第111条任何组织和个人需要获取他人个人信息的,应当依法取得并确保信息安全。不得非法收集、使用、加工、传输他人个人信息;《网络安全法》第四十四条 任何个人和组织不得窃取或者以其他非法方式获取个人信息。因此,如果爬虫在未经用户同意的情况下大量抓取用户的个人信息,则有可能构成非法收集个人信息的违法行为。

当然,这里涉及到两个层次的个人信息。对于用户自行公开发布的个人信息(例如在微薄上自行公开的邮箱、电话号码等),用户的自愿公开行为是否可以被认定为获得了用户的同意、从而可以任意抓取仍存在疑问;而对于用户不愿公开发布的非公开个人信息,其抓取行为则有很高可能性被认为是非法行为。

此外,更为严重的是,如果涉及到个人信息,不仅抓取行为本身具有很大法律风险。其后续行为也可能构成违法犯罪。

我国《刑法》修正案(九)中将刑法第二百五十三条进行了修订,明确规定违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,构成犯罪;在未经用户许可的情况下,非法获取用户的个人信息,情节严重的也将构成“侵犯公民个人信息罪”。

根据《最高人民法院 最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条规定,对“情节严重”的解释,(1)非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的;(2)非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的;(3)非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的便构成“侵犯公民个人信息罪”所要求的“情节严重”。

此外,未经被收集者同意,即使是将合法收集的公民个人信息向他人提供的,也属于刑法第二百五十三条之一规定的“提供公民个人信息”,可能构成犯罪。

结语:如何避免爬虫带来的法律风险?

如前所述,使用爬虫技术可能的法律风险主要来自几方面:(1)违反被爬取方的意愿,例如规避网站设置的反爬虫措施、强行突破其反爬措施;(2)爬虫的使用造成了干扰了被访问网站正常运行的实际后果;(3)爬虫抓取到受法律保护的特定类型的信息。其中,第(3)类风险主要来自于通过规避反爬虫措施抓取到了互联网上未被公开的信息。

基于此,笔者认为,为规避使用爬虫技术带来的风险,爬虫控制者在使用爬虫时应:(1)严格遵守网站设置的robots协议;(2)在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;(3)在设置抓取策略时,应注意编码抓取视频、音乐等可能构成作品的数据,或者针对某些特定网站批量抓取其中的用户生成内容;(4)在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。

当然,现实中的“爬”与“反爬”行为情况要复杂的多,难以通过简单的原则全面覆盖。还需要针对不同的具体情况具体进行分析。但是,认识到网络社会仍如同现实社会,需要遵从一定的行为规范,这一点是非常必要和重要的。