作者:吴菊萍
上海市人民检察院第二分院第三检察部副主任、三级高级检察官,法学博士,上海市第九届优秀公诉人,入选全国检察机关网络犯罪检察人才库、上海市治理电信网络诈骗犯罪专家人才库,上海检察机关网络犯罪专业化办案团队召集人,国家检察官学院上海分院兼职教师,华东政法大学兼职硕士生导师。在《法学》《政治与法律》《中国检察官》等期刊发表论文30余篇,完成省部级以上课题11项,参与编写《体系刑法学》《刑事证据运用》等著作。
网络爬虫(web crawler)是一项在互联网时代普遍运用的网络信息搜索技术,其本质是一个高效的下载系统,能够将海量的网页数据传送到本地,形成互联网网页的镜像备份。当前网络爬虫的应用场景主要有:新闻资讯的搜索、分类、排序及动态推送;电商平台的商品浏览、销售、评价等数据的市场调研与分析;政务公开数据的优化及商业使用等。值得注意的是,网络爬虫被一些不法分子用于非法目的,如利用网络爬虫技术大量下载文字作品、音频视频等转售牟利;窃取竞争对手的商业数据进行不正当竞争;爬取各类公民个人信息,成为网络赌博、电信诈骗等犯罪的上游黑产。
诚然,不是所有的互联网场景都排斥数据爬虫,有些网站和应用希望被搜索以提高曝光率,但是多数网站基于服务器的承受能力、风险考量以及对商业数据的保密等原因,不希望被爬取数据。后者会制定相应的策略,采取一定的技术手段,来防止爬虫对数据的抓取。常见的应对策略是在网站根目录下放置 Robots协议,提示网络搜索引擎的漫游器可被获取的内容范围。但Robots协议更像君子协议,只能起到告示作用,有的爬虫仍然会利用“模拟真人访问”“通过协议破解”等方法来爬取数据。于是,很多网站和应用不得不采用反爬虫技术拦截手法,爬虫、反爬机制、反反爬机制,进行无休止的攻防对抗,浪费大量资源。
网络爬虫技术本质上是一项中立技术,一般不具有天然的违法性,但是使用爬虫技术的行为,则面临是非善恶的价值评判,以及法律责任评价。
爬虫与反爬机制的攻防对抗,实质是数据之争。当下,数据已成为经济社会的重要生产要素,是互联网企业核心竞争力,使用数据爬虫技术爬取数据,引发了众多竞争法上的纠纷。在竞争法视野下,司法裁判一般考虑两方面的利益权衡:一方面要遵从契约精神,既然已设置Robots协议,就应当遵守竞争规范,维护市场秩序。另一方面要防止市场垄断,避免因Robots协议对爬虫技术的限制而形成数据孤岛,进而构成数据垄断。
数据爬虫技术利用方式的不断发展变异,也引发刑事风险。在刑法视野下,司法裁判主要考虑以下因素:一是数据是否公开,数据犯罪所侵害的法益为数据安全,包括数据的保密性、完整性、可用性。二是手段是否具备侵入性,在数据权利人已经采取设置Robots协议、反爬机制等防范手段的情况下,通过反反爬技术继续爬取数据的行为,就具备较为明显的侵入性。三是行为是否具有社会危害性,社会危害性是犯罪的本质特征,如果一个行为没有社会危害性,或是社会危害性不明显,甚至对社会发展有利,就没有必要进行刑事追责。对于网络爬虫技术的使用如果突破其原有的技术中立性,目的从高效的搜索、下载,延伸至窃取他人信息进而非法牟利,应当以相关罪名追究其刑事责任。
没有法律规制的数据爬虫,很可能变异为“害虫”。使用网络爬虫技术要体现并保持技术的中立性,需要从以下三个方面进行限定,确保不逾越法律的红线:
一是爬取对象为公开数据;二是采取的手段不具有侵入性,是否具有侵入性可以从技术本身是否具有侵入性和数据爬取行为是否遵守爬虫协议与合同约定两个方面来判定;三是爬取的目的具有正当性、合理性、公平性。法律要规范的并非技术本身,除非该技术本身就有伦理问题。法律要调整的是由于技术运用而带来的当事人之间的利益分配问题,要传递的是公平合理的价值追求。高悬达摩克利斯之剑,才能确保数据爬虫技术在推动数字经济发展中发挥正向作用。
原文刊于《检察风云》2022年第2期。