莫讓“爬蟲”變“害蟲” 如何規制惡意爬取數據？ - 網安 - 專業的網絡安全產業、社區、知識平臺

包括2016年“車來了”App爬取“酷米客”App公交車行駛實時數據案、2017年脈脈非法抓取使用新浪微博用戶信息案、2017年今日頭條未經授權移植新浪微博大V賬號內容數據案、2019年刷寶App爬取抖音App短視頻及用戶評論數據案、2021年“極致了”網站爬取微信公眾號文章數據案等。

除了民事案件，因爬取個人信息數據涉及的刑事案件也呈增多趨勢，其中不乏數億級別的數據被爬取案件。比如，2021年6月，河南省商丘市睢陽區人民法院公布的刑事判決書顯示，逯某和黎某兩男子通過自己開發的爬蟲軟件，對淘寶實施了長達8個月的數據爬取，非法獲取近12億條用戶消息。

原本技術中立的“網絡爬蟲”卻因應用于數據爬取，有變成“害蟲”的威脅。惡意爬蟲在輕易爬取數據時，未經授權抓取、突破Robots協議、同行業間數據爬取，往往是典型情形。網絡爬蟲的法律邊界在哪里？數據企業如何保護自身合法權益？如何規制惡意爬蟲抓取數據亂象，引導行業合規健康發展？這是已經進入大數據時代后，行業參與者亟待解答的問題。

未經授權爬取數據涉嫌不正當競爭

政策加持讓數據迎來高光時刻。2020年4月9日，《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》正式發布，將數據作為一種新型生產要素。

然而，涉及數據權利的配套制度法規還未出臺，非法數據爬蟲已經襲來。2014年，因認為脈脈未經用戶允許和微博平臺授權，非法抓取、使用新浪微博用戶信息，非法獲取并使用脈脈注冊用戶手機通訊錄聯系人與微博用戶的對應關系，新浪微博將脈脈訴至法院。該案也被稱為首例大數據不正當競爭糾紛案。

2016年，北京市海淀區人民法院（下稱“北京海淀法院”）一審認為，網絡平臺可以就他人未經許可擅自使用其經過用戶同意收集并使用的用戶數據信息主張權利。2017年，北京知識產權法院終審認定，脈脈未經用戶允許和微博平臺授權，非法抓取、使用新浪微博用戶信息，構成不正當競爭。

未經授權和超出授權范圍使用成為上述案件判決的重要考量因素。北京知識產權法院認為，作為第三方開發者通過Open API獲得用戶信息時必須遵循“用戶授權+平臺授權+用戶授權”，即用戶同意平臺向第三方提供信息，平臺授權第三方獲取信息，用戶再次授權第三方使用信息，而且用戶的同意必須是具體的、清晰的，是用戶在充分知情的前提下自由作出的決定。這也被行業稱為“三重授權原則”。

“三重授權原則”對后續案件影響重大，并成為第三方爬取、使用數據的大前提。然而，惡意爬蟲往往越過紅線。現實中，數據爬取多發生在電商領域和內容平臺，以內容平臺為例，2021年9月，杭州互聯網法院審理斯氏(杭州)新媒體科技有限公司（下稱“斯氏公司”）爬取微信公眾號平臺數據案時認為，斯氏公司運營的“極致了”網站違背誠實信用原則，擅自使用其他經營者征得用戶同意、依法匯集且具有商業價值的數據，構成不正當競爭。

尤其在數字內容領域，數據是內容產業的核心競爭資源，內容平臺經過匯總分析處理后的數據往往具有極高的經濟價值。如果要求內容平臺經營者將其核心競爭資源向競爭對手無限開放，不僅損害創作者的創作環境，使得社會整體內容生產萎靡，消費者對優質內容的需求也就無從保障，而且有違“互聯互通”的精神實質，不利于優質內容的不斷更迭和互聯網產業的持續發展。

突破Robots協議違背商業道德

在涉及網絡爬蟲的案件中，Robots協議是繞不開的話題。Robots協議的全稱是“網絡爬蟲排除標準”，網站通過Robots協議明確警示搜索引擎哪些頁面可以爬取，哪些頁面不能爬取，類似于行業的“君子協定”。

按照Robots協議規則，搜索引擎會按照每個網站主給予自己的權限來抓取。實踐中可以發現，通過百度搜索引擎無法搜索到淘寶網的信息，可以搜索到京東商城的商品信息，原因是2008年淘寶禁止百度爬蟲，而京東商城則沒有對百度爬蟲說“不”。這其中的原因，和淘寶、京東的流量入口選擇和商業利益考量密切有關。

淘寶網禁止百度爬蟲Baiduspider訪問自己網站

但Robots協議并非強制性規定，在商業利益驅動下，網絡爬蟲與反爬取方之間更像是一場攻防戰，一些網絡平臺的惡意爬蟲不惜冒著風險主動出擊，突破Robots協議，而被爬取方只能在技術上被動防守，并通過求助司法訴訟主動維權。

在這場攻防戰中，也不乏互聯網領域知名企業的身影，其中，新浪微博和今日頭條間的矛盾沖突就不止一次出現。

2017年，因認為今日頭條未經授權抓取新浪微博賬號內容，新浪微博將今日頭條訴至法院。2021年5月17日，該不正當競爭糾紛案落槌，北京海淀法院一審判定，未獲平臺授權第三方不得抓取用戶內容，今日頭條的母公司字節跳動通過類似“復制粘貼”的方式對新浪微博內容進行大規模移植，有針對性地將新浪微博的內容移植至今日頭條，構成不正當競爭，賠償新浪微博2000萬元。

字節跳動轉而起訴新浪微博通過Robots協議禁止頭條搜索的爬蟲，構成不正當競爭。該案經歷一審敗訴，二審反轉的劇情。2021年10月8日，北京市高級人民法院終審認為，網絡平臺通過Robots協議對網絡爬蟲進行限制是網絡經營者經營自主權的一種體現。Robots協議在某種意義上已經成為維系企業核心競爭力，維系市場有序競爭的一種手段，應當允許網站經營者通過Robots協議對其他網絡機器人的抓取進行限制。

值得一提的是，通過Robots協議對網絡爬蟲進行限制并不違背互聯網行業的商業道德。在互聯網行業中，除了新浪微博通過Robots協議限制爬蟲抓取，包括字節跳動在內的互聯網公司均會通過Robots協議來明示禁止抓取的內容。

司法裁判指導數據合規

非法爬取數據案件背后，惡意爬蟲所建立的數據服務往往與被爬取方形成直接的競爭關系，甚至形成某種替代關系。

法院在案件裁判中也明確，互聯網領域中消費者福利的增加，不是通過數據爬取對數據進行明顯替代性或同質化地利用。非法爬蟲不勞而獲地爬取數據，獲得競爭權益等行為，顯然具有“搭便車”的不正當性。比如，在“極致了”網站爬取微信公眾號數據案中，法院認定，“極致了”網站違背誠實信用原則，擅自使用其他經營者征得用戶同意、依法匯集且具有商業價值的數據，并實質性替代其他經營者提供的部分產品或服務，損害公平競爭的市場秩序。

同時，法院在認定數據企業享有數據競爭權益時，也把數據企業對收集、整理時付出的人力物力財力等經營成本作為重要考慮因素。比如，在抖音起訴刷寶爬取數據案件中，法院認為，微播公司（抖音App的開發者和運營者）投入相應的人力、財力成本，通過正當合法的經營積累用戶和短視頻內容。刷寶App在未投入相應成本的情況下，直接獲取視頻資源、評論內容，掠奪微播公司的經營成果，損害了抖音的合法權益，構成不正當競爭。

研讀案件裁判思路不難發現，當數據企業面臨未經授權的惡意爬取時，司法機關也在不斷探索數據權益保護路徑，定紛止爭。在已有的司法判決中，法院對數據企業所享有的正當權益持肯定態度。數據企業的數據權利在遭受他人侵害時有權要求侵權人承擔侵權責任，包括在他人未經許可而竊取數據時，有權要求侵權人停止侵害、刪除非法竊取的數據；在侵權人因故意或過失造成損害時，有權要求侵權人承擔侵權賠償責任。

此外，從市場經濟發展的角度來看，如果數據從業者尤其是數據企業對于自己收集、存儲的數據無法合理有效地控制，爬蟲可以任由抓取，來去自如，數據企業顯然就沒有動力投入成本去收集、存儲以及利用海量數據，進而挖掘數據中蘊涵的巨大價值，更不可能研發更多的數據產品，數據產業的發展與大數據時代也就無從談起。

當前，雖然法律尚未對數據權利進行界定，但司法實踐中日漸增多的行業案例，其中，數據“權利”或“權益”并非完全無法界定，“用權”的合法事實和情景，“授權”鏈條相對清晰，且已經得到相當程度認可，尤其是司法審判對于數據權利部分的探索和認定，將對指導數據企業開展數據合規提供諸多參考和借鑒。