互聯網「蟲患」難除 | 人人都是產品經理

編輯導語:作為一項計算機技術,爬蟲能自動且高效地瀏覽互聯網完成「複製、抓取」兩個動作,存在於互聯網生活的方方面面,而廣泛應用的背景下,也存在著不少「蟲患」。本文作者分析了這一問題,推薦感興趣的朋友們閱讀。

爬蟲幾乎伴隨著整個互聯網的發展,作為一項計算機技術,它能自動且高效地瀏覽互聯網完成「複製、抓取」兩個動作。如果完全封禁網路爬蟲,可能導致互聯網發展「寸步難行」;但倘若不設置任何「屏障」,又可能導致互聯網淪為「數字叢林」。

法律難以確定一項「既要…又要…」的規則來劃定爬蟲合法界限。

robots協議作為國際互聯網通行道德規範,但卻常常被網路惡意訪問者所無視,有的網路爬蟲行為直接侵害他人權益,有的網路爬蟲行為直接涉嫌犯罪,更多的網路爬蟲行為處於法律灰色地帶之中,圍繞著「爬蟲」與「反爬蟲」成為了互聯網世界中的「永無休止戰」,目的都是:獲得數據。

當數據權屬懸而未決,也就註定了網路爬蟲戰爭難以落幕。

一、爬蟲經過之地,「樂園」還是「焦土」?

網路爬蟲是一種「自動瀏覽萬維網」的網路機器人,它作為一項計算機技術,自動且高效地瀏覽互聯網並完成「複製、抓取」兩個動作。「爬蟲」二字在中文語境帶有「貶義」,不免讓人聯繫成為一類有害之物,必須加以消滅。

但實際上,網路爬蟲是項中立的技術,合理合法地使用,它可以如同蜜蜂擴散傳播花粉般,在互聯網上充當著信息自由交換的工具;但如有使用者心懷叵測,它也可以掀起一場「蝗災」,讓網站、App瞬間崩潰,或是侵犯個人隱私。

爬蟲技術最常見運用在搜索引擎中,爬蟲可以將自己所訪問的頁面數據保存下來,製作成為索引以便供用戶搜索網頁。通常而言,搜索引擎爬蟲是網站經營者樂於接受的,爬蟲訪問會提升網站的曝光率。但有些時候,爬蟲並不「受人歡迎」。

2019年,國內外不少網站經營者抱怨遭遇了一些搜索引擎爬蟲的訪問,因訪問頻率過高,一度令一些網站癱瘓。

「短短一上午時間就收到了46萬次請求,消耗掉伺服器7.42GB流量。這對平均日活可能都沒有過千的小網站來說,已經算得上一次小型的DDoS攻擊。」一位遭遇Bytespider爬蟲網站經營者對此感嘆道。

DDos攻擊:指通過大規模互聯網流量淹沒目標伺服器或其周邊基礎設施,以破壞目標伺服器、服務或網路正常流量的惡意行為。

「通常爬蟲會定位網站所有的URL鏈接,獲取頁面里的數據,再對數據進行拆解利用。無論是在網頁端還是移動端,爬蟲都基於這樣的原理。」歐萊雅中國區數字化負責人劉煜晨介紹。「對於那些小網站或者技術實力弱的網站,如果被爬蟲7✖24小時持續的大量訪問,可能因伺服器無法承受導致網站崩潰。」

在現實生活中,其實很多人都與爬蟲「打過交道」。

比如,逢年過節之時,為確保能買到回家火車票,有人會選擇使用「搶票軟體」,這個軟體就是利用網路爬蟲來登錄鐵路售票網路,並爬取票務信息,然後輔以批量化、自動化和高速化的購票流程處理,從而能以毫秒級的刷新來獲取人工購票難以企及的信息和速度優勢。顯然,這種「充錢加塞」的方式顯然對正常渠道的購票者有失公平。

網路爬蟲不光消耗「被爬取方」網站的流量,同時能夠「抓走」網站頁面的數據,因此常引發紛爭。

2016年,百度因大量使用爬蟲抓取大眾點評的點評信息,在百度地圖中進行展示,后被大眾點評訴至法院。法院審理認為,百度的行為違反了公認的商業道德和誠實信用原則,構成不正當競爭。

對編寫網路爬蟲的程序員來說,如果爬到不該爬取的數據,則存在違法的可能。程序員圈內對此戲稱,「爬蟲寫得好,牢飯吃得早」。

從裁判文書網的檢索結果來看,利用網路爬蟲作為犯罪工具涉及的主要罪名有:

  • 侵犯公民個人信息罪
  • 非法獲取計算機信息系統罪
  • 破壞計算機信息系統罪
  • 傳播淫穢物品牟利罪
  • 侵犯知識產權罪
  • 詐騙罪等

目前,能夠檢索到50餘件相關判例。

二、robots協議,一扇虛掩著的門

談論網路爬蟲,就不可避免地談及robots協議,它好比你懸挂在酒店房門口「請勿打擾」或者「請即打掃」告示牌,旨在通過代碼來溝通「爬取方」和「被爬取方」之間的「爬取意願」。

1994年,荷蘭工程師傅馬丁·科斯特(Martijn Koster)起草了robots協議,而起草這份協議的初衷,正是由於馬丁·科斯特自建的網站經常被爬蟲所淹沒。馬丁·科斯特認為,被爬蟲抓取數據這件事是把雙刃劍,良好的爬取可以提高網站的曝光率,而惡意的爬取可能會導致伺服器壓力暴增而導致崩潰。

互聯網「蟲患」難除

robots協議寫法,例如:禁止Google爬蟲User-agent: Googlebot
Disallow: /

馬丁·科斯特起草的robots協議後來成為互聯網世界通行的道德規範,但這份協議更像是一份「君子協議」。馬丁·科斯特聲稱,該協議既不是強制性標準,沒有任何強制執行力,僅是一項技術措施,違反它只能放在商業道德的範疇來評價。

2012年11月1日,由中國互聯網協會牽頭,robots協議寫入了由12家中國互聯網企業簽署了《互聯網搜索引擎服務自律公約》中,此後成為多起「網路爬蟲」相關訴訟案件法院裁判所參考的規則。

遵循國際通行的行業慣例與商業規則,遵守機器人協議(robots協議)。

——《互聯網搜索引擎服務自律公約》第七條第1款

互聯網所有者設置機器人協議(robots協議)應遵循公平、開放和促進信息自由流動的原則,限制搜索引擎抓取應有行業公認合理的正當理由,不利用機器人協議進行不正當競爭行為,積極營造鼓勵創新、公平公正的良性競爭環境。

——《互聯網搜索引擎服務自律公約》第八條

而robots協議被更多人所知曉,起因於2013年的「360訴百度不正當競爭案」。該案原告奇虎公司指出,2012年8月16日,奇虎公司上線運營「360搜索引擎」,但百度並未在相關網站的robots協議中將「360搜索引擎」列入其「白名單」。故奇虎指控百度的行為構成不正當競爭,將其訴至法院,之後百度敗訴。

可能是為了讓人們更好地理解相關的原理,法院在一審判決中作出了形象的解釋,「robots協議就相當於在博物館入口處懸挂的提示牌,告知遊客哪些區域不對外開放,提示牌的目的並不是限制遊客的正常參觀活動,而是通過提示遊客哪些區域為非參觀區,從而引導遊客更有效的參觀遊覽。提示牌的內容對所有遊客應一視同仁,如果要禁止某一類人進入參觀,則需要有合理、正當的理由。」

百度後來提起上訴認為,搜索引擎遵循robots協議就是遵守行業慣例和公認的商業道德。

robots協議體現了網站與搜索引擎之間的交易自由,而一審判決以「促進信息共享」為由限制互聯網內容提供者自由選擇交易對象,若要求設置robots協議限制通用搜索引擎抓取應當具有的合理正當理由,實質上將廢止robots協議。

上訴案件經過長達近六年的審理,二審法院於2020年7月做出維持原判的決定。二審法院認為,「百度在缺乏合理、正當理由的情況下,以對網路搜索引擎經營主體區別對待的方式,故構成反不正當競爭法第二條規定所指的不正當競爭行為。」

經營者在生產經營活動中,應當遵循自願、平等、公平、誠信的原則,遵守法律和商業道德。

——《反不正當競爭法》第二條

儘管是一項通行規則,但robots協議僅是一道「虛掩著的門」,無法在實質上限制爬蟲。

「robots協議只是文字宣示,不是技術措施,客觀上無法阻止網路機器人抓取網路數據。」

在北京微夢創科網路技術有限公司(下稱「微夢創科」)與北京位元組跳動科技有限公司(下稱「位元組跳動」)不正當競爭糾紛中,一審被告新浪微博所屬的微夢創科在上訴狀中如此表示。

在該案中,一審原告位元組跳動認為新浪微博將其添加至robots協議的「黑名單」無合理理由,違反了相關法律規定和行業公認的商業道德,構成不正當競爭,訴請法院判令微夢創科停止不正當競爭行為、刊登道歉聲明、賠償其經濟損失1億元及制止侵權的50萬元支出。

2017年,微夢創科一審敗訴,北京市知識產權法院支持位元組跳動停止不正當競爭、刊登道歉聲明的請求,酌定微夢創科向位元組跳動賠償經濟損失30萬元及制止侵權的34343元支出。

北京市知識產權法院的主張與「360訴百度不正當競爭案」相似。

「本質上按照經營主體來區分網路信息是否可以被抓取,…….此種針對性的限制措施顯然與行業公認的robots協議公平、開放和促進信息自由流動原則不符,與互聯網行業普遍遵從的開放、平等、分享、協作的互聯網精神相悖,不利於維護公平參與、理性競爭的互聯網市場競爭環境。」

四年後,北京市高級人民法院對該案作出二審判決,撤銷一審判決,並駁回了位元組跳動所有訴訟請求。

法院認為,「robots協議在某種意義上已經成為維繫企業核心競爭力,維繫市場有序競爭的一種手段。儘管robots協議客觀上可能造成對某個或某些經營者的「歧視」,但在不損害消費者利益、不損害公共利益、不損害競爭秩序的情況下,應當允許網站經營者通過robots協議對其他網路機器人的抓取進行限制,這是網站經營者經營自主權的一種體現。」

「技術是中立的,但技術應用永遠不是中立的。」新浪集團訴訟總監張喆對此表示,「評價爬蟲技術原理沒有意義,更重要的是爬蟲技術用來幹什麼,看它的行為本身是否具有正當性。」

設置robots協議像是一道「虛掩著的門」,儘管協議用文字向爬蟲宣告「是否接受爬取」以及「可以爬取的範圍」,但它本質上僅是並不能阻攔爬蟲訪問。設置robots協議的行為在全球各地的司法裁判中也得到不同的評價。

2017年,在HiQ訴領英案中,HiQ公司對領英網站實施了網路爬蟲,但加利福尼亞北區地區法院的法官認為,這種爬蟲行為並不違反法律,因為領英網站上的數據是公開數據,對於公開數據,即使違反對方設置的robots協議,也應當是被法律允許的。

法官認為,爬蟲行為就像在白天推開一家未鎖門的商店進去看看,並不能將其認定為非法侵入。

法院最後不僅沒有認定 HiQ公司的爬蟲行為違法,甚至反過來認定領英的反爬蟲技術違法,要求領英公司移除針對HiQ的接入壁壘。但目前,該案由美國最高法院發回至舊金山第九巡迴上訴法院重審。

早年間,以爬蟲技術訪問他人網站內容,視為對於他人財產權的侵犯。

1992年,eBay訴Bidder’s Edge(一家提供拍賣信息的網站)案中,eBay指控Bidder’s Edge未經許可複製了eBay網站的內容,eBay已通過robots協議進行限制,但Bidder’s Edge並未遵守。審理此案的法官指出,eBay的伺服器是私有財產,eBay授予公眾可以有條件的訪問,並禁止包括Bidder’s Edge在內所採取的自動化式的訪問。

審理此案法官認為,超出同意的範圍,就構成對他人財產的侵犯;而Bidder’s Edge的行為明顯超越了eBay允許的使用範圍,構成非授權的使用,是對eBay財產的侵犯。法官認可robots協議既是權利人保護私有財產的一種正當技術手段,設置robots協議為免受爬蟲騷擾性訪問的通行做法。

如被抓取的數據涉及侵犯知識產權,是否設置robots協議則還成為授權許可與否的判斷,而這點各國採取的判斷標準則完全不一。

在2006年,美國的Field訴Google案中,原告布雷克·菲爾德(Blake Field)向法院起訴Google從自建網站中抓取作品侵害其享有的著作權。但Google辯稱,原告未在其網站中設置robots協議,即為默示許可Google的抓取行為。法院支持了Google的觀點,未設置robots協議的做法視為其默許搜索引擎抓取,Google並未侵權。

在2017年,比利時法院與美國法院的觀點截然相反。在Copiepresse訴Google案中,原告Copiepresse作為一家比利時的報業集團,因Google利用搜索引擎抓取原告網站中享有著作權的內容,故訴至法院。

Google辯稱原告Copiepresse可以設置robots協議的方式來告知搜索引擎的網路機器人可以抓取的範圍,但原告卻沒有這麼做,說明原告對於抓取是默示許可的。最終,比利時法院認為,著作權屬於排他性權利,沒有使用robots協議並不代表默示許可,最終支持了原告的主張。

三、無休止之戰:爬蟲與反爬蟲

「現在各行各業都需要用到爬蟲技術,大到政府部門,小到個體商戶、科研人員,要發展大數據產業,這些數據可能通過各種爬蟲技術來獲取,再進行數據清洗、整理、收集、入庫,調用。」互聯網爬蟲技術從業者的支先生對《財經》E法表示道。

「數據分佈在互聯網各個角落,爬蟲可以將其採集出來,利用數據產生價值。」支先生認為,有的平台型企業在初創期可能允許爬蟲爬取數據,幫助其推廣和宣傳,但發展具有一定規模后,它們會認為數據已形成獨特的競爭力,從而傾向於保護數據,限制爬蟲爬取。「在國內,涉及大型平台之間的數據爬取時,大多以不正當競爭為由發起訴訟。」

爬蟲與反爬蟲之間成為一場無休止之戰,發起攻擊的一方需要思考如何「鋒利其矛」,而防守一方則需要考慮如何「牢固其盾」。

「各個公司負責反爬蟲設計的人,一定也是爬蟲高手。」支先生說,最為常見的反爬取手段是限制IP或者限制ID賬號,在發現賬號有異常訪問的情況時,就對其進行阻攔。

「但沒有絕對穩固的城牆,只有相對的安全,如果說一家反爬取能力已經達到80%了,哪怕在上面再往上提高1%,可能又要投入上千萬元,甚至上億元,沒有任何意義。」

最為常見的是,通過「驗證碼」進行身份驗證,像拖動圖形滑動驗證、數學計算、圖形識別、手機驗證碼等方式,但都各有局限。「像手機驗證碼。這種防線其實也能被突破,現在有很多供應商提供自動驗證服務,花費大概是每條1分線。」另一位不願具名的爬蟲從業者表示,「爬蟲從技術角度根本防不住。」

谷歌作為站在爬蟲技術頂端的公司,在2009年收購由卡內基梅隆大學研發reCAPTCHA人機驗證機制,並運用於反爬蟲領域,如發現可疑訪問者,需要完成識別後才可以繼續訪問網站。十多年間,reCAPTCHA人機驗證機制也在不斷升級,來對抗企圖破解繞過驗證機制的爬蟲。

互聯網「蟲患」難除

reCAPTCHA人機驗證機制

從技術上看,這是一場「道高一尺,魔高一丈」的戰爭,但現實出發,爬取數據的一方也並不總是處於主動地位。對於爬蟲從業者來說,他們很難明確分辨自己的行為是否違法,以及是否會遭到懲罰。有時候他們能「置身事外」,引發的爭議僅發展為平台之間的「不正當競爭」民事訴訟,但有的時候他們則可能淪為犯罪行為中的「共犯」。

「對於我們這些從業者來說,爬蟲涉及到的法律風險難以把握,很多大公司里崗位職責分明,技術人員可能覺得自個就是一個寫代碼的,稀里糊塗就被抓了。」支先生對此表示道。「不管民事侵權還是犯罪行為,問題背後的根源還是數據的權屬不明晰。」

倘若將「爬取數據」與「入室盜竊」比較,入室行為侵犯了他人私人自治空間,而盜竊行為侵犯他人財產權;但「爬取數據」本身行為部分卻往往發生於原本開放的網路環境之中,當「數據權屬」未明晰時,則很難確定「誰因此受到損害」、「誰將遭受到懲罰」以及「誰有權能獲得賠償」。

四、爬蟲抓取的數據屬於誰?

爬蟲爬取的數據應屬於個人還是平台?在微夢創科與位元組跳動不正當競爭糾紛案中,今日頭條認為,數據應屬用戶所有,微博並不具備對用戶數據的任何權利,因此只要爬蟲是在用戶授權的情形下進行的,那麼即使頭條違反了微博的robots協議,也不違法。

但微夢創科認為,數據應屬於平台所有,因為在用戶協議中已作出約定:「用戶同意不可撤銷地授權微博平台作為微博內容的獨家發布平台,用戶所發表的微博內容僅在微博平台上予以獨家展示。」

還有一種觀點認為,數據屬於個人與平台共有。在新浪訴脈脈不正當競爭案中,法院認為,數據開放的前提需遵循「用戶授權+平台授權+用戶授權」的「三重授權」模式,即平台首先取得用戶同意而收集數據,在平台向第三方授權使用此類信息時,第三方還應當明確告知用戶其使用的目的、方式和範圍,再次取得用戶的同意。

這一判決理由意味著,個人和平台對於數據都擁有一定的權利主張,數據在一定程度上為個人與平台所共有。

也有觀點認為,互聯網具有公共屬性。加利福尼亞大學伯克利法學院教授奧林·科爾(Orin Kerr)有過經典描述,在他看來,互聯網的一般原則是開放性,這種開放性允許世界上任何人發布信息或數據,數據可以被任何人訪問,而無需進行身份驗證。

當然,奧林·科爾的觀點並不受企業歡迎,這些企業往往認為通過經營活動吸引用戶積累數據,對整體數據資源享有競爭性利益。

「不談論數據合法生產者具有控制權,難以對爬蟲合法性進行判斷。」華東政法大學法律學院教授、數據法律研究中心主任高富平認為,現在國內的判決,基本在競爭法的框架下進行裁判,即爬蟲目的是否「實質性替代」被爬一方的業務,成為判斷爬蟲合法性的關鍵,有損害後果才制止爬蟲行為,總是有它的局限性。

「如果承認數據生產者具有數據的控制權,基於控制權,就可以對於那些無視robots協議的數據爬取者進行打擊。」高富平表示道,「更重要的是承認數據合法生產者可基於商業目的來開放數據,以許可使用方式或者其他交換交易等方式,讓數據為更多人所使用。」

從國內立法來看,2021年6月頒布的《深圳經濟特區數據條例》首次以立法形式提及了「數據財產權」的概念,其中第四條作出規定,認可自然人、法人和非法人組織對其合法處理數據形成的數據產品和服務享有法律、行政法規及本條例規定的財產權益。高富平在接受媒體時表示,《深圳經濟特區數據條例》將數據財產權分配給自然人、法人和非法人組織是存在衝突的。

「個人的數據權應該保護的是個人的尊嚴和自由,基本上屬於人格權範疇,而不是一個財產權,如果把個人的數據權定有財產權屬性,那個人在決定數據使用的時候,他的決定權就會和國家、企業的相衝突,這裡面就會有權利「打架」的問題,無法構建數據的利用秩序。」高富平對此評價。

爬蟲抓取的數據屬於誰?

中國人民大學法學院副教授丁曉東則認為,爬取平台數據而引發的數據此,無論把平台數據權屬歸於哪一方都不合理。有的場景下,屬於個人數據範疇,需要數據隱私法的優先保護;有的場景下,平台數據具有類似資料庫的性質,需要「類似資料庫權益」的保護;而在其他場景下,平台數據又具有公共性,需要法律保障數據的共享與流通。

假如可能封禁所有網路爬蟲的話,互聯網可能將會「寸步難行」;倘若又未對爬蟲設置任何「屏障」,互聯網則可能淪為「數字叢林」,最終侵害到用戶權益。因此,該如何規制網路爬蟲行為,讓互聯網既保持自由、開放,又能有序健康發展,成為互聯網行業都面臨挑戰。

當數據權屬仍懸而未決時,也就意味著從未無休止爬蟲戰爭仍將繼續。

 

作者:殷繼,姚佳瑩;公眾號:財經E法