你的隱私，大數據怎知道

VSole2023-01-13 11:44:21

在網絡上，每個人都會或多或少，或主動或被動地泄露某些碎片信息。這些信息被大數據挖掘，就存在隱私泄露的風險，引發信息安全問題。面對洶涌而來的5G時代，大眾對自己的隱私保護感到越來越迷茫，甚至有點不知所措。那么，你的隱私，大數據是怎么知道的呢？大家又該如何自我保護呢？

“已知、未知”大數據都知道

大數據時代，每個人都有可能成為安徒生童話中那個“穿新衣”的皇帝。在大數據面前，你說過什么話，它知道；你做過什么事，它知道；你有什么愛好，它知道；你生過什么病，它知道；你家住哪里，它知道；你的親朋好友都有誰，它也知道……總之，你自己知道的，它幾乎都知道，或者說它都能夠知道，至少可以說，它遲早會知道！

甚至，連你自己都不知道的事情，大數據也可能知道。例如，它能夠發現你的許多潛意識習慣：集體照相時你喜歡站哪里呀，跨門檻時喜歡先邁左腳還是右腳呀，你喜歡與什么樣的人打交道呀，你的性格特點都有什么呀，哪位朋友與你的觀點不相同呀……

再進一步說，今后將要發生的事情，大數據還是有可能知道。例如，根據你“飲食多、運動少”等信息，它就能夠推測出，你可能會“三高”。當你與許多人都在獨立地購買感冒藥時，大數據就知道：流感即將暴發了！其實，大數據已經成功地預測了包括世界杯比賽結果、股票的波動、物價趨勢、用戶行為、交通情況等。

當然，這里的“你”并非僅僅指“你個人”，包括但不限于，你的家庭，你的單位，你的民族，甚至你的國家等。至于這些你知道的、不知道的或今后才知道的隱私信息，將會把你塑造成什么，是英雄還是狗熊？這卻難以預知。

數據挖掘就像“垃圾處理”

什么是大數據？形象地說，所謂大數據，就是由許多千奇百怪的數據，雜亂無章地堆積在一起。例如，你在網上說的話、發的微信、收發的電子郵件等，都是大數據的組成部分。在不知道的情況下被采集的眾多信息，例如被馬路攝像頭獲取的視頻、手機定位系統留下的路線圖、駕車的導航信號等被動信息，也都是大數據的組成部分。還有，各種傳感器設備自動采集的有關溫度、濕度、速度等萬物信息，仍然是大數據的組成部分。總之，每個人、每種通信和控制類設備，無論它是軟件還是硬件，其實都是大數據之源。

大數據利用了一種名叫“大數據挖掘”的技術，采用諸如神經網絡、遺傳算法、決策樹、粗糙集、覆蓋正例排斥反例、統計分析、模糊集等方法挖掘信息。大數據挖掘的過程，可以分為數據收集、數據集成、數據規約、數據清理、數據變換、挖掘分析、模式評估、知識表示等八大步驟。

不過，這些聽起來高大上的大數據產業，幾乎等同于垃圾處理和廢品回收。

這并不是在開玩笑。廢品收購和垃圾收集，可算作“數據收集”；將廢品和垃圾送往集中處理場所，可算作“數據集成”；將廢品和垃圾初步分類，可算作“數據規約”；將廢品和垃圾適當清潔和整理，可算作“數據清理”；將破沙發拆成木、鐵、布等原料，可算作“數據變換”；認真分析如何將這些原料賣個好價錢，可算作“數據分析”；不斷總結經驗，選擇并固定上下游賣家和買家，可算作“模式評估”；最后，把這些技巧整理成口訣，可算作“知識表示”。

再看原料結構。大數據具有異構特性，就像垃圾一樣千奇百怪。如果非要在垃圾和大數據之間找出本質差別的話，那就在于垃圾是有實體的，再利用的次數有限；而大數據是虛擬的，可以反復處理，反復利用。例如，大數據專家能將數據（廢品）中挖掘出的旅客出行規律交給航空公司，將某群體的消費習慣賣給百貨商店等。總之，大數據專家完全可以“一菜多吃”，反復利用，而且時間越久，價值越大。換句話說，大數據是很值錢的“垃圾”。

大數據挖掘永遠沒有盡頭

大數據挖掘，雖然能從正面創造價值，但是也有其負面影響，即存在泄露隱私的風險。隱私是如何被泄露的呢？這其實很簡單，我們先來分解一下“人肉搜索”是如何侵犯隱私的吧！

一大群網友，出于某種目的，利用自己的一切資源渠道，盡可能多地收集當事人或物的所有信息；然后，將這些信息按照自己的目的提煉成新信息，反饋到網上與別人分享。這就完成了第一次“人肉迭代”。

接著，大家又在第一次人肉迭代的基礎上，互相取經，再接再厲，交叉重復進行信息的收集、加工、整理等工作，于是，便誕生了第二次“人肉迭代”。如此循環往復，經過多次不懈迭代后，當事人或物的畫像就躍然紙上了。如果構成“滿意畫像”的素材確實已經證實，至少主體是事實，“人肉搜索”就成功了。

幾乎可以斷定，只要參與“人肉搜索”的網友足夠多，時間足夠長，大家的毅力足夠強，那么任何人都可能無處遁形。

其實，所謂的大數據挖掘，在某種意義上說，就是由機器自動完成的特殊“人肉搜索”而已。只不過，這種搜索的目的，不再限于抹黑或頌揚某人，而是有更加廣泛的目的，例如，為商品銷售者尋找最佳買家、為某類數據尋找規律、為某些事物之間尋找關聯等。總之，只要目的明確，那么，大數據挖掘就會有用武之地。

如果將“人肉搜索”與大數據挖掘相比，網友被電腦所替代；網友們收集的信息，被數據庫中的海量異構數據所替代；網友尋找各種人物關聯的技巧，被相應的智能算法替代；網友們相互借鑒、彼此啟發的做法，被各種同步運算所替代。

各次迭代過程仍然照例進行，只不過機器的迭代次數更多，速度更快，每次迭代其實就是機器的一次“學習”過程。網友們的最終“滿意畫像”，被暫時的挖掘結果所替代。之所以說是暫時，那是因為對大數據挖掘來說，永遠沒有盡頭，結果會越來越精準，智慧程度會越來越高，用戶只需根據自己的標準，隨時選擇滿意的結果就行了。

當然，除了相似性外，“人肉搜索”與“大數據挖掘”肯定也有許多重大的區別。例如，機器不會累，它們收集的數據會更多、更快，數據的渠道來源會更廣泛。總之，網友的“人肉搜索”，最終將輸給機器的“大數據挖掘”。

隱私保護與數據挖掘“危”“機”并存

必須承認，就當前的現實情況來說，大數據隱私挖掘的“殺傷力”，已經遠遠超過了大數據隱私保護的能力；換句話說，在大數據挖掘面前，當前人類有點不知所措。這確實是一種意外。自互聯網誕生以后，在過去幾十年，人們都不遺余力地將碎片信息永遠留在網上。其中的每個碎片雖然都完全無害，可誰也不曾意識到，至少沒有刻意去關注，當眾多無害碎片融合起來，竟然后患無窮！

不過，大家也沒必要過于擔心。在人類歷史上，類似的被動局面已經出現過不止一次了。從以往的經驗來看，隱私保護與數據挖掘之間總是像“走馬燈”一樣輪換的——人類通過對隱私的“挖掘”，獲得空前好處，產生了更多需要保護的“隱私”，于是，不得不再回過頭來，認真研究如何保護這些隱私。當隱私積累得越來越多時，“挖掘”它們就會變得越來越有利可圖，于是，新一輪的“挖掘”又開始了。歷史地來看，人類在自身隱私保護方面，整體處于優勢地位，在網絡大數據挖掘之前，“隱私泄露”并不是一個突出的問題。

但是，現在人類需要面對一個棘手的問題——對過去遺留在網上的海量碎片信息，如何進行隱私保護呢？單靠技術，顯然不行，甚至還會越“保護”，就越“泄露隱私”。

因此，必須多管齊下。例如從法律上，禁止以“人肉搜索”為目的的大數據挖掘行為；從管理角度，發現惡意的大數據搜索行為，對其進行必要的監督和管控。另外，在必要的時候，還需要重塑“隱私”概念，畢竟“隱私”本身就是一個與時間、地點、民族、文化等有關的約定俗成的概念。

對于個人的網絡行為而言，在大數據時代，應該如何保護隱私呢？或者說，至少不要把過多包含個人隱私的碎片信息遺留在網上呢？答案只有兩個字：匿名！只要做好匿名工作，就能在一定程度上，保護好隱私了。也就是說，在大數據技術出現之前，隱私就是把“私”藏起來，個人身份可公開，而大數據時代，隱私保護則是把“私”公開（實際上是沒法不公開），而把個人身份隱藏起來，即匿名。

（作者：楊義先、鈕心忻，均為北京郵電大學教授）

大數據數據與信息

撤稿糾錯

本作品采用《CC 協議》，轉載必須注明作者和本文鏈接

境內外上市企業的數據合規策略（DPO社群成員觀點）

2022-05-14 07:16:10

編者按：關于企業上市全過程中的數據安全、網絡安全和個人信息保護方面的監管重點、風險和應對，DPO社群中的很多同仁發表過一些文章：企業上市過程面臨的數據合規問題和相關風險：境外篇 2021版（DPO社群成員觀點）從墨跡IPO被否看擬境內上市企業的數據合規工作（DPO社群成員觀點）企業上市過程面臨的數據合規問題和相關風險：境外篇（DPO社群成員觀點）企業上市過程面臨的數據合規問題和相關風

國家工信安全中心聯合華為發布《數據安全白皮書》

2021-07-18 20:10:50

各經濟體更加重視數據競爭力，紛紛制定出臺數據戰略，宣誓數據安全和主權。因此，歐盟認為必須建立歐洲數據主權。近年來，我國陸續發布了一系列數據及其安全相關的法律法規和標準規范，數據資產價值得到確認。2020年6月，12部委聯合發布《網絡安全審查辦法》，推動建立國家網絡安全審查工作機制。

國外關于App收集使用個人信息的立法狀況

2019-06-14 00:00:00

近年來，App的迅猛發展使得個人信息安全問題更為復雜和多樣化。法律法規無疑是治理違規App的根本依靠和有力抓手，本文梳理了國外個人信息保護的相關法律法規，為業界提供參考。

《數據安全白皮書》：數據安全總體策略及治理思路

2021-07-17 19:02:49

國家工業信息安全發展研究中心作為國家級信息安全研究和推進機構，聯合華為技術有限公司共同研究編制了《數據安全白皮書》，全面分析了我國數據安全產業基礎、防護關鍵技術、法律法規體系現狀，從提升數據安全產業基礎能力、加快研究和應用數據安全防護技術、強化法律法規在數據安全主權的支撐保障作用等三方面展望數據安全發展未來，提出了數據安全發展倡議，為行業發展提供借鑒和參考，積極推動我國數據治理工作有序開展。

智能電網數字化運營管理能力助力山東電力數字化轉型

2021-09-26 17:40:30

2020年公司高損臺區減少電量損失2.6億千瓦時，在國網系統內率先實現購售同期自然月抄表電費回收率達99.999%以上，獲得國網業績考核“A+”級企業。目標是完成電網全業務數據收集分析，優化電網運行過程中的數據分析與處理效率，提升公司內部經營管理、生產控制以及公共服務能力。同時，對電網運營人員進行同步的數字化運營技能提升，逐步實現將數字化融入電網業務、基層一線和產業生態，最終實現公司數字化轉型。

基于大數據的安防體系建設研究和實踐

2022-02-17 17:56:44

隨著大數據、人工智能和云計算等信息技術的發展，安全防護形勢也越來越嚴峻，IT 架構和服務模式不斷發生變化，傳統的安防體系面臨著諸多問題。在繼承傳統的安全防護體系的基礎上，提出了將大數據相關技術融入到安防體系中，并從數據接入層面、數據融合分析層面、數據服務層面出發，通過大數據等技術手段構建了安全數據中臺，完善了安全防護技術體系。實踐證明，該體系在結構上能夠有效彌補傳統安全防護架構的不足。

實現數據可用不可見、兼顧安全與應用

2022-04-24 15:03:59

在數字經濟時代，隨著人工智能、大數據等產業的快速發展，數據要素的作用及其重要性愈發凸顯。與此同時，大量挖掘和收集用戶數據與信息，金融領域用戶數據信息泄露事件多發。隨著《數據保護法》《個人信息保護法》等的落地，金融業如何做到既保護數據安全，又充分發揮數據資產價值、高效鏈接多方數據，成為一項亟需解決的課題。

專題研究 | Palantir 大數據能力分析研究

2021-09-21 07:23:09

Palantir公司名稱來源于《指環王》，palantir是“seeing-stone”，可穿越時空、洞悉世間一切。公司于2003年5月注冊成立，總部設在美國科羅拉多州的丹佛，專門從事大數據分析。2020年9月29日登陸紐交所，估計潛在市場超過千億美元。

數據所有權：問題盤點與總結（下）

2022-01-18 06:52:59

一直關注數據安全，公號君決定新開一個系列的研究筆記，關注數據要素治理。此前，本公號發表過的關于數據要素治理的相關文章包括：《非個人數據在歐盟境內自由流動框架條例》全文中文翻譯（DPO沙龍出品）簡析歐盟《數字市場法》關于數據方面的規定數據流通障礙初探——以四個場景為例對“數據共享合法化”的分析與思考系列之一：以《關于歐洲企業間數據共享的研究》為起點對“數據共享合法化”的分析與思考系列之

數據所有權：問題盤點與總結（上）

2022-01-17 17:13:31

VSole

網絡安全專家