今天坊間流傳著有黑客在暗網(wǎng)上公開兜售「華住酒店開房數(shù)據(jù)」,從賣家發(fā)布內(nèi)容看,數(shù)據(jù)包含華住旗下的酒店,還包括與其進行合作的雅高酒店旗下的酒店的用戶數(shù)據(jù)。黑客公開叫賣 8 個比特幣(約 5.6 萬美金,近 38 萬人民幣),截至目前,華住酒店公開回應(yīng)已經(jīng)報警。
華住酒店集團(NASDAQ:HTHT)即原漢庭酒店集團,是國內(nèi)第一家全品牌的連鎖酒店管理集團。
它創(chuàng)立于2005年,2010年3月在美國納斯達(dá)克上市,目前運營著3000多家酒店,覆蓋高中低端各級市場。
其中,面向高端市場的酒店品牌有美爵、VUE、禧玥;面向中端市場有全季、桔子水晶、桔子精選、宜必思尚品等;大眾市場則包括宜必思、漢庭優(yōu)佳、漢庭、海友等。
本次在暗網(wǎng)上售賣的數(shù)據(jù)包括三個部分:
華住酒店官網(wǎng)的注冊資料信息,包括:
姓名、手機、郵箱、身份證號、登錄密碼,共 53 G,約 1.2 億人身份信息;
華住系酒店入住時,房客的身份登記信息,包括:
姓名、身份證號、家庭住址、生日、內(nèi)部 ID 號,共 22.3 G,約 1.3 億人身份信息;
華住系酒店開房記錄信息,包括:
內(nèi)部 ID 號、同房間關(guān)聯(lián)號、姓名、付款卡號、手機號、入住時間、酒店 ID 號、房間號、消費金額等,共 66.2 G,約 2.4 億條記錄;
雖然華住已經(jīng)宣稱報警,但暗網(wǎng)交易追溯、取證的難度都很大,而且數(shù)據(jù)應(yīng)該已經(jīng)流出,也不知道能夠進行哪些補救。
侵占數(shù)據(jù):陽光下的灰色地帶
其實這也不是第一次爆出如此大規(guī)模的公民信息泄露了。
早在今年七月,國內(nèi)曝出一件涉嫌數(shù)據(jù)泄露的要案,涉案公司多達(dá) 11 家,查獲公民信息數(shù)據(jù) 4000 GB、數(shù)百億條。其中,國內(nèi)知名大數(shù)據(jù)公司、新三板上市公司「數(shù)據(jù)堂」涉案。
此案涉及的數(shù)據(jù)隱私性高,案件涉及的上網(wǎng) URL 數(shù)據(jù),包含了手機號、上網(wǎng)基站代碼等 40 余項信息要素,記錄手機用戶具體的上網(wǎng)行為,甚至部分?jǐn)?shù)據(jù)能夠直接進入公民個人賬號主頁。
然而更令人想不到的是,購買這些數(shù)據(jù)的,不單單是我們認(rèn)為的詐騙組織、金融網(wǎng)貸等等。國內(nèi)外多家互聯(lián)網(wǎng)大企業(yè)包括 Google、華為在內(nèi),都是數(shù)據(jù)堂的重要收入客戶,也就是說他們都掌握著公民們的各種私密數(shù)據(jù)。
對全球任何一家 AI 公司的研發(fā)工程師來說,能夠獲得大量真實數(shù)據(jù),對于研發(fā) AI 模型是非常有幫助的,如果數(shù)據(jù)的純度夠高的話,就更好了。
他們可以更方便的處理數(shù)據(jù),更高效地比較和評估模型,從而得出正確的解決方案,應(yīng)對現(xiàn)實生活中的問題。
然而,受制于數(shù)據(jù)保密問題,這些巨頭們能共享的數(shù)據(jù)相當(dāng)有限。所以向數(shù)據(jù)堂這樣的公司去買數(shù)據(jù),在行業(yè)內(nèi)其實是一件稀松平常的事情。
不僅是中國,全球用戶都對數(shù)據(jù)的隱私性和保密度沒有特別清晰的認(rèn)識,在使用各種互聯(lián)網(wǎng)產(chǎn)品時,都不得不在「用戶使用協(xié)議」上選擇那個「是」。
大佬們買來數(shù)據(jù),然后呢?
大佬們花了重金買了數(shù)據(jù),當(dāng)然會讓這些數(shù)據(jù)高效利用起來。
他們一邊買進數(shù)據(jù),一邊用自家產(chǎn)品收集數(shù)據(jù),還在研發(fā)更安全的加密方式,來保護自己的數(shù)據(jù)。
真是弱者恒弱,強者恒強
作為工程師,我們還是聊一聊目前普遍應(yīng)用的幾種數(shù)據(jù)加密方式,以及如何去理解他們的性質(zhì)原理。
先天不足的匿名化數(shù)據(jù)的保護機制
目前,比較常用的數(shù)據(jù)共享保密機制是通過匿名化數(shù)據(jù)集來實現(xiàn),但在大多數(shù)情況下,這仍算不上一個很好的解決方案。
數(shù)據(jù)匿名化可以通過掩蓋一些敏感數(shù)據(jù),在一定程度上起到保密作用,但它卻不能阻止數(shù)據(jù)專家的推理。在實際應(yīng)用過程中,通過相關(guān)信息的逆向推導(dǎo),完全可以推理出被掩蓋的敏感數(shù)據(jù)。
此前有一位德國研究員在德國漢堡舉行的第 33 屆混沌通信大會(Chaos Communication Congress)上發(fā)表過一篇名叫《Build your own NSA》的研究文,講的就是關(guān)于如何逆數(shù)據(jù)匿名化找到原信息。
該研究員通過一家虛擬公司,免費獲得了一份約 300 萬德國人一個月的 Web 點擊流信息。這些信息是匿名化處理過的,比如用一串隨機字符「4vdp0qoi2kjaqgb」來替代用戶的真實名稱。
而該研究員通過用戶的歷史瀏覽記錄等相關(guān)信息,成功推導(dǎo)出用戶在該網(wǎng)站上的真實名稱??梢?,數(shù)據(jù)匿名化并不能將保密做的嚴(yán)絲合縫。
混沌通信大會是由歐洲最大的黑客聯(lián)盟組織——德國混沌電腦俱樂部(Chaos Computer Club)主辦。主要研討計算機和網(wǎng)絡(luò)安全問題,旨在推進計算機和網(wǎng)絡(luò)安全。
于是,同態(tài)加密法誕生
這是密碼學(xué)領(lǐng)域的突破性成就之一,解密方只能獲知最后的結(jié)果,而無法獲得每一個密文的具體信息。
同態(tài)加密可以有效提高信息的安全性,未來可能會成為 AI 領(lǐng)域的一項關(guān)鍵技術(shù),但現(xiàn)在來看,應(yīng)用場景有限。
同態(tài)加密簡單來講,就是我的數(shù)據(jù)可以根據(jù)你的需要讓你使用,但你無法看見這些數(shù)據(jù)具體是什么。
這種加密方式雖然有效,但其計算成本太高
基本的同態(tài)加密技術(shù)可以將 1MB 的數(shù)據(jù)轉(zhuǎn)換為 16GB,這在 AI 場景中成本很高。而且,同態(tài)加密技術(shù)(就像大多數(shù)加密算法一樣)通常是不可微的,這對隨機梯度下降(SGD)等主流 AI 算法來講,有點不太適用。
目前來看,同態(tài)加密技術(shù)基本停留在概念層面,很難投入實際應(yīng)用,不過未來可期。
GAN 加密技術(shù)了解一下
Google 在 2016 年發(fā)表過一篇論文,叫《 Learning to Protect Communications with Adversarial Neural Cryptography 》,文中詳細(xì)介紹了一種基于 GAN 的加密技術(shù),能有效解決數(shù)據(jù)共享過程中的數(shù)據(jù)保護問題。
這是一種基于神經(jīng)網(wǎng)絡(luò)的加密技術(shù),通常情況下,神經(jīng)網(wǎng)絡(luò)被認(rèn)為很難用于加密技術(shù),因為它們難以執(zhí)行 XOR 操作。
但事實證明,神經(jīng)網(wǎng)絡(luò)可以從其他的神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)如何對數(shù)據(jù)進行保密:他們能發(fā)現(xiàn)所有的加密和解密方法,卻不會為加密或解密生成算法。
GAN 加密技術(shù)如何保護數(shù)據(jù)
GAN 的加密技術(shù)涉及三個方面,我們可以用 Alice、Bob 和 Eve 來展示。通常,Alice 和 Bob 是安全通信的兩端,Eve 則監(jiān)聽他們的通信,試圖逆向找到原數(shù)據(jù)信息。
Alice 向 Bob 發(fā)送一條機密消息 P,由 Alice 輸入。當(dāng) Alice 處理這個輸入時,它會產(chǎn)生一個輸出 C (「P」代表「明文」,「C」代表「密文」)。
Bob 和 Eve 都接收 C,并嘗試通過 C 恢復(fù) P(我們分別用 PBob 和 PEve 來表示這些計算)。
與 Eve 相比,Bob 擁有一個優(yōu)勢 : 他和 Alice 共享一個密鑰 K。
Eve 的目標(biāo)很簡單 : 精確重構(gòu) P (換句話說,最小化 P 和 PEve 之間的誤差)。
Alice 和 Bob 則希望清晰地進行通信(以最小化 P 和 PBob 之間的誤差),但同時也希望對 Eve 隱藏他們的通信。
通過 GAN 技術(shù),Alice 和 Bob 被共同訓(xùn)練,在學(xué)習(xí)規(guī)避 Eve 監(jiān)聽的同時,成功實現(xiàn)信息的傳遞。整個過程沒有使用任何預(yù)先設(shè)定好的算法,在 GAN 的原則下,Alice 和 Bob 被訓(xùn)練去打敗最好的 Eve,而不是某個固定的 Eve。
如下圖所示,在大約 8000 個訓(xùn)練步驟中,Bob 和 Eve 都可以開始重構(gòu)原始消息。在大約 10000 個訓(xùn)練步驟中,Alice 和 Bob 網(wǎng)絡(luò)似乎發(fā)現(xiàn)了 Eve,并開始干擾 Eve,導(dǎo)致 Eve 的錯誤率上升。也就是說,Bob 能夠從 Eve 的行為中學(xué)習(xí)并保護通信,在避免被攻擊的同時實現(xiàn)準(zhǔn)確的消息重構(gòu)。
回到 AI 應(yīng)用程序,GAN 加密技術(shù)可以用來在公司和神經(jīng)網(wǎng)絡(luò)之間交換信息,而不需要保持高度的隱私。對于 AI 應(yīng)用來說,是一個切實可行的數(shù)據(jù)保護方案。
因為,該模型可以學(xué)會有選擇地保護信息,使數(shù)據(jù)集中的一些元素不被加密,但是可以防止任何形式的推斷找到這些敏感數(shù)據(jù),從而有效規(guī)避了數(shù)據(jù)匿名化的缺陷。
Google 團隊在一個模型中調(diào)整了 GAN 加密體系結(jié)構(gòu),在這個模型中 Alice 和Bob 仍然共享一個密鑰,但是 Alice 在這里接收 A、B、C,并在密文之外生成 D-public。
Bob 和 Eve 都可以訪問 Alice 輸出的 D-public。Bob 使用它們生成改進后的 D 估計值,讓 Eve 通過該近似值逆向恢復(fù) C。目的是證明逆向訓(xùn)練允許近似 D 而不暴露 C,并且該近似值可以與加密信息和密鑰結(jié)合,以便更好的混淆 Eve 的視線。
為了驗證該系統(tǒng)可以正確的隱藏信息,研究人員創(chuàng)造了一個評估器叫「Blind Eve」。它知道 C,但不知道 D-public 和密鑰,而 Eve 知道這些信息。
如果Eve的重構(gòu)誤差等于 Blind Eve 的重構(gòu)誤差,這說明 Eve 沒有成功提取到有效信息。經(jīng)過幾次訓(xùn)練,Eve 相對于 Blind Eve 不再具有優(yōu)勢。這表明 Eve 無法通過簡單地了解到 C 值的分布,來重構(gòu)任何關(guān)于 C 的信息。
目前來看,在主流 AI 應(yīng)用中,GAN 密碼學(xué)算是一種相對新穎的技術(shù)。但從概念上講,GAN 加密技術(shù)可以讓公司與數(shù)據(jù)科學(xué)家共享數(shù)據(jù)集,而不必披露其中的敏感數(shù)據(jù)。
長遠(yuǎn)看來,想要獲得用戶信任和減少法務(wù)危機,加密技術(shù)還是其次,最重要的還是互聯(lián)網(wǎng)廠商對于用戶隱私的尊重和合理使用。