今天坊間流傳著有黑客在暗網(wǎng)上公開兜售「華住酒店開房數(shù)據(jù)」,從賣家發(fā)布內(nèi)容看,數(shù)據(jù)包含華住旗下的酒店,還包括與其進(jìn)行合作的雅高酒店旗下的酒店的用戶數(shù)據(jù)。黑客公開叫賣 8 個(gè)比特幣(約 5.6 萬(wàn)美金,近 38 萬(wàn)人民幣),截至目前,華住酒店公開回應(yīng)已經(jīng)報(bào)警。
華住酒店集團(tuán)(NASDAQ:HTHT)即原漢庭酒店集團(tuán),是國(guó)內(nèi)第一家全品牌的連鎖酒店管理集團(tuán)。
它創(chuàng)立于2005年,2010年3月在美國(guó)納斯達(dá)克上市,目前運(yùn)營(yíng)著3000多家酒店,覆蓋高中低端各級(jí)市場(chǎng)。
其中,面向高端市場(chǎng)的酒店品牌有美爵、VUE、禧玥;面向中端市場(chǎng)有全季、桔子水晶、桔子精選、宜必思尚品等;大眾市場(chǎng)則包括宜必思、漢庭優(yōu)佳、漢庭、海友等。
本次在暗網(wǎng)上售賣的數(shù)據(jù)包括三個(gè)部分:
華住酒店官網(wǎng)的注冊(cè)資料信息,包括:
姓名、手機(jī)、郵箱、身份證號(hào)、登錄密碼,共 53 G,約 1.2 億人身份信息;
華住系酒店入住時(shí),房客的身份登記信息,包括:
姓名、身份證號(hào)、家庭住址、生日、內(nèi)部 ID 號(hào),共 22.3 G,約 1.3 億人身份信息;
華住系酒店開房記錄信息,包括:
內(nèi)部 ID 號(hào)、同房間關(guān)聯(lián)號(hào)、姓名、付款卡號(hào)、手機(jī)號(hào)、入住時(shí)間、酒店 ID 號(hào)、房間號(hào)、消費(fèi)金額等,共 66.2 G,約 2.4 億條記錄;
雖然華住已經(jīng)宣稱報(bào)警,但暗網(wǎng)交易追溯、取證的難度都很大,而且數(shù)據(jù)應(yīng)該已經(jīng)流出,也不知道能夠進(jìn)行哪些補(bǔ)救。
侵占數(shù)據(jù):陽(yáng)光下的灰色地帶
其實(shí)這也不是第一次爆出如此大規(guī)模的公民信息泄露了。
早在今年七月,國(guó)內(nèi)曝出一件涉嫌數(shù)據(jù)泄露的要案,涉案公司多達(dá) 11 家,查獲公民信息數(shù)據(jù) 4000 GB、數(shù)百億條。其中,國(guó)內(nèi)知名大數(shù)據(jù)公司、新三板上市公司「數(shù)據(jù)堂」涉案。
此案涉及的數(shù)據(jù)隱私性高,案件涉及的上網(wǎng) URL 數(shù)據(jù),包含了手機(jī)號(hào)、上網(wǎng)基站代碼等 40 余項(xiàng)信息要素,記錄手機(jī)用戶具體的上網(wǎng)行為,甚至部分?jǐn)?shù)據(jù)能夠直接進(jìn)入公民個(gè)人賬號(hào)主頁(yè)。
然而更令人想不到的是,購(gòu)買這些數(shù)據(jù)的,不單單是我們認(rèn)為的詐騙組織、金融網(wǎng)貸等等。國(guó)內(nèi)外多家互聯(lián)網(wǎng)大企業(yè)包括 Google、華為在內(nèi),都是數(shù)據(jù)堂的重要收入客戶,也就是說(shuō)他們都掌握著公民們的各種私密數(shù)據(jù)。
對(duì)全球任何一家 AI 公司的研發(fā)工程師來(lái)說(shuō),能夠獲得大量真實(shí)數(shù)據(jù),對(duì)于研發(fā) AI 模型是非常有幫助的,如果數(shù)據(jù)的純度夠高的話,就更好了。
他們可以更方便的處理數(shù)據(jù),更高效地比較和評(píng)估模型,從而得出正確的解決方案,應(yīng)對(duì)現(xiàn)實(shí)生活中的問(wèn)題。
然而,受制于數(shù)據(jù)保密問(wèn)題,這些巨頭們能共享的數(shù)據(jù)相當(dāng)有限。所以向數(shù)據(jù)堂這樣的公司去買數(shù)據(jù),在行業(yè)內(nèi)其實(shí)是一件稀松平常的事情。
不僅是中國(guó),全球用戶都對(duì)數(shù)據(jù)的隱私性和保密度沒(méi)有特別清晰的認(rèn)識(shí),在使用各種互聯(lián)網(wǎng)產(chǎn)品時(shí),都不得不在「用戶使用協(xié)議」上選擇那個(gè)「是」。
大佬們買來(lái)數(shù)據(jù),然后呢?
大佬們花了重金買了數(shù)據(jù),當(dāng)然會(huì)讓這些數(shù)據(jù)高效利用起來(lái)。
他們一邊買進(jìn)數(shù)據(jù),一邊用自家產(chǎn)品收集數(shù)據(jù),還在研發(fā)更安全的加密方式,來(lái)保護(hù)自己的數(shù)據(jù)。
真是弱者恒弱,強(qiáng)者恒強(qiáng)
作為工程師,我們還是聊一聊目前普遍應(yīng)用的幾種數(shù)據(jù)加密方式,以及如何去理解他們的性質(zhì)原理。
先天不足的匿名化數(shù)據(jù)的保護(hù)機(jī)制
目前,比較常用的數(shù)據(jù)共享保密機(jī)制是通過(guò)匿名化數(shù)據(jù)集來(lái)實(shí)現(xiàn),但在大多數(shù)情況下,這仍算不上一個(gè)很好的解決方案。
數(shù)據(jù)匿名化可以通過(guò)掩蓋一些敏感數(shù)據(jù),在一定程度上起到保密作用,但它卻不能阻止數(shù)據(jù)專家的推理。在實(shí)際應(yīng)用過(guò)程中,通過(guò)相關(guān)信息的逆向推導(dǎo),完全可以推理出被掩蓋的敏感數(shù)據(jù)。
此前有一位德國(guó)研究員在德國(guó)漢堡舉行的第 33 屆混沌通信大會(huì)(Chaos Communication Congress)上發(fā)表過(guò)一篇名叫《Build your own NSA》的研究文,講的就是關(guān)于如何逆數(shù)據(jù)匿名化找到原信息。
該研究員通過(guò)一家虛擬公司,免費(fèi)獲得了一份約 300 萬(wàn)德國(guó)人一個(gè)月的 Web 點(diǎn)擊流信息。這些信息是匿名化處理過(guò)的,比如用一串隨機(jī)字符「4vdp0qoi2kjaqgb」來(lái)替代用戶的真實(shí)名稱。
而該研究員通過(guò)用戶的歷史瀏覽記錄等相關(guān)信息,成功推導(dǎo)出用戶在該網(wǎng)站上的真實(shí)名稱。可見,數(shù)據(jù)匿名化并不能將保密做的嚴(yán)絲合縫。
混沌通信大會(huì)是由歐洲最大的黑客聯(lián)盟組織——德國(guó)混沌電腦俱樂(lè)部(Chaos Computer Club)主辦。主要研討計(jì)算機(jī)和網(wǎng)絡(luò)安全問(wèn)題,旨在推進(jìn)計(jì)算機(jī)和網(wǎng)絡(luò)安全。
于是,同態(tài)加密法誕生
這是密碼學(xué)領(lǐng)域的突破性成就之一,解密方只能獲知最后的結(jié)果,而無(wú)法獲得每一個(gè)密文的具體信息。
同態(tài)加密可以有效提高信息的安全性,未來(lái)可能會(huì)成為 AI 領(lǐng)域的一項(xiàng)關(guān)鍵技術(shù),但現(xiàn)在來(lái)看,應(yīng)用場(chǎng)景有限。
同態(tài)加密簡(jiǎn)單來(lái)講,就是我的數(shù)據(jù)可以根據(jù)你的需要讓你使用,但你無(wú)法看見這些數(shù)據(jù)具體是什么。
這種加密方式雖然有效,但其計(jì)算成本太高
基本的同態(tài)加密技術(shù)可以將 1MB 的數(shù)據(jù)轉(zhuǎn)換為 16GB,這在 AI 場(chǎng)景中成本很高。而且,同態(tài)加密技術(shù)(就像大多數(shù)加密算法一樣)通常是不可微的,這對(duì)隨機(jī)梯度下降(SGD)等主流 AI 算法來(lái)講,有點(diǎn)不太適用。
目前來(lái)看,同態(tài)加密技術(shù)基本停留在概念層面,很難投入實(shí)際應(yīng)用,不過(guò)未來(lái)可期。
GAN 加密技術(shù)了解一下
Google 在 2016 年發(fā)表過(guò)一篇論文,叫《 Learning to Protect Communications with Adversarial Neural Cryptography 》,文中詳細(xì)介紹了一種基于 GAN 的加密技術(shù),能有效解決數(shù)據(jù)共享過(guò)程中的數(shù)據(jù)保護(hù)問(wèn)題。
這是一種基于神經(jīng)網(wǎng)絡(luò)的加密技術(shù),通常情況下,神經(jīng)網(wǎng)絡(luò)被認(rèn)為很難用于加密技術(shù),因?yàn)樗鼈冸y以執(zhí)行 XOR 操作。
但事實(shí)證明,神經(jīng)網(wǎng)絡(luò)可以從其他的神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)如何對(duì)數(shù)據(jù)進(jìn)行保密:他們能發(fā)現(xiàn)所有的加密和解密方法,卻不會(huì)為加密或解密生成算法。
GAN 加密技術(shù)如何保護(hù)數(shù)據(jù)
GAN 的加密技術(shù)涉及三個(gè)方面,我們可以用 Alice、Bob 和 Eve 來(lái)展示。通常,Alice 和 Bob 是安全通信的兩端,Eve 則監(jiān)聽他們的通信,試圖逆向找到原數(shù)據(jù)信息。
Alice 向 Bob 發(fā)送一條機(jī)密消息 P,由 Alice 輸入。當(dāng) Alice 處理這個(gè)輸入時(shí),它會(huì)產(chǎn)生一個(gè)輸出 C (「P」代表「明文」,「C」代表「密文」)。
Bob 和 Eve 都接收 C,并嘗試通過(guò) C 恢復(fù) P(我們分別用 PBob 和 PEve 來(lái)表示這些計(jì)算)。
與 Eve 相比,Bob 擁有一個(gè)優(yōu)勢(shì) : 他和 Alice 共享一個(gè)密鑰 K。
Eve 的目標(biāo)很簡(jiǎn)單 : 精確重構(gòu) P (換句話說(shuō),最小化 P 和 PEve 之間的誤差)。
Alice 和 Bob 則希望清晰地進(jìn)行通信(以最小化 P 和 PBob 之間的誤差),但同時(shí)也希望對(duì) Eve 隱藏他們的通信。
通過(guò) GAN 技術(shù),Alice 和 Bob 被共同訓(xùn)練,在學(xué)習(xí)規(guī)避 Eve 監(jiān)聽的同時(shí),成功實(shí)現(xiàn)信息的傳遞。整個(gè)過(guò)程沒(méi)有使用任何預(yù)先設(shè)定好的算法,在 GAN 的原則下,Alice 和 Bob 被訓(xùn)練去打敗最好的 Eve,而不是某個(gè)固定的 Eve。
如下圖所示,在大約 8000 個(gè)訓(xùn)練步驟中,Bob 和 Eve 都可以開始重構(gòu)原始消息。在大約 10000 個(gè)訓(xùn)練步驟中,Alice 和 Bob 網(wǎng)絡(luò)似乎發(fā)現(xiàn)了 Eve,并開始干擾 Eve,導(dǎo)致 Eve 的錯(cuò)誤率上升。也就是說(shuō),Bob 能夠從 Eve 的行為中學(xué)習(xí)并保護(hù)通信,在避免被攻擊的同時(shí)實(shí)現(xiàn)準(zhǔn)確的消息重構(gòu)。
回到 AI 應(yīng)用程序,GAN 加密技術(shù)可以用來(lái)在公司和神經(jīng)網(wǎng)絡(luò)之間交換信息,而不需要保持高度的隱私。對(duì)于 AI 應(yīng)用來(lái)說(shuō),是一個(gè)切實(shí)可行的數(shù)據(jù)保護(hù)方案。
因?yàn)?,該模型可以學(xué)會(huì)有選擇地保護(hù)信息,使數(shù)據(jù)集中的一些元素不被加密,但是可以防止任何形式的推斷找到這些敏感數(shù)據(jù),從而有效規(guī)避了數(shù)據(jù)匿名化的缺陷。
Google 團(tuán)隊(duì)在一個(gè)模型中調(diào)整了 GAN 加密體系結(jié)構(gòu),在這個(gè)模型中 Alice 和Bob 仍然共享一個(gè)密鑰,但是 Alice 在這里接收 A、B、C,并在密文之外生成 D-public。
Bob 和 Eve 都可以訪問(wèn) Alice 輸出的 D-public。Bob 使用它們生成改進(jìn)后的 D 估計(jì)值,讓 Eve 通過(guò)該近似值逆向恢復(fù) C。目的是證明逆向訓(xùn)練允許近似 D 而不暴露 C,并且該近似值可以與加密信息和密鑰結(jié)合,以便更好的混淆 Eve 的視線。
為了驗(yàn)證該系統(tǒng)可以正確的隱藏信息,研究人員創(chuàng)造了一個(gè)評(píng)估器叫「Blind Eve」。它知道 C,但不知道 D-public 和密鑰,而 Eve 知道這些信息。
如果Eve的重構(gòu)誤差等于 Blind Eve 的重構(gòu)誤差,這說(shuō)明 Eve 沒(méi)有成功提取到有效信息。經(jīng)過(guò)幾次訓(xùn)練,Eve 相對(duì)于 Blind Eve 不再具有優(yōu)勢(shì)。這表明 Eve 無(wú)法通過(guò)簡(jiǎn)單地了解到 C 值的分布,來(lái)重構(gòu)任何關(guān)于 C 的信息。
目前來(lái)看,在主流 AI 應(yīng)用中,GAN 密碼學(xué)算是一種相對(duì)新穎的技術(shù)。但從概念上講,GAN 加密技術(shù)可以讓公司與數(shù)據(jù)科學(xué)家共享數(shù)據(jù)集,而不必披露其中的敏感數(shù)據(jù)。
長(zhǎng)遠(yuǎn)看來(lái),想要獲得用戶信任和減少法務(wù)危機(jī),加密技術(shù)還是其次,最重要的還是互聯(lián)網(wǎng)廠商對(duì)于用戶隱私的尊重和合理使用。