數(shù)據(jù)安全貫穿數(shù)據(jù)全生命周期。狹義的數(shù)據(jù)安全是免受篡改和破壞。廣義的數(shù)據(jù)安全包括數(shù)據(jù)的可靠性、數(shù)據(jù)安全性、服務(wù)和內(nèi)容的安全性,在人工智能時(shí)代還會(huì)擴(kuò)展數(shù)據(jù)安全的內(nèi)涵,當(dāng)然也會(huì)放大數(shù)據(jù)安全的風(fēng)險(xiǎn)。
數(shù)據(jù)安全包括從數(shù)據(jù)采集、數(shù)據(jù)融合、服務(wù)生成到內(nèi)容應(yīng)用等環(huán)節(jié)的安全。首先是網(wǎng)絡(luò)基礎(chǔ)設(shè)施方面涉及數(shù)據(jù)的可靠性,包括傳輸鏈路可靠性、算力節(jié)點(diǎn)、數(shù)據(jù)中心、數(shù)據(jù)庫(kù)包括存儲(chǔ)設(shè)備可靠性。二是數(shù)據(jù)安全技術(shù),包括身份識(shí)別、數(shù)據(jù)屬性、數(shù)據(jù)流動(dòng)管理、數(shù)據(jù)加密水印等。三是數(shù)據(jù)服務(wù)與內(nèi)容安全技術(shù),包括數(shù)據(jù)所有權(quán)管理技術(shù)、數(shù)據(jù)交易技術(shù)管理、開(kāi)放共享管理、人工智能深度防偽、AI幻覺(jué)的控制、AI服務(wù)的數(shù)據(jù)內(nèi)容合規(guī)等。
數(shù)據(jù)中心的災(zāi)備需要重點(diǎn)考慮。我們國(guó)家對(duì)數(shù)據(jù)災(zāi)備建設(shè)有投資,但是災(zāi)備往往能力不足,現(xiàn)在就需要加強(qiáng)對(duì)數(shù)據(jù)的異地容災(zāi)備份。大家都希望容災(zāi)的時(shí)候數(shù)據(jù)不丟失或者說(shuō)丟失量很低,過(guò)去災(zāi)備的間隔是一天主備復(fù)制一次,在丟失的時(shí)候可能會(huì)丟一天的數(shù)據(jù),但現(xiàn)在可能要縮短到一小時(shí)復(fù)制一次,而且復(fù)制的鏈路可靠性要求很高、時(shí)延要求更低。災(zāi)備需要對(duì)數(shù)據(jù)定期復(fù)制。但是,數(shù)據(jù)復(fù)制間隔越密,它的效率就越低。從數(shù)據(jù)丟失開(kāi)始到真正切換還有故障識(shí)別、故障判斷的過(guò)程,這段時(shí)間可能會(huì)影響數(shù)據(jù),在恢復(fù)正常之后還要再切回去。利用分布的公有云做容災(zāi)備份是發(fā)展趨勢(shì)。
實(shí)際上,在數(shù)據(jù)中心內(nèi)部也仍存在安全問(wèn)題。數(shù)據(jù)中心內(nèi)部本身要做到無(wú)損,但往往有些時(shí)候單個(gè)算力節(jié)點(diǎn)能力不足,就導(dǎo)致需要?jiǎng)訂T多節(jié)點(diǎn)來(lái)協(xié)同,算力節(jié)點(diǎn)間需要大容量光傳輸鏈路,因此對(duì)光傳輸鏈路的時(shí)延、丟包會(huì)有嚴(yán)格的要求。
不同類型的數(shù)據(jù)對(duì)安全要求不同,我們需要識(shí)別數(shù)據(jù)是國(guó)家機(jī)密數(shù)據(jù)、企業(yè)秘密數(shù)據(jù)還是涉及大量用戶敏感信息數(shù)據(jù)。過(guò)去的互聯(lián)網(wǎng)沒(méi)有識(shí)別,不知道所承載的數(shù)據(jù)是什么,現(xiàn)在有了IPv6,可以對(duì)源地址和目的地地址驗(yàn)證,還可利用APN6(應(yīng)用感知)和iFIT(隨流檢測(cè))可以知道這個(gè)數(shù)據(jù)源端使用者的身份和對(duì)信道服務(wù)質(zhì)量的要求,還可實(shí)時(shí)獲得信道的時(shí)延、抖動(dòng)、丟包率等性能參數(shù)。這樣可以實(shí)現(xiàn)路徑溯源,從而支持?jǐn)?shù)據(jù)跨境流動(dòng)管理。
網(wǎng)絡(luò)安全是數(shù)據(jù)安全的基礎(chǔ),一般來(lái)說(shuō),通過(guò)加密可以保護(hù)數(shù)據(jù)。但是加密數(shù)據(jù)也可能被勒索病毒再次加密,需實(shí)時(shí)對(duì)軟件版本進(jìn)行核對(duì)與接入審計(jì)。盡管我們很重視網(wǎng)絡(luò)安全,但是也不能因?yàn)榘踩淮龠M(jìn)數(shù)據(jù)的流通、不促進(jìn)數(shù)據(jù)的應(yīng)用。企業(yè)雙方都想利用對(duì)方的數(shù)據(jù),但是都不愿意把自身的原始數(shù)據(jù)交給對(duì)方,如果交給第三方,也不一定相信第三方的公正和安全。
現(xiàn)在可以利用隱私計(jì)算和多方同態(tài)加密的技術(shù),選擇一個(gè)特定的密鑰,讓數(shù)據(jù)加密以后計(jì)算結(jié)果等效于沒(méi)有加密的計(jì)算,就能實(shí)現(xiàn)數(shù)據(jù)可用不可見(jiàn)。通過(guò)這種辦法可以實(shí)現(xiàn)數(shù)據(jù)的融合。現(xiàn)在還有一種技術(shù),把企業(yè)的數(shù)據(jù)打散了之后分布式進(jìn)行存儲(chǔ),然后加入密鑰的控制,可以按需根據(jù)對(duì)方企業(yè)的需要把數(shù)據(jù)調(diào)入沙箱,然后再進(jìn)行解密計(jì)算,這相對(duì)來(lái)講比同態(tài)加密要簡(jiǎn)單。
人工智能的出現(xiàn)讓數(shù)據(jù)可信性面臨挑戰(zhàn)。因?yàn)樯墒酱竽P褪腔诮y(tǒng)計(jì)和模式識(shí)別的,別看它有上下文的關(guān)聯(lián),但是并不等于全局性和對(duì)物理世界的透徹了解,而且有些場(chǎng)合的數(shù)據(jù)很少。訓(xùn)練數(shù)據(jù)少,訓(xùn)練的場(chǎng)景缺失,可能會(huì)出現(xiàn)低級(jí)錯(cuò)誤甚至常識(shí)性錯(cuò)誤。另外,數(shù)據(jù)可能是受到干擾的。在大模型訓(xùn)練的時(shí)候也會(huì)受到無(wú)意的或者惡意的誘導(dǎo),會(huì)使AI誤判。AI應(yīng)用會(huì)增加很多的挑戰(zhàn)。
為應(yīng)對(duì)這些挑戰(zhàn),要加強(qiáng)數(shù)據(jù)質(zhì)量控制,使用高質(zhì)量多樣化的數(shù)據(jù)訓(xùn)練。要對(duì)算法優(yōu)化和模型評(píng)估改進(jìn),定期審查和測(cè)試。需要開(kāi)展倫理審查,特別是對(duì)可能產(chǎn)生重大社會(huì)影響的應(yīng)用進(jìn)行事先審批,幫助用戶理解AI的運(yùn)作方式和潛在風(fēng)險(xiǎn)。還可利用區(qū)域截圖、放大縮小等預(yù)處理發(fā)現(xiàn)數(shù)據(jù)被篡改或AI被濫用,進(jìn)一步保障數(shù)據(jù)安全。