引用格式:李思慧,戴明超,蔡伍洲. 基于差分隱私的數據脫敏技術研究[J].網絡安全與數據治理,2025,44(2):39-43.
引言
當前,人工智能、大模型、大數據技術飛速發展,數據是各項技術構建的關鍵基礎資源,全球數據產業正在呈爆發式增長。據國際數據公司(IDC)預測,2018~2025年,全球數據量將從33 ZB猛增至175 ZB,而根據工業和信息化部相關預測,2021~2025年,我國的大數據產業規模將從1.3萬億元突破至3萬億元,數據已然成為推動經濟社會發展最重要的基礎生產要素之一[1]。數據資源被充分利用的同時,數據安全問題也日益凸顯,數據被非法獲取事件頻頻發生,給企業和個人帶來了巨大損失。因此,在挖掘數據價值的同時,確保數據安全,已成為亟需解決的關鍵問題。
傳統的數據安全解決方案大多關注于數據的存儲和傳輸,在對數據進行挖掘利用時,仍然需要具有敏感信息的原始數據,數據非法竊取者可通過身份攻擊、屬性攻擊、存在性攻擊和概率知識攻擊等,推斷出個體敏感信息[2]。數據脫敏技術是通過對數據進行一定處理來保護隱私的技術,其目的是在保留輸入數據的統計特征以及可用性的同時,保護數據的隱私和安全[3]。差分隱私技術是數據脫敏技術的一種,該技術提供了一種隱私保護方法,旨在向原始數據注入噪聲或擾動,實現在保護個體數據隱私的同時,完成對數據的挖掘利用[4]。
差分隱私技術在國外研究較早,且技術日趨成熟。2006年,Dwork等人[5]首次提出了差分隱私保護方法,該方法通過向原始數據添加服從特定分布的噪聲,用以保護敏感數據,解決了傳統數據匿名脫敏技術無法抵抗背景知識攻擊的問題。2016年,Abadi等人[6]提出了具有差分隱私的深度學習算法,分析了差分隱私在深度學習框架內的隱私成本,在保護數據隱私的同時,訓練出有效的深度學習模型。2019年,Holohan等人[7]設計了IBM差分隱私庫,用于Python編程語言中研究、實驗和開發差分隱私應用程序。2023年,Holohan[8]又提出了差分隱私隨機數生成器和種子算法,實現了在差分算法和結果中進行測試和錯誤修復,為差分隱私算法選擇提供了有利幫助。
近年來,國內的差分隱私技術研究也取得了豐碩成果。2009年,袁進良[9]設計了統一的差分隱私聯邦學習平臺,擴展了傳統的隱私預算組合定理,實現了隨時間不斷更新的可用預算,解決了差分隱私的強隱私和聯邦系統的高吞吐難兼顧問題。2023年,張連福[10]提出了一種基于同態加密與差分隱私的隱私保護聯邦學習方案,利用多種防護措施實現了隱私防護范圍覆蓋聯邦學習全生命周期。同年,張旭[11]提出一種兼顧安全防御和隱私保護的分布式學習系統,該系統實現隱私保護的同時,提升了訓練模型的準確性。隨著差分隱私技術的不斷迭代發展,其在數據隱私保護領域得到越來越多的應用。
本文探討基于差分隱私的數據脫敏方法,對數據集進行清洗整理后,利用Laplace機制對敏感數據進行處理,利用神經網絡模型分別對未脫敏數據和脫敏后的數據進行訓練和預測,對比原始數據、差分隱私脫敏數據及其他脫敏技術數據生成模型的預測效果,為神經網絡預測模型的數據隱私保護問題提供解決方案。
本文詳細內容請下載:
http://www.rjjo.cn/resource/share/2000006341
作者信息:
李思慧1,戴明超1,蔡伍洲2
(1.武警吉林省總隊,吉林長春130000;
2.武警部隊作戰勤務局,北京100000)