引用格式:權曉文,汪連連,韓衛東,等. 兩階段物聯網資產識別模型的研究[J].網絡安全與數據治理,2025,44(4):10-18.
引言
物聯網(IoT)作為信息科技產業的第三次革命,正迅速擴展,尤其在工業物聯網、車聯網、衛星互聯網等領域[1]。然而,伴隨物聯網設備的激增,傳統的設備資產管理方式不僅需要大量人力物力,還對管理員的專業能力提出了更高要求。物聯網設備通過多種無線方式接入網絡,使用多種協議,其中許多為專有或非標準協議,如何快速、準確地識別和管理這些設備成為亟待解決的難題。
傳統的主被動資產摸底檢測方式容易將物聯網設備誤分類,忽略其獨特屬性。同時,物聯網設備的安全問題不容忽視,受攻擊的設備不僅會喪失功能,還可能被利用作為跳板威脅整個網絡的安全[2]。因此,有效識別物聯網設備顯得尤為緊迫。
物聯網資產識別技術在物聯網系統中具有重要作用[3]:它幫助管理員建立全面的設備清單,支持漏洞管理、補丁分發和訪問控制;能夠發現未授權或異常設備,有效降低安全風險;同時,精準識別和跟蹤設備活動是滿足隱私保護法規的前提。
近年來,物聯網設備識別和異常檢測工作成為研究熱點,主要針對以下幾個方面:
(1)針對物聯網特征提取問題,文獻[4]提出了一種稱為DPFEN的獨特雙相特征提取技術,用于對IoT設備上的網絡攻擊進行分類,但所提出的方法在數據集的選擇和應用范圍上存在一定的局限性,會影響其在實際IoT環境中的有效性和可靠性。文獻[5]使用云計算的多特征提取極限學習機(MFEELM)算法,檢測和發現對云節點的網絡入侵。但MFE-ELM算法只在特定的云環境上進行訓練和測試,無法很好地泛化到其他不同的網絡環境和攻擊類型。
(2)針對樣本不均衡問題,文獻[6]根據語義邊界檢測任務的特點,提出了一種損失函數來解決樣本不平衡的問題,可以以不同的方式處理樣本,讓網絡更加關注難以分類的樣本。文獻[7]提出了樣本平衡策略模塊來優化訓練樣本之間的不平衡,尤其是正和負、簡單和困難樣本之間的不平衡。但這兩種方法,在處理極端不平衡的數據集時,會限制模型的泛化能力,導致預測精度較低。
(3)針對物聯網資產識別問題,文獻[8]提出一種基于流量特征的兩層物聯網設備類型定義和識別方法,可以訓練物聯網設備類型并識別每種類型下的設備。文獻[9]提出一種基于網絡流量的物聯網設備識別方法,此方法通過提取協議統計特征和流級統計特征,有效降低了特征提取的成本。IoT設備類型眾多,特征構造復雜,但當新的設備類型被引入網絡或現有設備的行為因制造商的合法固件升級而發生變化時,文獻[8]需要為每種設備類型定制特征模型,而文獻[9]則必須針對所有類別重新訓練所有型號。上述兩種方法均表現了其在實現上具有較高的算法復雜度。
上述方法雖然能夠識別出網絡中的物聯網設備,但依舊存在局限性:(1)隨著物聯網設備種類和特征的增加,模型計算復雜度和資源需求顯著提高;(2)設備加密通信的普及,流量內容特征無法直接獲取;(3)設備流量分布不均,某些設備流量稀少,導致訓練數據不平衡,影響模型性能,可能導致過擬合。
為解決上述問題,本文提出了兩階段物聯網資產識別技術。第一階段,采用異構協議融合的流量特征選擇算法,從網絡流量中提取關鍵特征,有效應對多樣化協議環境和加密流量特征提取困難問題。同時,利用輕量化SqueezeNet模型過濾非物聯網設備,減少不必要的計算資源消耗。第二階段,引入GAN模型生成稀缺類別樣本,平衡數據分布,提升模型的泛化能力。在此基礎上,結合XLNet-Attention模型進一步對物聯網資產類型進行識別。該方法有效應對了計算復雜度、加密流量分析和數據不均衡問題,為物聯網資產管理和安全防護提供了可行技術路徑。
本文詳細內容請下載:
http://www.rjjo.cn/resource/share/2000006407
作者信息:
權曉文1,2,汪連連2,韓衛東2,任高峰2,楊家海1
(1.清華大學網絡科學與網絡空間研究院,北京100084;
2.遠江盛邦(北京)網絡安全科技股份有限公司,北京100085)