大數據是指大型復雜的結構化或非結構化數據集。大數據技術使組織能夠生成、收集、管理、分析和可視化大數據集,并為診斷、預測或其他決策任務提供見解。處理大數據的關鍵問題之一是采用適當的大數據治理框架,這樣可以:①以所需的方式管理大數據,以支持有效機器學習的高質量數據訪問;②確保該框架規范存儲和處理在相關監管框架內以可信賴的方式收集來自供應商和用戶的數據。提出了一個大數據治理框架,指導組織在相關的規則框架內做出更好的基于數據的業務決策,并密切關注數據安全性、隱私性和可訪問性。為了說明這一過程,以網絡安全大數據治理為例,給出了該框架的一個實現實例。該框架有可能指導不同組織的大數據管理,實現信息共享和協同決策。
互聯網絡和設備數量的增長導致了組織中數據的爆炸性增長。這些數據越來越多地被用來通過分析提供見解,從而為關鍵業務決策提供信息。商業和非商業組織正在進行的數字化促進了這一增長,物聯網(IoT)的日益廣泛使用也是如此。物聯網設備收集來自各個領域的信息,如健康、能源、天氣、商業、交通、教育和制造業,并打算對社會和環境產生積極的影響。大量的信息通常被稱為“大數據”,即收集、挖掘、分析和可視化,以發現行為趨勢和模式,為決策提供信息。
與大數據相關的常見挑戰是存儲和分析收集的數據集,及時提供見解,從而加快和改進決策過程,支持實現組織目標。作為一種常見的副作用,安全性和隱私性已經成為組織內部與數據存儲和使用相關的關鍵問題之一。這是由于道德背景、法律背景的變化、網絡犯罪的擴散、惡意內部人員的增加以及近年來導致大規模安全漏洞傳播的新攻擊技術。由于意外信息泄露和對電網、衛生、教育等各種自動化系統的有組織黑客攻擊,這種機器和互聯的增加將導致銀行、政府和其他私人及公共系統的網絡安全問題大幅增加。
當在利用大數據集進行決策的組織中不應用數據治理時,上述挑戰就變得至關重要。這些挑戰共同推動了開發大數據治理框架的需求,以指導大數據在當前決策中的使用,并確保大數據的質量和可用性可供未來使用。大數據治理涉及人員、政策、流程、戰略、標準和技術的協調,使組織能夠利用數據作為其關鍵業務資產之一,同時確保一致性、可用性、完整性、可靠性和安全性,以及大數據整個生命周期的可審計性。
本文提出了一個大數據治理的框架,以便對大數據進行適當的收集、管理、存儲、傳輸和利用。簡單地說,該框架以治理目標為指導,并使用 Evaluate Direct Monitor(EDM)循環模型作為治理原則來增強和支持數據體系結構。因此,該框架不僅可以指導組織做出更好的數據驅動決策,而且可以支持組織在大數據的指導下有效地實現其組織成果。該框架使組織能夠正確管理數據資產,并最大限度地實現大數據的價值,從而支持和鼓勵有關數據的良好實踐。
本文還提出了一個在網絡安全領域實施大數據治理框架的實例。采用大數據和相應技術的數據分析工具越來越多地被用于支持網絡安全。鑒于這類數據在網絡空間的廣泛可用性,開發和使用這類工具的機會很多。網絡安全涉及數據和網絡的方方面面,網絡入侵檢測是確保網絡安全的常用方法之一。因此,本文探討了如何將所提出的大數據治理框架集成到保護數據存儲、流和處理的網絡入侵檢測系統中。
論文的其余部分組織如下。“研究背景”部分簡要回顧了大數據、網絡安全和數據治理作為這項工作的基礎。“大數據治理”部分介紹并討論了提出的大數據治理框架。“網絡安全中的大數據治理”部分以網絡入侵檢測的一個特殊案例為例,介紹了所提出的網絡安全領域大數據治理框架的實現。“結語”部分總結了這項研究,并探討了未來可能的研究方向。
1 研究背景
該部分回顧了大數據的特點、現有的相關網絡安全方法、通用數據治理框架、原則,并為提出的大數據治理框架奠定了基礎。
1.1 大數據
大數據是一個與大數據集相關的術語,大數據集具有更大、更多樣和更復雜的結構,難以使用傳統的數據處理技術進行存儲、分析和可視化。大數據不僅是指數據量,還包括與大數據量的收集和利用相關的其他方面。大數據通常用3V來描述,如圖1所示。
圖片
圖1 大數據的3V:海量、多樣性和速度
(1)海量:大數據最明顯的特點是生成和存儲的數據量大,這通常被稱為數據的縱向可伸縮性。目前,估計全世界每天會產生25億字節的數據,這一數據量比2005年增加了300倍,通常遠遠超過傳統列和行合理數據庫的限制,因此需要新的存儲技術來適應大數據。
(2)多樣性:多樣性表示數據可以來自多個領域,有三種典型類型:結構化、半結構化和非結構化。這種多樣性增加了數據的橫向可伸縮性。與結構化數據相比,非結構化數據通常已經被標記,并且可以很容易地映射到預先設計的字段(例如電子表格或數據庫中的表),它顯得更隨機,更難排序和分析。非結構化數據的典型示例包括電子郵件、視頻、照片和音頻文件。半結構化數據集通常不駐留在關系數據庫或表中,但它們確實包含用于分隔數據元素的標記。JSON和XML文檔通常屬于這種數據類型。
(3)速度:表示數據生成和需要處理以滿足應用需求的速度。速度本質上是衡量數據創建、存儲、分析和可視化的速度。人們期望大數據技術能夠實時或近似實時地生成和處理數據,而傳統的數據處理方法只能使用數據快照批量處理數據。因此,大數據需要更強大的數據處理機制來實時處理數據流。
3V被廣泛用于描述大數據,即大數據集具有高容量、高變化、高速度的特點。此外,最近還提出了大數據的第四個V,即真實性。真實性是指數據的可信程度,表明數據在多大程度上可以被組織確信地用于做出關鍵決策。大數據仍然是一個快速發展的領域,涉及非常活躍的研究和越來越多的應用。因此,毫不奇怪,大數據的定義也在不斷演變。盡管如此,大多數定義都類似于“大數據代表的信息資產具有如此高的數量、速度、多樣性和真實性,需要特定的技術和分析方法才能將其轉化為價值”。在此基礎上,大數據的廣義定義被擴展到包括實現或提取大數據價值的大數據處理技術。
1.2 網絡安全
隨著互聯網的迅速發展,越來越多的設備被網絡化,形成物聯網。從本質上講,大量用于捕獲廣泛數據的設備利用各種網絡和云提供的無處不在的連接性在互聯網上共享數據。如果適當地加以利用,這種共享數據可能對組織很有價值。為了保護網絡空間中的數據共享,網絡安全已成為影響企業、政府、其他組織和個人家庭設備的最緊迫問題之一。
數據治理在這些解決方案中扮演著重要的角色,它不僅幫助組織了解需要保護哪些數據,而且引導組織實現目標,具體表現在以下兩個方面:
(1)識別數據風險:個人識別信息和個人健康信息構成敏感數據,可能給組織帶來聲譽和財務風險。數據治理工具支持識別敏感數據。
(2)控制更安全的訪問:數據用戶并不總是需要查看或訪問日常使用的敏感數據。重要的是要控制這些敏感數據只有在需要和必要時才能訪問。通過正確應用數據治理工具,可以有效控制權限數據訪問。
傳統上,數據驅動的網絡安全解決方案,如網絡入侵檢測系統(IDS)和安全信息與事件管理(SIEM),通過分析事務日志和網絡流量數據來識別異常和可疑活動,從而保護組織免受網絡威脅。然而,基于以下兩個原因,此類工具越來越難以處理與使用物聯網進行大數據收集相關的越來越大的流量數據集:
(1)傳統技術并不是用來處理和管理任何半結構化或非結構化數據的,但這在大數據中非常常見。將非結構化數據轉換為結構化表示是可能的,以滿足傳統工具的需求。但是,這是一個額外且耗時的過程,成本非常高昂。
(2)傳統技術在存儲、保留、檢索、訪問和處理大數據隱含的大量信息方面效率相對較低。這些工具沒有與大數據技術集成。
應用大數據技術可以很容易地解決傳統工具的問題。例如,大數據工具(如Piglatin腳本和正則表達式)可以以靈活的格式查詢數據,包括結構化數據和非結構化數據。此外,大數據及其分布式系統提供了高性能的計算模型,使得存儲和分析大型異構數據集的規模和速度前所未有。因此,與大數據相關的網絡安全問題可以通過以下方法解決:①收集大規模的流量數據;②對數據進行更深入的分析;③生成并提供網絡安全相關模型;④基于該模型實現大規模流媒體流量數據的實時數據分析。
1.3 數據治理
數字時代為公共和私營部門以及組織提供了前所未有的機會來收集、存儲、處理和交換大量數據;因此,它們在數據安全、數據結構管理、數據隱私保護和數據質量管理等方面面臨著越來越大的挑戰。數據治理是一個概念或框架,組織可以使用它來解決管理數字資產處理過程中的此類挑戰。
數據治理包括使組織能夠將數據作為數字資產加以利用的人員、流程、過程和技術。它提供了管理和維護數據質量、安全性、可用性、相關性和完整性的通用框架。它還確保真實的數據被適當地用于設定業務目標、維護業務流程和做出關鍵決策。數據治理通常需要一個連續的過程來強制清理和存儲由組織生成或來自第三方的大量數據。應用數據治理的動機是確保有一種可持續的方法利用數據來實現組織的業務目標和目的。信息技術(IT)和其他業務部門必須共同定義管理數據的規則和策略,并定義從獲取、管理和存儲到利用和可視化的數據元素。
數據治理策略確定了數據使用的角色和職責,建立了數據保護計劃的最佳實踐,并確保數據在組織內得到適當的記錄。與組織的任何其他資產一樣,數據需要一個適當的管理策略。數據治理定義了數據的訪問、數據的安全級別、數據的質量以及組織對數據使用的目標。數據治理策略可以由組織內的團隊或組織外的專家編寫。
數據治理策略是另一個關鍵因素,它定義了如何共享從數據中提取的信息,加強了使用數據的文化,并揭示了數據治理可能面臨的缺點和所需的預算。更具體地說,它闡明了誰對數據負責和知情,以及如何從數據中做出決策。它為整個組織遵循的數據管理過程提供了基礎。它也是克服數據治理限制的一個組成部分,有助于實現預期的業務目標和價值。
數據治理實踐通常由用于數據收集、管理、存儲和利用的框架指導。該框架旨在確保數據的機密性、可用性、可訪問性、質量和完整性。它必須支持組織內的數據流和業務流程以及組織的文化和結構。它有助于指導員工在數據管理中發揮作用。一個完善的數據治理框架通常包括數據管理策略、公司驅動因素、數據管理結構、技術和方法。
2 大數據治理
本部分討論數據治理挑戰,以及為應對這些挑戰而提出的大數據治理框架。
2.1 挑戰
傳統的數據治理框架在“數據治理”部分中通常只考慮數據結構、數據質量和元數據管理,而不是高容量、高變化、高速度的實時數據。在大數據環境中,組織內部或外部處理的大量數據需要對數據質量、安全性和道德規范進行額外的管理。此外,大數據和業務任務的結合可能會導致數據泄露的風險更加頻繁和更高。此外,大數據與業務任務的結合可能會導致數據泄露的頻率更高、風險級別更高。表 1 總結了現有數據治理框架在大數據方面面臨的主要挑戰。
大數據環境下的數據治理主要集中在以下三個方面:
(1)數據體系結構:大數據是從各種各樣的數據源中獲取的,這些數據源可以是結構化的、半結構化的或非結構化的。非結構化和半結構化數據通常是隨機的,難以處理。這種數據結構的多樣性增加了數據管理的難度。另外,不同的組織保持著各自的數據結構標準化,阻礙了不同組織之間跨系統的信息共享,從而大大降低了信息開發利用的效率。
(2)數據質量:數據質量可能是大數據管理的一個問題,因為大多數現有措施不能直接應用于大數據。例如,大數據的實時性要求組織提高數據訪問效率,從而減少數據傳輸的延遲。此外,有時可能需要組織將相同或具有沖突的數據存儲在不同的系統中,這往往會導致同步或沖突解決問題,從而相應地降低數據質量。
(3)數據安全、隱私和道德考慮:數據共享和分析過程可以有效地提高數據的價值,使組織具有更好的數據透明度,但同時也可能不適當地暴露敏感數據,或讓黑客進行未經授權的數據操縱。實際上,大數據安全和隱私是大數據時代數據治理面臨的最大挑戰之一。除此之外,隨著數據提供者的日益關注和數據捐贈的更廣泛參與,數據處理的道德方面已成為一個越來越重要的問題。
2.2 擬議的框架
在數據結構標準化、數據質量管理、數據安全和隱私方面存在的問題是設計和開發有效的大數據治理框架的主要挑戰。本文從大數據應用和創新的角度,通過考慮目標、數據保護賦能因素、治理領域和原則,提出了一個大數據治理框架,如圖2所示。該框架以治理目標為指導,根據組織的戰略數據相關目標,采用實體數據模型(EDM)循環模型作為治理原則,有效地增強數據架構、數據質量、數據安全和隱私。
圖2 大數據治理框架
2.2.1 目標
擬議的大數據治理框架允許組織保護大數據,同時從大數據中獲取最大價值,從而支持和鼓勵有關數據利用的良好做法。換言之,該框架的目標不僅是指導組織根據其關鍵績效指標圍繞數據使用做出更好的決策,而且還幫助組織有效地實現數據創新利用的成果,這往往導致組織的文化變革,以實現深層次的數據驅動過程。這些目標通常是組織戰略目標的核心,可以通過利用現代信息和通信技術開發大數據來實現。
2.2.2 促成因素
賦能者通過管理來定義程序、規則以及這些程序和規則的相關實施,共同建立基礎實踐標準,以限制風險并最大化大數據及其利用的價值。這些程序和規則涵蓋了數據處理的所有關鍵方面和領域,從數據收集到存儲和傳輸、利用和最終歸檔。例如,數據可能會泄漏或通過各種方式被非正式訪問和操縱,從意外丟失的設備或釋放的密碼到專門的有組織的網絡攻擊。在大數據環境中,數據源的多樣性和數據的存儲位置使得這種情況更具挑戰性。在這個例子中,需要根據此類潛在風險制定風險預防和緩解程序及規則,以盡量減少風險。
為了確保所定義的規則和程序適用于組織的數據處理實踐,通常由數據管理員在執行框架內進行管理。數據管理員是對數據處理有顧慮的其他人的組織代表。數據管理者可以是數據管理委員會或獨立個人的形式,具體取決于組織。管理委員會還與程序和規則制定者密切合作,就程序和規則的有效性和效率提供反饋和見解。這些輸入,除了來自數據提供者、保管者和操縱者的輸入,在對數據處理程序和規則進行定期審查和修訂時,都要加以考慮。
2.2.3 指導原則
大數據治理原則支持組織管理和處理大數據,為上一小節中討論的數據處理程序和規則中未提及的任何方面提供補充指導,這些程序和規則定義了數據處理關鍵方面的實用標準。這些程序和規則是強制性的,由管理工作組監督。本小節中討論的原則僅提出了良好做法,根據情況可能不會在實踐中采用。這項工作的指導原則集中在圖2所示的數據責任、完整性、可審計性和透明度上。為了使其有效,指導原則應保持簡單易懂。
組織應持續評估數據在一段時間內可能發生的任何更改,以確保數據完整性,這對于有效使用數據來說至關重要。數據完整性將通過確保數據在組織內得到明確定義、適當控制和適當訪問來實現。由于遵循了這些原則,數據可以更好地與組織策略以及跨業務需求保持一致。數據處理程序需要透明,以保護組織免受潛在的數據泄露事件的影響,同時允許戰略性地使用數據。透明度有助于揭示評估過程中如何處理敏感數據,以便內部或第三方審計師或任何其他數據利益相關者能夠理解與數據相關的程序。
此外,與數據相關的決策、流程和行動應是可審計的,這些決策、流程和行動應得到基于合規性和運營審計要求的適當文檔的支持。問責通常定義了數據的可訪問性和數據操作員的可信性。為了促進對數據的訪問控制,一個組織的所有部門需要合作來增強數據所有權和問責制。如果所有部門都對數據負責,那么在一個組織內,數據泄露就不那么令人擔心了。
2.2.4 治理域
治理域描述了組織在進行數據治理活動時應關注的數據治理目標,主要包括五個組成部分,如圖2所示。在這五個組成部分中,數據質量管理、數據安全和隱私貫穿于所有治理域,保證了大數據的有用性和有效性,以及大數據在使用過程中的適當保護和隱私保護。
(1)數據質量管理:大數據的使用會產生與動態數據和靜態數據相關的數據質量問題,因為通常不可避免地會生成和收集質量較差的數據,這可能會增加對組織運營和決策的負面影響。數據質量管理旨在測量、改進和認證生產、測試和存檔數據的質量和完整性。可以使用各種方法進行大數據質量管理,以解決沖突的數據實例、處理不平衡的大數據集以及消除噪聲等。
(2)數據安全、隱私和道德:在收集、傳輸、存儲和利用大數據時,數據安全、隱私和其他道德含義是首要考慮的問題。大數據通常從各種來源收集,并且通常包含敏感信息。例如,推斷出的行為數據,如工作地點、好友列表等,可能被歸類為私有數據;在一些更敏感的人口統計數據分析過程中,用戶名、電話號碼和信用卡信息是非常典型的。最近出臺的《歐盟通用數據保護條例》(GDPR)是近20年來數據隱私保護條例中最重要的變化,它為數據處理的組織提供了詳細的指導方針。在這個重要的領域中,所有的數據處理機制都是基于 GDPR和其他政策、程序、規則和原則來設計的,以減輕風險和保護數據資產。
(3)集成和元數據管理:這個域位于治理域的底部,可以被認為是一個數據登錄區,鏈接數據連接器和治理域。在這個域中,經常集成多種方法和工具來幫助理解數據上下文和內容。一旦確定了數據的上下文和內容,它們就被傳遞到上層進行存儲。因此,大數據治理使用集成和元數據管理來對數據的收集和控制施加管理規則。
(4)分布式數據存儲管理:在傳統方法中,高性能計算組件(如專用服務器)用于數據存儲和數據復制。由于大數據環境中通常會產生和收集大量的數據,這些高性能的專用服務器往往無法滿足大數據帶來的性能要求。因此,該域旨在提供允許通過通常分布式架構(例如動態可伸縮存儲管理DSSM)來存儲和傳輸大量數據的方法。
(5)分布式數據處理管理:隨著社交媒體和基于傳感器的網絡應用等新興應用的快速增長,需要對各種數據進行持續處理。顯然,傳統的獨立解決方案不再適用于這些有時間限制的實時流程。分布式數據處理管理域則為大數據處理提供了一個高效的框架,允許以合理且通常可接受的時間線分析大量數據。此類任務的典型平臺包括Spark、MapReduce和Hadoop等。
2.2.5 應對新挑戰
由于各種支持數字技術的格局發生了快速變化,大數據的定義也在不斷發展。越來越多的大數據模型被引入,例如數量、多樣性、速度、真實性、有效性、價值、可變性、地點、詞匯和模糊性。大數據的這些新挑戰通常要求提議的框架具有可擴展性以應對這些挑戰。一般來說,新的挑戰通常可以分為三個方面,即數據挑戰、流程挑戰和管理挑戰。尤其是數據挑戰與數據本身的特性有關;流程挑戰通常與一組大數據處理技術相關;管理挑戰涵蓋所有隱私和安全問題。這三個組件相互關聯,形成一個數據生命周期,如圖3所示。
圖3 面臨新挑戰
3 網絡安全中的大數據治理
大數據通常是通過不同的數據捕獲設備從多個來源收集,如物聯網和其他專業設備。其結果是圍繞數據安全和隱私的關鍵問題,因為此類設備的設計通常沒有充分考慮數據安全。因此,隨著大數據應用的日益廣泛,網絡安全已成為填補此類安全空白的一個越來越重要和不可忽視的研究領域。本節討論上一節介紹的大數據治理框架的實施,以支持在該領域安全和合乎道德地使用大數據。
網絡安全是指保護計算機和網絡基礎設施、運行在基礎設施上的操作系統、軟件程序以及通過基礎設施存儲或傳輸的所有數據免受數字攻擊和任何其他濫用的做法,如“網絡安全”一節所述。因此,網絡安全涉及數字信息處理的硬件和軟件系統的范圍非常廣泛,其中網絡安全是最常見的方面。此外,網絡入侵檢測是實現網絡安全最常用的手段。因此,在不失一般性的前提下,本文以網絡安全為例,討論了所提出的大數據治理框架的實現,如圖4所示。
圖4 網絡安全大數據治理框架
3.1 規劃
網絡安全數據治理框架的實施需要仔細規劃,以滿足組織中與數據相關的戰略目標。在這種情況下,系統需要通過實施大數據網絡安全項目來實現,以實現項目和治理目標,這是通過評估系統的當前環境和組織的關鍵績效指標來確定的。如前所述,本文使用入侵檢測系統作為運行實例來討論所提出的方法。基于這個確定的目標,可以確定數據治理過程中可能存在的數據風險;因此,可以制定相應的程序、規則和原則,例如數據存儲程序、數據使用原則、健康和安全規則等,以應對已識別的風險。同時,還確定和制定了實施網絡安全項目的策略、工具和機制。
所有的程序、規則和原則都應該在這個階段執行。對于提議的框架,來自所有部門的代表將建立一個數據治理委員會,負責程序、規則和原則的制定以及監控。本小節以數據訪問規則為例。數據訪問規則定義了授予內部和外部用戶訪問權限的標準和機制。數據治理委員會有責任根據不同用戶的需求創建和授予數據的各種訪問級別。數據委員會團隊還必須與業務合作伙伴和數據提供商合作,以確保相關數據的處理符合合作伙伴預定義的規則和規定。一旦制定了規則和原則,組織內的每一位工作人員都必須了解數據的價值,并遵守有關適當使用數據的條例。
3.2 治理實施
數據治理框架的實現與網絡入侵檢測本身的實現同時進行。以下各小節將共同討論這些問題。
(1)數據收集:數據收集是實現網絡入侵檢測目標的第一步。采集數據的質量直接影響整個系統的性能。網絡入侵檢測可以采集的數據主要有三種:①網絡數據包,可以通過應用網絡數據包捕獲工具以完整數據包捕獲(FPC)、數據包捕獲(PCAP)格式收集,如 Wireshark、TCPdump、TShark;②網絡設備的日志,如防火墻日志、VPN 日志、服務器日志等;③事件警報信息,是防火墻和防病毒系統生成的數據,用于在檢測到潛在威脅時向網絡管理員發出警報。
(2)元數據管理:一旦離線或及時收集了原始數據,它將被傳遞到元數據管理塊進行預處理、解釋和標記。這通常需要巨大的存儲空間。例如,使用PCAP格式捕獲1GB數據流24小時需要10TB的存儲空間。這相當于900TB的存儲空間,用于90天的數據收集。事實上,對網絡安全分析最感興趣和最有用的信息是在包協議頭中分配的,它只占PCAP包總大小的4%。與PCAP相比,日志通常需要較少的存儲空間,但它需要結構化以進行數據分析。因此,元數據管理需要集成現有的技術,如數據清理和特征提取工具,提取捕獲數據的上下文和內容含義,以便進行進一步的數據分析。為了處理大數據,需要分布式數據存儲和處理。
(3)分布式數據存儲和處理:Hadoop是一個軟件框架,通過分布式數據存儲和處理來最小化大數據處理時間。Hadoop 提供了兩個主要組件:Hadoop分布式文件系統(HDFS)和MapReduce。這些組件的工作機制如圖5所示。特別是,Hadoop將數據拆分并分發到所有節點,使用MapReduce算法運行應用程序,其中數據是并行處理的,從而能夠處理傳統上不可能處理的海量數據。通過應用Hadoop,可以有效地提取采集到的原始數據。重新組裝的數據集再次保存在Hadoop HDFS中,以供分布式數據利用。
圖5 Hadoop框架
(4)數據質量管理:應用數據質量管理,確保大數據具有適當的價值。例如,來自不同資源的數據可能相互沖突,因此,在將數據用于決策之前解決沖突非常重要。文獻中提供了各種數據管理方法。本文采用實用的數據采集框架,從表示線程、確定線程權重、分配數據源、過濾不必要的數據四個步驟對大數據的質量和價值進行監控。
(5)數據安全和隱私:本案例中的所有數據,包括原始數據和結構化數據,都需要得到適當的保護,以防止任何數據泄露。由于本研究中數據捕獲的主要設備是網絡本身,因此在訪問級別控制的支持下,捕獲的數據可以保存在單獨的安全內網中。由于個人和組織敏感數據的存在,網絡數據也可能暗示隱私問題。例如,IP地址可用于識別個人用戶或組織,這些用戶或組織可以共同提供有關敏感用戶消費習慣和組織商業信息的見解。因此,除了基于GDPR的數據保護的任何其他方面,還必須應用隱私保護機制。
3.3 評價與優化
采集的數據經過預處理后,可以輸入人工智能或機器學習方法進行入侵檢測。為了減少噪聲和提高精度,可以首先應用特征選擇方法,例如報告中的工作,具體取決于數據集的性質。已經提出了大量的機器學習方法用于網絡入侵檢測,例如,其中一種方法可以應用于給定的問題。大數據的速度和容量往往導致數據集的不平衡性、稀疏性和演化性。可以應用各種自適應方法(例如自適應模糊插值)來處理這種情況。由此,可以對結果進行評估,并在需要時對方法本身進行優化,從而最大限度地實現目標。
4 結 語
本文提出了一個大數據治理框架,以支持組織適當地操作結構化和非結構化大數據,從大數據中獲取最大價值,并支持和鼓勵有關大數據的良好實踐。該框架旨在支持組織做出更好的業務決策,同時幫助組織有效地實現數據安全性和可用性。結合一個網絡安全案例,給出了該框架的實現。本案例研究說明了在實施網絡安全時如何保護數據。
雖然前景看好,但這項工作還可以在多個方面加以改進。首先,通過在現實網絡環境中的實現,對所提出的框架進行有效的驗證和評估是有價值的。此外,擬議的工作只是基于一個特定的案例,因此,將這項工作擴展到其他基于大數據的網絡安全案例將是非常有吸引力的。此外,系統地將所提出的框架與傳統數據集的現有數據治理框架進行比較也很有趣。最后,值得考慮的是如何將傳統的模型治理方法(例如報告中的方法)擴展到支持基于大數據的模型。