《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于Boosting集成學習的風險URL檢測研究
基于Boosting集成學習的風險URL檢測研究
網絡安全與數據治理
馮美琪1,2,李赟1,2,蔣冰1,2,王立松1,2,劉春波3,陳偉1,2
1.中國民航信息網絡股份有限公司運行中心; 2.中國民航信息網絡股份有限公司IT基礎設施國產化適配工程技術研究中心; 3.中國民航大學信息安全測評中心
摘要: 隨著互聯網的不斷發展,網站數量不斷增長,URL作為訪問網站的唯一入口,成為Web攻擊的重點對象。傳統的URL檢測方式主要是針對惡意URL,主要方法是基于特征值和黑白名單,容易產生漏報,且對于復雜URL的檢測能力不足。為解決上述問題,基于集成學習中的Boosting思想,提出一種針對業務訪問的風險URL檢測的混合模型。該模型前期將URL作為字符串,使用自然語言處理技術對其進行分詞及向量化,然后采用分步建模法的思想,首先利用GBDT算法構建二分類模型,判斷URL是否存在風險,接著將風險URL原始字符串輸入到多分類模型中,利用XGBoost算法對其進行多分類判定,明確風險URL的具體風險類型,為安全分析人員提供參考。在模型構建過程中不斷進行參數調優,并采用AUC值和F1值分別對二分類模型和多分類模型進行評估,評估結果顯示二分類模型的AUC值為98.91%,多分類模型的F1值為0.993,效果較好。將其應用到實際環境中,與現有檢測手段進行對比,發現模型的檢出率高于現有WAF和APT安全設備,其檢測結果彌補了現有檢測手段的漏報。
中圖分類號:TP393文獻標識碼:ADOI:10.19358/j.issn.2097-1788.2024.07.006
引用格式:馮美琪,李赟,蔣冰,等.基于Boosting集成學習的風險URL檢測研究[J].網絡安全與數據治理,2024,43(7):32-40.
Research on risk URL detection based on Boosting ensemble learning
Li Yun 1,2,Jiang Bing 1,2,Wang Lisong 1,2,Liu Chunbo3,Chen Wei1,2
1. Operation Center,TravelSky Technology Limited; 2. IT Infrastructure Localization Adaptation Engineering Technology Research Center,TravelSky Technology Limited 3. Information Security Evaluation Center, Civil Aviation University of China
Abstract: With the continuous development of the Internet and the growing number of websites, URL, as the only access to websites, has become the focus of web attacks. The traditional URL detection method mainly targets malicious URLs, based on feature values and black-and-white lists, but it is prone to false positives and lacks detection capability for complex URLs. To resolve the appeal issue, a hybrid model for risk URL detection in business access is proposed based on the Boosting concept in ensemble learning. In the early stage of this model, the URL is treated as a string, and natural language processing techniques are used to segment and vectorize it. Then, a two-step approach is adopted. Firstly, the GBDT algorithm is used to construct a binary classification model to determine whether the URL is at risk. Then, the original string of the risk URL is input into a multi classification model, and the XGBoost algorithm is used to perform multi classification judgment on it, clarifying the specific risk types of the risk URL and providing reference for security analysts. During the model construction process, parameter optimization was continuously carried out, and the AUC value and F1 value were used to evaluate the binary classification model and the multi classification model, respectively. The evaluation results showed that the AUC value of the binary classification model was 98.91%, and the F1 value of the multi classification model was 0.993, indicating good performance. Applying it to practical environments and comparing it with existing detection methods, it was found that the detection rate of the model is higher than that of existing WAF and APT detection devices, and its detection results make up for the missed reports of existing detection methods.
Key words : web attacks; ensemble learning; regularization; stepwise modeling method

引言

隨著互聯網的快速發展,在線購物、出行服務、系統工具和生活服務等都為人們帶來了極大的便利。根據CNNIC數據,截至2023年12月,中國網民數達10.92億,互聯網滲透率達77.5%。同時,Log4j等重大漏洞的出現也印證了Web應用程序所帶來的嚴重危害。而URL作為訪問網站的唯一入口,其也成為了Web攻擊的重點對象,如何從海量業務訪問中檢測出風險URL也成為了重點研究方向。針對URL的檢測,目前的研究方向主要集中在惡意URL,是指通過作為釣魚網頁的載體、XSS攻擊等多種方式竊取用戶的隱私和財產,造成嚴重的網絡安全威脅的URL[1],檢測方法主要包括特征值檢測、黑白名單過濾等,其不足之處在于,當特征值或URL不在預設的名單中,則會產生漏報,同時此類方法無法實時對新的URL進行檢測。啟發式技術的提出解決了對新的URL檢測的不足,但此類方法僅能用于有效數量的常見威脅[1]。然而,隨著URL攻擊的復雜度以及攻擊能力的不斷增強,傳統的檢測方法已無法滿足防護需求,且其覆蓋范圍較窄,無法識別海量業務訪問中存在風險的URL,需要探索新的應用場景和檢測方法。在20世紀80年代,隨著人工神經網絡的成功,機器學習越來越受到重視,由于其使計算機能夠學習、適應、推測模式,在沒有明確編程指令的情況下相互通信[2]的特點,逐漸應用到網絡安全領域。相較于傳統的檢測方法,機器學習模型具有更高的檢測效率和更強的泛化能力。目前對于URL的研究主要集中在惡意URL,而非業務相關的風險URL的檢測。惡意URL的相關研究主要可以分為三類:第一類是單一的機器學習算法,如BP神經網絡[3]、卷積神經網絡[4]、關聯規則[5]等。第二類是集成多種機器學習算法,如雙向長短期記憶網絡[6]和膠囊網絡結合、雙向長短期記憶網絡和卷積神經網絡結合[7-9]等,同時引入注意力機制來增加關鍵特征的權重。此類研究中還有一種是集成學習[1],一種方法是主要利用嶺分類、支持向量機、樸素貝葉斯作為初級學習器,采用邏輯回歸作為次級學習器,通過初級學習器和次級學習器相結合的雙層結構對URL進行檢測[10];另一種方法采用CNN與XGBoost相結合的檢測模型,利用CNN實現自動提取特征,通過XGBoost進行分類[11]。最后一類研究是機器學習與其他手段聯合進行檢測,如威脅情報[12]、專家知識[13]、字符嵌入編碼[14]等。本文對業務從互聯網接收到的風險URL請求開展檢測研究,采用分步建模法和集成學習的思想,將風險URL檢測模型分為兩個子模型:風險URL檢測以及風險URL類型分類。首先采用GBDT算法確定業務訪問的URL是否存在風險,針對風險URL,采用XGBoost算法確定具體的風險類型。同時產生告警供安全運營人員確認并處置,在一定程度上彌補現有特征值檢測方法的漏報。


本文詳細內容請下載:

http://www.rjjo.cn/resource/share/2000006089


作者信息:

馮美琪1,2,李赟1,2,蔣冰1,2,王立松1,2,劉春波3,陳偉1,2

(1.中國民航信息網絡股份有限公司運行中心,北京101318;

2.中國民航信息網絡股份有限公司IT基礎設施國產化適配工程技術研究中心,北京101318;

3.中國民航大學信息安全測評中心,天津300300)


Magazine.Subscription.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 孕妇交| 日韩欧美精品在线视频 | 50岁老女人毛片一级亚洲 | 精品一区二区三区免费毛片爱 | 亚洲美女福利视频在线 | 亚洲欧美日韩国产专区一区 | 亚洲欧美视频一区二区 | 视频二区国产 | 亚洲偷偷| 精品国产网 | 中文字幕有码视频 | 古代级a毛片可以免费看 | 亚洲精品综合一区在线 | 久久毛片视频 | 久久一二 | 国产女主播91 | 杨幂丝袜国产福利视频 | 成人手机视频在线观看 | 精品少妇一区二区三区视频 | 中文字幕成人免费视频 | 最刺激黄a大片免费观看下截 | 美国一级片在线观看 | 国产乱码一区二区三区四 | 欧美日本视频一区 | 国产v综合v亚洲欧美大另类 | 亚洲一区二区在线成人 | 欧美高清亚洲欧美一区h | 中文字幕在亚洲第一在线 | 久色视频在线 | 日韩激情中文字幕一区二区 | 日本农村寡妇一级毛片 | 亚洲看黄| 国产亚洲精品久久综合影院 | 国产小呦 | 色综合久久88色综合天天提莫 | 久久久国产免费影院 | 日本韩国三级在线观看 | 欧美aaaa在线观看视频免费 | 久草视频网站 | 免费一级欧美性大片 | 久久香蕉国产线看观看式 |