《電子技術應用》
您所在的位置:首頁 > 人工智能 > 設計應用 > 安全類文章的多文本分類系統的設計與實現
安全類文章的多文本分類系統的設計與實現
《信息技術與網絡安全》2020年第7期
吳習沫,朱廣宇,張 雷
華北計算機系統工程研究所,北京100083
摘要: 目前安全類網站信息的分類標簽各不相同,沒有統一分類標準,使安全類網站無法準確地向用戶展示特定類別的安全信息。面對大量的安全類網站的技術類文章信息,用戶需要花費大量的時間來識別文本類別。因此,設計一個多文本分類系統對于提高安全類網站的用戶體驗和使用效率具有重要意義。開發了一套基于CNN和LSTM混合模型的安全類文章多文本分類系統,本系統采用基于Scrapy框架的網絡爬蟲,該網絡爬蟲支持定制化配置提取不同布局的頁面數據,支持數據持久化存儲。并在 CNN和 LSTM混合模型基礎上設計實現了多文本自動標注模塊,實現了網站安全類信息的自動分類,相對傳統的CNN和LSTM模型分類準確率分別提升1.79%和1.54%,F1值分別提升1.02%和0.32%。
中圖分類號: TP391.1
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2020.07.009
引用格式: 吳習沫,朱廣宇,張雷. 安全類文章的多文本分類系統的設計與實現[J].信息技術與網絡安全,2020,
39(7):52-56,60.
Design and implementation of multi-text classification system for security articles
Wu Ximo,Zhu Guangyu,Zhang Lei
North China Institute of Computer Systems Engineering,Beijing 100083,China
Abstract: At present, the classification labels of security website information are different, and there is no unified classification standard, so that security websites cannot accurately display specific types of security information to users. Faced with a large number of technical article information of security websites, users need to spend a lot of time to identify text categories. So, it′s significant to design a multi-text classification system to advance the user experience and make use of security websites′ efficiency. This paper develops a security text multi-text classification system based on a hybrid model of CNN and LSTM. Based on the Scrapy framework, a web crawler, which supports both customized configuration to extract page data in different layouts and data persistence storage, is used in this system. Based on the mixed model of CNN and LSTM, a multi-text automatic labeling module is designed and implemented to realize the automatic classification of website security information. The rate of classification accuracy has increased by 1.79% and 1.54% in comparison with the traditional CNN and LSTM models respectively. Meanwhile,the F1 value has increased by 1.02% and 0.32%.
Key words : in-depth learning;text categorization;crawler;system

互聯網已成為信息傳播的普遍途徑,然而,由于互聯網中的冗余信息過多,各網站提供的標簽沒有統一的分類標準,使得整合某一特定類的文章信息所消耗的時間成本和人力成本增加。但目前為止,針對網絡安全類網站的技術類文章,還沒有一套系統能夠很好地解決上述對應問題。

為迅速掌握最新的網絡安全信息,本文設計并實現了基于CNN和LSTM混合模型的安全類文章多文本分類系統,該系統從多種來源收集安全類技術文本,并將它們以特定格式匯總,自動標記匯總后的文章內容。就信息收集而言,系統主要采集近一年的安全類技術文本,收集的目標內容主要包括文章內容和網頁自帶的標簽,對于各網站自定義的文章標簽,可作為多標簽的一部分,供用戶參考。安全類文本與普通文本對比需要由多個標簽對其進行標記分類處理。因此安全類文本的分類要難于普通文本分類處理。

面向網絡安全數據高并發的安全類網站,本文設計和實現了信息采集模塊,該模塊主要實現了基于Scrapy框架的分布式爬蟲程序設計,完成了多個安全類網站技術類文章的文本信息數據采集。

本文設計并實現了信息分類模塊,它負責對所獲得的數據進行預處理、文本表示以及文本分類,其中文本分類模塊具體提出了一種基于CNN和LSTM的混合分類模型,它綜合了CNN與LSTM的優點,提高了模型的特征提取能力。實驗結果表明,基于CNN和LSTM的混合分類模型達到了比較高的準確率,CNN和LSTM的混合模型的準確率為91.99%。CNN-LSTM與CNN、LSTM相比分類準確率提高了1.79%和1.54%。



本文詳細內容請下載:http://www.rjjo.cn/resource/share/2000003231

作者信息:

       吳習沫,朱廣宇,張  雷

       (華北計算機系統工程研究所,北京100083)


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 色黄啪啪18周岁以下禁止观看 | 一本色道久久88综合亚洲精品高清 | 免费精品在线 | 亚洲精品区在线播放一区二区 | 爱爱客影院在线影院gf发现 | 亚洲综合视频在线观看 | 韩国porno xxxx| 亚洲综合久久久久久中文字幕 | 日韩一区二区不卡中文字幕 | 亚洲风情第一页 | 国产特黄一级一片免费 | 欧美白人和黑人xxxx猛交视频 | 亚洲国产精品一区二区久久 | 久久毛片免费看 | 欧美一区二区三区国产精品 | a在线观看欧美在线观看 | 91九色精品国产免费 | 女同日韩互慰互摸在线观看 | 欧美在线成人午夜影视 | 欧美一级大片在线观看 | 亚洲成a人一区二区三区 | 毛片免费高清免费 | 免费中文字幕一级毛片 | 久久久不卡国产精品一区二区 | 黄色三级毛片网站 | 一级做a爰全过程免费视频毛片 | 337p粉嫩日本亚洲大胆艺术照 | 欧美综合精品一区二区三区 | 黄色三级视频在线 | 国内高清久久久久久久久 | 成人久久伊人精品伊人 | 国产偷国产偷亚洲高清在线 | 国产女人在线观看 | 久久精品视频5 | 日本a v 黄| 黄色a免费| 亚洲一级特黄特黄的大片 | 亚洲女人被黑人猛躁进女人 | 成 人 黄 色 视频 免费观看 | 久久久青青久久国产精品 | 久久3|