《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 設計應用 > 一種基于指令流水線的數據匹配算法
一種基于指令流水線的數據匹配算法
電子技術應用
楊嘉佳,李正,鄭兒,趙靜,燕瑋,劉金
中國電子信息產業(yè)集團有限公司第六研究所
摘要: 基于正則表達式的數據匹配技術在基礎數據治理和清洗方面有著重要的應用價值。然而,在高性能計算領域的數據處理過程中因算法匹配吞吐率低,無法滿足大數據處理環(huán)境下對算法的高性能要求,造成其應用范圍受限。針對此現象,提出一種基于指令流水線的數據匹配算法,稱之為γFA:利用Intel架構內置的向量指令流水式讀入若干字符段,通過大寬度向量比較函數進行字符段與非信任字符集的流水比值處理并轉換成整型向量,通過位置定位函數累加定位出所有整型向量的首個非信任字符位置,計算出可略過的總字符數,減少正則表達式匹配引擎因處理非信任字符集導致訪問低速內存而帶來巨大的時間開銷,實現正則表達式匹配算法的性能提升。實驗結果表明,γFA算法的吞吐率是原始DFA算法的15.88~53.06倍,相比于ßFA算法,吞吐率提升了35.12%~63.26%,取得較好的性能加速效果。此外,通過對γFA算法進行優(yōu)化后,性能可接近100 Gb/s,為原始DFA匹配算法性能的15.88~64.94倍,相比于γFA算法性能提升了2.15%~43.09%。
中圖分類號:TP391.1 文獻標志碼:A DOI: 10.16157/j.issn.0258-7998.245345
中文引用格式: 楊嘉佳,李正,鄭兒,等. 一種基于指令流水線的數據匹配算法[J]. 電子技術應用,2025,51(2):81-85.
英文引用格式: Yang Jiajia,Li Zheng,Zheng Er,et al. A data matching algorithm based on instruction pipeline[J]. Application of Electronic Technique,2025,51(2):81-85.
A data matching algorithm based on instruction pipeline
Yang Jiajia,Li Zheng,Zheng Er,Zhao Jing,Yan Wei,Liu Jin
The Sixth Research Institute of China Electronics Corporation
Abstract: The data matching technology based on regular expressions has significant application value in basic data governance and cleaning. However, in the data processing process of high-performance computing, the low performance of algorithm matching cannot meet the high-performance requirements of algorithms in the big data processing environment, resulting in limited application scope. To address this issue, a high-performance data matching algorithm based on instruction pipelining is proposed, known as γFA. It utilizes the vector instruction pipelining built into the Intel architecture to read in multiple character segments, performs pipeline ratio processing of the character segments with untrusted character sets through a wide-width vector comparison function, and converts them into integer vectors. The position location function is then used to accumulate and locate the first untrusted character position in the integer vector, calculate the number of characters that can be skipped, and reduce the significant time overhead caused by the regular expression matching engine accessing slow memory when processing untrusted character sets. This achieves performance acceleration for the regular expression matching algorithm. Experimental results show that the γFA algorithm achieves a throughput rate that is 15.88 to 53.06 times higher than the original DFA algorithm. Compared to the ßFA algorithm, the throughput rate is improved by 35.12% to 63.26%, achieving a better performance acceleration effect. Furthermore, after optimizing the γFA algorithm, a performance close to 100 Gb/s can be achieved, which is 15.88 to 64.94 times better than the performance of the original DFA matching algorithm. This represents an improvement of 2.15% to 43.09% compared to the γFA algorithm.
Key words : regular expression matching;instruction pipeline;high-performance data matching

引言

數據匹配技術可應用于數據的清洗和治理,如基于正則表達式的數據匹配技術在基礎數據的過濾方面發(fā)揮重要作用,通過數據匹配可將無關數據剔除過濾,減少噪聲數據的干擾。正則表達式因具有強大的表征能力,適合用于匹配過濾真實環(huán)境下的復雜噪聲數據。例如,開源入侵檢測系統(tǒng)Bro IDS、Snort[1]等都使用了基于正則表達式的數據匹配功能。

基于正則表達式的數據匹配實現方式通常可分成兩種:基于非確定型有限自動機(NFA)和確定型有限自動機(DFA)。前者空間復雜度比較低,與正則表達式的長度呈線性關系,但因處理一個字符需激活多個狀態(tài),造成匹配時間復雜性較大和匹配性能不穩(wěn)定。相比而言,DFA的時間復雜性比較低,處理一個字符只需一次激活單個狀態(tài),然而卻因規(guī)則的復雜性易導致狀態(tài)轉移空間膨脹甚至“爆炸”,造成巨大的空間開銷。

在大數據匹配環(huán)境中,DFA更多地被選擇與應用。DFA的匹配性能和空間消耗是基于正則表達式數據匹配技術的重要衡量因素。截至目前,DFA的空間消耗已有很多可行的算法被提出[2],因而不是本文研究重點。盡管已有若干算法對DFA的匹配性能進行研究,但性能低依舊是制約其廣泛應用的瓶頸因素。

針對此問題,本文基于單指令多數據流(Single Instruction Multiple Data)向量指令連續(xù)從內存中讀入若干字符段,然后分別與最常被訪問狀態(tài)(行)對應的非信任字符集進行字符并行比較操作,通過位置定位函數累加定位出首個非信任字符位置,獲取直接略過的總字符數,減少訪存次數,提高算法吞吐率。


本文詳細內容請下載:

http://www.rjjo.cn/resource/share/2000006330


作者信息:

楊嘉佳,李正,鄭兒,趙靜,燕瑋,劉金

(中國電子信息產業(yè)集團有限公司第六研究所,北京 100083)


Magazine.Subscription.jpg

此內容為AET網站原創(chuàng),未經授權禁止轉載。
主站蜘蛛池模板: 国产在线极品 | 久久精品高清 | 色www永久免费网站国产 | 久久亚洲精品国产精品777777 | 97一级毛片全部免费播放 | 男人天堂网2022 | 国产精品日韩欧美一区二区三区 | 日韩有码第一页 | 2020国产微拍精品一区二区 | 国产一国产一级毛片视频在线 | 亚洲综合成人在线 | 久久精品久久精品久久精品 | 久久www免费人成看国产片 | 一级看片免费视频 | 韩国一级做a爰片性色毛片 韩国一区在线 | 国产一区二区三区手机在线观看 | 黄人成a动漫片免费网站 | 国产成人精品综合在线观看 | 亚洲男人天堂av | 国产精品美女久久久久网站 | 手机看片av | 日本一区三区二区三区四区 | 日韩精品在线一区 | 上海一级毛片 | 日韩在线 | 中文 | 日本不卡一二三区 | 91最新网站免费 | 中文字幕在线成人免费看 | 亚洲国产天堂久久综合网站 | 亚洲视频免费在线观看 | 免费黄色在线网址 | 国产精品视频免费观看调教网 | 国产成人一区二区三区精品久久 | 国产精品美女久久久久网站 | 老色99久久九九精品尤物 | 黄www| 亚洲精品一区二区手机在线 | 伊人黄色片 | 国产精品国产 | 久久女同互慰一区二区三区 | 99r精品在线 |