《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模擬設(shè)計(jì) > 設(shè)計(jì)應(yīng)用 > 基于K-means的異常識(shí)別方法
基于K-means的異常識(shí)別方法
電子技術(shù)應(yīng)用
劉道君,劉帥,張玉松,歐思程
中國(guó)長(zhǎng)江電力股份有限公司 三峽水利樞紐梯級(jí)調(diào)度通信中心
摘要: 在工業(yè)、電力、交通等領(lǐng)域,異常往往是系統(tǒng)發(fā)生問(wèn)題或故障的先兆。通過(guò)異常識(shí)別技術(shù),可以及時(shí)發(fā)現(xiàn)系統(tǒng)異常行為,預(yù)防或迅速應(yīng)對(duì)潛在的故障,提高系統(tǒng)的可靠性和穩(wěn)定性。當(dāng)前的異常識(shí)別算法通常需要引入專家信息(如適宜的參數(shù)值),但在許多識(shí)別場(chǎng)景中,數(shù)據(jù)分布以及異常發(fā)生原因是未知的,導(dǎo)致專家信息不可信。因此,如何設(shè)計(jì)一款無(wú)需專家信息介入的異常識(shí)別算法意義非凡。設(shè)計(jì)了一種自適應(yīng)的異常識(shí)別算法,通過(guò)K-means聚類算法識(shí)別出眾多小簇,然后統(tǒng)計(jì)各簇中對(duì)象數(shù)量的分布概率以生成概率分布圖。從概率分布圖中,可以清晰觀察到哪些簇中的對(duì)象數(shù)量明顯小于其他簇,從而將它們識(shí)別為異常簇,其中的對(duì)象識(shí)別為異常。換句話說(shuō),概率分布圖代替了專家信息,可協(xié)助使用者在分布以及原因未知情況下識(shí)別有效異常。
關(guān)鍵詞: 異常識(shí)別 概率 決策圖
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)志碼:A DOI: 10.16157/j.issn.0258-7998.245654
中文引用格式: 劉道君,劉帥,張玉松,等. 基于K-means的異常識(shí)別方法[J]. 電子技術(shù)應(yīng)用,2025,51(5):62-67.
英文引用格式: Liu Daojun,Liu Shuai,Zhang Yusong,et al. Outlier detection method based on K-means[J]. Application of Electronic Technique,2025,51(5):62-67.
Outlier detection method based on K-means
Liu Daojun,Liu Shuai,Zhang Yusong,Ou Sicheng
China Yangtze Power Co.,Ltd., Three Gorges Cascade Dispatch Communication Center
Abstract: In industry, electric power, transportation and other fields, anomalies are often the precursors of problems or failures in the system. Through anomaly identification techniques, system abnormal behavior can be detected in time to prevent or quickly respond to potential failures and improve system reliability and stability. Current anomaly identification algorithms usually need to introduce expert information (e.g., suitable parameter values), but in many identification scenarios, the data distribution as well as the cause of anomaly occurrence are unknown, resulting in unreliable expert information. Therefore, it is significant to design an anomaly identification algorithm that does not require the intervention of expert information. In this paper, an adaptive anomaly identification algorithm is designed. Specifically, it identifies numerous small clusters by K-means, and then counts the distribution probability of the number of objects in each cluster to generate a probability distribution graph. From the probability distribution graph, it can be clearly observed which clusters contain significantly smaller numbers of objects than other clusters, and thus they are recognized as anomalous clusters in which the objects are recognized as anomalies. In other words, the probability distribution graph replaces expert information and assists the user in identifying valid anomalies when the distribution as well as the cause is unknown.
Key words : outlier detection;probability;decision graph

引言

異常識(shí)別在當(dāng)今社會(huì)中具有重要意義,它可以幫助提高安全性、優(yōu)化效率、預(yù)測(cè)未來(lái)、改善數(shù)據(jù)質(zhì)量以及支持決策,在各個(gè)領(lǐng)域中推動(dòng)進(jìn)步和發(fā)展。隨著技術(shù)的不斷發(fā)展和應(yīng)用范圍的擴(kuò)大,異常識(shí)別將繼續(xù)發(fā)揮重要作用,并為人類社會(huì)帶來(lái)更多的益處。

當(dāng)前,已有上千種異常識(shí)別算法被陸續(xù)提出。它們大致可以被劃分為基于統(tǒng)計(jì)、基于距離、基于深度學(xué)習(xí)、基于集成的算法。具體地,基于統(tǒng)計(jì)的算法使用數(shù)據(jù)的統(tǒng)計(jì)特性來(lái)識(shí)別異常值,常見(jiàn)的統(tǒng)計(jì)信息包括均值、標(biāo)準(zhǔn)差、中位數(shù)、百分位數(shù)等。基于距離的算法通過(guò)計(jì)算對(duì)象之間的相似度或距離來(lái)識(shí)別異常值。基于集成的算法結(jié)合多個(gè)基本異常檢測(cè)模型的輸出,以提高整體的性能和魯棒性。基于深度學(xué)習(xí)的算法利用多層神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)數(shù)據(jù)的復(fù)雜特征,并在此基礎(chǔ)上進(jìn)行異常檢測(cè)。盡管上述類型算法已經(jīng)被驗(yàn)證可以在各樣場(chǎng)景下很好地識(shí)別數(shù)據(jù)集中的復(fù)雜異常,但大多算法面臨一個(gè)共同的問(wèn)題,就是需要若干輸入?yún)?shù),且異常識(shí)別效果與參數(shù)值高度相關(guān)。然而,異常識(shí)別是一種無(wú)監(jiān)督分析任務(wù),這意味著面對(duì)未知數(shù)據(jù)集時(shí),將無(wú)法客觀地預(yù)測(cè)哪些參數(shù)值是適當(dāng)?shù)摹R环N名為DPC的算法解決了上述問(wèn)題,它通過(guò)識(shí)別簇邊界區(qū)域,然后將邊界區(qū)域中密度小于密度均值的對(duì)象識(shí)別為異常,識(shí)別過(guò)程中不需要輸入任何參數(shù)。然而,DPC的異常識(shí)別效果易受對(duì)象分布的影響。若簇間較為接近時(shí),會(huì)有許多正常數(shù)據(jù)對(duì)象被錯(cuò)誤地識(shí)別為異常。顯然,如果構(gòu)建一個(gè)既無(wú)輸入?yún)?shù)又有優(yōu)異的異常識(shí)別效果的算法模型將是有意義的。

為了實(shí)現(xiàn)上一目標(biāo),本文提出了一種全新的名為K-outlier的算法。具體地,K-outlier算法首先將數(shù)據(jù)集劃分為個(gè)簇,其中為數(shù)據(jù)集中數(shù)據(jù)對(duì)象的數(shù)量。由于異常對(duì)象分布相對(duì)稀疏,因此異常對(duì)象將被劃分到只包含少量對(duì)象的小簇中。然后,K-outlier算法統(tǒng)計(jì)每個(gè)簇中對(duì)象的數(shù)量,并生成數(shù)量概率圖,稱之為決策圖。從決策圖中,使用者可以很清晰地識(shí)別出哪些簇中的對(duì)象數(shù)量少且概率低,從而將它們識(shí)別為異常簇(因?yàn)楫惓?duì)象的數(shù)量遠(yuǎn)小于正常對(duì)象,且異常對(duì)象所在簇中對(duì)象的數(shù)量也遠(yuǎn)小于正常對(duì)象所在簇中對(duì)象的數(shù)量),其中的對(duì)象識(shí)別為異常。K-outlier算法的主要貢獻(xiàn):

(1)首次將K-means引入異常識(shí)別任務(wù)。K-means是最經(jīng)典的聚類算法,盡管它沒(méi)有異常識(shí)別能力,但它具有低時(shí)間復(fù)雜的優(yōu)勢(shì),可以幫助K-outlier算法快速識(shí)別出異常。

(2)生成可視決策圖代替輸入?yún)?shù)。K-outlier算法不再像其他異常識(shí)別算法需要輸入?yún)?shù)來(lái)識(shí)別異常,使用者可以通過(guò)決策圖提供的可視信息直接得到異常識(shí)別結(jié)果。

(3)K-outlier算法的異常識(shí)別效果不受對(duì)象分布的影響。由于將異常劃分到小簇中,與正常對(duì)象進(jìn)行了物理隔離,因此不受正常對(duì)象分布的影響。

(4)通過(guò)大量實(shí)驗(yàn)驗(yàn)證了K-outlier算法的有效性。實(shí)驗(yàn)表明K-outlier算法對(duì)密度不平衡數(shù)據(jù)集、復(fù)雜分布數(shù)據(jù)集具有一定的魯棒性。在7個(gè)真實(shí)世界數(shù)據(jù)集上,相比于現(xiàn)有算法,K-outlier算法取得了最優(yōu)的結(jié)果。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://www.rjjo.cn/resource/share/2000006527


作者信息:

劉道君,劉帥,張玉松,歐思程

(中國(guó)長(zhǎng)江電力股份有限公司 三峽水利樞紐梯級(jí)調(diào)度通信中心 湖北 宜昌 443000)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 91精品观看91久久久久久 | 欧洲成人在线视频 | 日韩视频在线观看中字 | 成年午夜性爽快免费视频不卡 | 日韩欧美国产精品 | 美女免费在线视频 | 精品国产不卡一区二区三区 | 亚洲精品xxxx| 日本三级韩国三级在线观看a级 | 久草视频国产 | 九九精品视频在线播放 | 黄色三级网站在线观看 | 精品一区二区视频 | 精品亚洲视频在线观看 | 亚州不卡 | 国产精品免费视频一区 | 欧美色成人| 三级全黄a | 一级免费a| 在线视频亚洲欧美 | 亚洲精品国产一区二区三区四区 | 精品国产自在在线在线观看 | 真实国产普通话对白乱子子伦视频 | 久久精品国产一区二区三区日韩 | 日本精品网 | 最近韩国日本免费免费版 | 成年人免费观看视频网站 | 欧美一级毛片高清免费观看 | 国产在视频线精品视频二代 | 日韩一级欧美一级毛片在线 | 纯欧美一级毛片免费 | 亚洲高清视频在线 | 国产91精品一区二区麻豆亚洲 | 午夜在线伦理福利视频 | 成人二区| 一级特黄a视频 | 精品国产一区在线观看 | 亚洲欧美视频一区二区三区 | 国产亚洲高清不卡在线观看 | 黄色成人毛片 | 欧美成人极品怡红院tv |