中文引用格式: 劉道君,劉帥,張玉松,等. 基于K-means的異常識(shí)別方法[J]. 電子技術(shù)應(yīng)用,2025,51(5):62-67.
英文引用格式: Liu Daojun,Liu Shuai,Zhang Yusong,et al. Outlier detection method based on K-means[J]. Application of Electronic Technique,2025,51(5):62-67.
引言
異常識(shí)別在當(dāng)今社會(huì)中具有重要意義,它可以幫助提高安全性、優(yōu)化效率、預(yù)測(cè)未來(lái)、改善數(shù)據(jù)質(zhì)量以及支持決策,在各個(gè)領(lǐng)域中推動(dòng)進(jìn)步和發(fā)展。隨著技術(shù)的不斷發(fā)展和應(yīng)用范圍的擴(kuò)大,異常識(shí)別將繼續(xù)發(fā)揮重要作用,并為人類社會(huì)帶來(lái)更多的益處。
當(dāng)前,已有上千種異常識(shí)別算法被陸續(xù)提出。它們大致可以被劃分為基于統(tǒng)計(jì)、基于距離、基于深度學(xué)習(xí)、基于集成的算法。具體地,基于統(tǒng)計(jì)的算法使用數(shù)據(jù)的統(tǒng)計(jì)特性來(lái)識(shí)別異常值,常見(jiàn)的統(tǒng)計(jì)信息包括均值、標(biāo)準(zhǔn)差、中位數(shù)、百分位數(shù)等。基于距離的算法通過(guò)計(jì)算對(duì)象之間的相似度或距離來(lái)識(shí)別異常值。基于集成的算法結(jié)合多個(gè)基本異常檢測(cè)模型的輸出,以提高整體的性能和魯棒性。基于深度學(xué)習(xí)的算法利用多層神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)數(shù)據(jù)的復(fù)雜特征,并在此基礎(chǔ)上進(jìn)行異常檢測(cè)。盡管上述類型算法已經(jīng)被驗(yàn)證可以在各樣場(chǎng)景下很好地識(shí)別數(shù)據(jù)集中的復(fù)雜異常,但大多算法面臨一個(gè)共同的問(wèn)題,就是需要若干輸入?yún)?shù),且異常識(shí)別效果與參數(shù)值高度相關(guān)。然而,異常識(shí)別是一種無(wú)監(jiān)督分析任務(wù),這意味著面對(duì)未知數(shù)據(jù)集時(shí),將無(wú)法客觀地預(yù)測(cè)哪些參數(shù)值是適當(dāng)?shù)摹R环N名為DPC的算法解決了上述問(wèn)題,它通過(guò)識(shí)別簇邊界區(qū)域,然后將邊界區(qū)域中密度小于密度均值的對(duì)象識(shí)別為異常,識(shí)別過(guò)程中不需要輸入任何參數(shù)。然而,DPC的異常識(shí)別效果易受對(duì)象分布的影響。若簇間較為接近時(shí),會(huì)有許多正常數(shù)據(jù)對(duì)象被錯(cuò)誤地識(shí)別為異常。顯然,如果構(gòu)建一個(gè)既無(wú)輸入?yún)?shù)又有優(yōu)異的異常識(shí)別效果的算法模型將是有意義的。
為了實(shí)現(xiàn)上一目標(biāo),本文提出了一種全新的名為K-outlier的算法。具體地,K-outlier算法首先將數(shù)據(jù)集劃分為個(gè)簇,其中為數(shù)據(jù)集中數(shù)據(jù)對(duì)象的數(shù)量。由于異常對(duì)象分布相對(duì)稀疏,因此異常對(duì)象將被劃分到只包含少量對(duì)象的小簇中。然后,K-outlier算法統(tǒng)計(jì)每個(gè)簇中對(duì)象的數(shù)量,并生成數(shù)量概率圖,稱之為決策圖。從決策圖中,使用者可以很清晰地識(shí)別出哪些簇中的對(duì)象數(shù)量少且概率低,從而將它們識(shí)別為異常簇(因?yàn)楫惓?duì)象的數(shù)量遠(yuǎn)小于正常對(duì)象,且異常對(duì)象所在簇中對(duì)象的數(shù)量也遠(yuǎn)小于正常對(duì)象所在簇中對(duì)象的數(shù)量),其中的對(duì)象識(shí)別為異常。K-outlier算法的主要貢獻(xiàn):
(1)首次將K-means引入異常識(shí)別任務(wù)。K-means是最經(jīng)典的聚類算法,盡管它沒(méi)有異常識(shí)別能力,但它具有低時(shí)間復(fù)雜的優(yōu)勢(shì),可以幫助K-outlier算法快速識(shí)別出異常。
(2)生成可視決策圖代替輸入?yún)?shù)。K-outlier算法不再像其他異常識(shí)別算法需要輸入?yún)?shù)來(lái)識(shí)別異常,使用者可以通過(guò)決策圖提供的可視信息直接得到異常識(shí)別結(jié)果。
(3)K-outlier算法的異常識(shí)別效果不受對(duì)象分布的影響。由于將異常劃分到小簇中,與正常對(duì)象進(jìn)行了物理隔離,因此不受正常對(duì)象分布的影響。
(4)通過(guò)大量實(shí)驗(yàn)驗(yàn)證了K-outlier算法的有效性。實(shí)驗(yàn)表明K-outlier算法對(duì)密度不平衡數(shù)據(jù)集、復(fù)雜分布數(shù)據(jù)集具有一定的魯棒性。在7個(gè)真實(shí)世界數(shù)據(jù)集上,相比于現(xiàn)有算法,K-outlier算法取得了最優(yōu)的結(jié)果。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://www.rjjo.cn/resource/share/2000006527
作者信息:
劉道君,劉帥,張玉松,歐思程
(中國(guó)長(zhǎng)江電力股份有限公司 三峽水利樞紐梯級(jí)調(diào)度通信中心 湖北 宜昌 443000)