基于單頁(yè)語(yǔ)義特征的垃圾網(wǎng)頁(yè)檢測(cè)
所屬分類:技術(shù)論文
上傳者:zhoubin333
文檔大小:3500 K
標(biāo)簽: 垃圾網(wǎng)頁(yè)檢測(cè) 特征提取 記憶化搜索
所需積分:0分積分不夠怎么辦?
文檔介紹:為解決垃圾網(wǎng)頁(yè)檢測(cè)中特征提取難度高、計(jì)算量大的問(wèn)題,提出一種僅基于當(dāng)前網(wǎng)頁(yè)的HTML腳本提取語(yǔ)義特征的方法。首先使用深度優(yōu)先搜索和動(dòng)態(tài)規(guī)劃相結(jié)合的記憶化搜索算法對(duì)域名進(jìn)行單詞切割,采用隱含狄利克雷分布提取主題詞,基于Word2Vec詞向量和詞移距離計(jì)算3個(gè)單頁(yè)語(yǔ)義相似度特征;然后將單頁(yè)語(yǔ)義相似度特征融合單頁(yè)統(tǒng)計(jì)特征,使用隨機(jī)森林等分類算法構(gòu)建分類模型進(jìn)行垃圾網(wǎng)頁(yè)檢測(cè)。實(shí)驗(yàn)結(jié)果表明,基于單頁(yè)內(nèi)容提取語(yǔ)義特征融合單頁(yè)統(tǒng)計(jì)特征進(jìn)行分類的AUC值達(dá)到88.0%,比對(duì)照方法提高4%左右。
現(xiàn)在下載
VIP會(huì)員,AET專家下載不扣分;重復(fù)下載不扣分,本人上傳資源不扣分。
主站蜘蛛池模板: 亚洲精品一区二区三区www | 看三级网站 | 成人毛片18女人毛片免费 | 久久精品国产一区二区三区不卡 | 羞羞一区二区三区四区片 | japanese日本tube色系 | 在线观看人成午夜影片 | 国内精品久久久久久久aa护士 | 久久久国产成人精品 | 国产精品一区二区国产 | 国产黄三级三·级三级 | 国产成人精品免费视频大全可播放的 | a级国产乱理伦片在线观看国 | 男人干女人的视频 | 成人毛片在线播放 | 中文国产成人精品久久水 | 精品日韩一区二区三区 | 成人午夜视频免费观看 | 亚洲精品自产拍在线观看 | 无码免费一区二区三区免费播放 | 久久精品国产在爱久久 | 欧美大尺度aaa级毛片 | 亚洲va精品中文字幕动漫 | 精品久久久久久乐 | 成人免费小视频 | 欧美色操| 黄网在线| 在线观看亚洲视频 | 久久精品99视频 | 精品视频网 | 亚洲综合影视 | 在线 | 一区二区三区四区 | 农村寡妇偷毛片一级 | 久久精品道一区二区三区 | 免费成人在线网站 | 一区二区三区四区在线视频 | 日本www色视频成人免费网站 | 国产在线更新 | 在线观看欧洲成人免费视频 | 中文字幕福利视频 | 欧美成人做性视频在线播放 |