《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 一種基于成詞率和譜聚類的電力文本領域詞發現方法
一種基于成詞率和譜聚類的電力文本領域詞發現方法
2021年電子技術應用第10期
楊 政1,尹春林1,蔡 迪2,李慧斌2
1.云南電網有限責任公司電力科學研究院,云南 昆明650217;2.西安交通大學 數學與統計學院,陜西 西安710049
摘要: 考慮到當前電力行業仍缺少有效的領域詞發現方法,以電力行業科技項目文本為原始語料庫,將基于互信息與左右熵的統計特征與傳統語言構詞規則特征相融合,提出了電力文本成詞率的概念。所提方法首先利用成詞率對電力文本進行無監督篩選得到初始候選詞集,然后對候選詞集進行文本切片算法和常用詞過濾操作,最后進行詞嵌入和譜聚類得到最終所需的電力文本領域詞。實驗結果表明,所提出的方法準確有效,為電力文本的領域詞發現提供了一種新方法。
中圖分類號: TP311
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.211437
中文引用格式: 楊政,尹春林,蔡迪,等. 一種基于成詞率和譜聚類的電力文本領域詞發現方法[J].電子技術應用,2021,47(10):29-32,37.
英文引用格式: Yang Zheng,Yin Chunlin,Cai Di,et al. A power text domain word discovery method based on word formation rate and spectral clustering[J]. Application of Electronic Technique,2021,47(10):29-32,37.
A power text domain word discovery method based on word formation rate and spectral clustering
Yang Zheng1,Yin Chunlin1,Cai Di2,Li Huibin2
1.Electric Power Research Institute of Yunnan Power Grid Co.,Ltd.,Kunming 650217,China; 2.School of Mathematics and Statistics,Xi′an Jiaotong University,Xi′an 710049,China
Abstract: Considering that the current power industry still lacks effective domain word discovery methods, this paper takes the power industry science and technology project text as the original corpus, combines the statistical features based on the mutual information, left entropy as well as right entropy with the features of traditional language word-formation rules, and proposes the new concept of power text word formation rate. The proposed method firstly uses the word formation rate to get the initial candidate word set by unsupervised filtering, and then performs the text slicing algorithm and common word filtering operation on the candidate word set, and finally performs the word embedding and spectral clustering algorithms to get the final power text-domain words. Experimental results show that the method proposed in this paper is accurate and effective, and provides a new method for power text domain word discovery.
Key words : word formation rate;spectral clustering;domain word discovery;power text

0 引言

    針對特定領域的文本數據,領域詞的詞庫構建是最為關鍵的任務之一。傳統領域詞發現方法依賴互信息或鄰接熵得到候選詞集,進而利用word2vec進行詞向量轉化、K-means進行聚類[1],最終得到行業領域詞。傳統方法對詞語組合規律運用得不夠全面,因此這類方法篩選的候選詞集存在諸多不合理的詞語。領域詞發現分為候選詞集篩選與字符串過濾兩個步驟。

    在候選詞集篩選方面,領域詞發現算法主要是基于詞語統計特性的無監督方法或序列模式機器學習的有監督算法。基于無監督的方法中,互信息和凝固度是最常見的用來篩選詞語的度量,劉偉童等[2]提出使用互信息初步篩選詞集,隨后用鄰接熵對詞集進行再過濾的方法。劉昱彤等[3]使用改進的類Apriori算法,通過組合、統計頻率、過濾3個步驟來篩選候選詞集。杜麗萍等[4]提出利用改進的互信息,同時結合一定的構詞規則篩選候選詞集。無監督算法泛化性優良,但缺少規則,會遺留有較多垃圾串與非領域詞。基于監督的機器學習詞集篩選方法有馬建紅等[5]提出的基于CNN和LSTM抽取詞特征,隨后使用半馬爾科夫條件隨機場(SCRF)來識別詞語邊界。Fu Guohong等[6]在隱馬爾可夫模型(HMM)的框架下運用命名實體識別(NER)的思路,同時結合上下文篩選出候選詞集。陳飛等[7]提出運用條件隨機場來判斷分詞的詞匯邊界是否為候選詞邊界的方法。監督方法通常需要大量標注數據進行訓練,耗費高額的人工成本。此外,部分方法選擇基于純規則的構詞法[8-9](即漢語成詞規則)與一些領域先驗知識結合,進行候選詞集的篩選。這種方式雖然準確性相對較高,但是規則維護復雜,基本無跨域能力。




本文詳細內容請下載:http://www.rjjo.cn/resource/share/2000003777




作者信息:

楊  政1,尹春林1,蔡  迪2,李慧斌2

(1.云南電網有限責任公司電力科學研究院,云南 昆明650217;2.西安交通大學 數學與統計學院,陜西 西安710049)




wd.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 91免费网站在线看入口黄 | 国产精品国产三级在线高清观看 | 香港三澳门三日本三级 | 亚洲狠狠狠一区二区三区 | 久久国产精品免费看 | aaaaaa级特色特黄的毛片 | 国产一区二区三区四区五区 | 黄影| 伊人情人综合网 | 亚洲国产天堂在线网址 | 亚洲欧美94色 | 成年人在线免费观看视频网站 | 日韩毛毛片 | 午夜国产视频 | 美国一级欧美三级 | 免费一级毛片在级播放 | 黄男人和女人色一级 | 特黄女一级毛片 | 日本亚欧乱色视频在线观看 | 欧美一级特毛片 | 新版天堂资源中文8在线 | 欧美亚洲国产成人不卡 | 亚洲欧美在线精品一区二区 | 午夜一级毛片看看 | 美女视频黄视大全视频免费网址 | 久久99精品久久久久久秒播 | 免费一级欧美大片在线观看 | 久久久久免费视频 | 亚洲欧美性视频 | 一区二区三区不卡在线观看 | 一级做a爰片性色毛片中国 一级做a爰性色毛片 | 午夜伦4480yy妇女久久久 | 免费人成在线观看网站视频 | 国产成人一区二区三区免费观看 | 国产免费资源 | 精品在线一区二区 | 日韩色视频一区二区三区亚洲 | 伊大人香蕉久久网欧美 | 国产欧美成人一区二区三区 | 透逼视频 | 国产欧美综合一区二区 |