《電子技術應用》
您所在的位置:首頁 > 電源技術 > 設計應用 > 基于規則和詞典的用電安全領域命名實體識別
基于規則和詞典的用電安全領域命名實體識別
2022年電子技術應用第12期
袁金斗1,潘明明1,張 騰2,姜 玨1
1.中國電力科學研究院有限公司,北京100192;2.國網江蘇省電力有限公司,江蘇 南京210000
摘要: 在用電安全領域,存在著大量數據、知識未得到充分挖掘和利用,構建領域知識圖譜不僅可以實現用電安全知識的整合,還能極大地提高電力行業的工作效率。命名實體識別是構建知識圖譜的基礎性工作,研究了基于字典和規則的命名實體識別,通過領域實體詞典、構詞特征字符規則匹配和詞性組合特征規則匹配三種方法從非結構文本中準確地提取用電安全相關實體,為用電安全領域知識圖譜的構建提供高質量和高精度的實體。為優化識別流程、提高響應速度,將通用詞性標注任務交由邊緣節點進行處理,中心服務器僅需響應規則模板匹配等任務。在小規模測試實驗中,綜合使用三種方法對用電安全文本進行領域實體識別,F1值能達到85%以上。
中圖分類號: TP391.1
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.223323
中文引用格式: 袁金斗,潘明明,張騰,等. 基于規則和詞典的用電安全領域命名實體識別[J].電子技術應用,2022,48(12):22-27.
英文引用格式: Yuan Jindou,Pan Mingming,Zhang Teng,et al. Electricity safety domain named entity recognition based on rules and dictionaries[J]. Application of Electronic Technique,2022,48(12):22-27.
Electricity safety domain named entity recognition based on rules and dictionaries
Yuan Jindou1,Pan Mingming1,Zhang Teng2,Jiang Jue1
1.China Electric Power Research Institute,Beijing 100192,China; 2.State Grid Jiangsu Electric Power Co.,Ltd.,Nanjing 210000,China
Abstract: In the field of electricity safety, there are a lots of data and knowledge has not been excavated and utilized, constructing a knowledge graph in the electricity safety field can not only integrate power knowledge, but also greatly improve the efficiency of the power industry. Named entity recognition(NER) is the basis for constructing knowledge graph, this paper studies the named entity recognition based on dictionaries and rules, through three methods: the domain entity dictionary, the word-building feature character rule matching and the part-of-speech combination feature rule matching,to accurately extract electricity safety related entities from non-structured text, providing high-quality and high-precision entities for the construction of knowledge graph in the field of electricity safety. In order to optimize the recognition process and improve the response speed, the general part-of-speech tagging task is sent to the edge node for processing, and the central server processes the rule template matching task. Experimental results show that using the three methods comprehensively to recognition the domain entity of small-scale electricity safety text, the F1 score can reach more than 85%.
Key words : electricity safety domain;NER;domain dictionary;featured character rules;part-of-speech combination rules

0 引言

    命名實體識別[1-3](Named Entity Recognition,NER)在通用領域中主要是指識別文本中的人名、地名、機構名、時間、貨幣等具有特定意義的實體。目前,命名實體識別的主要方法包括三類:基于規則[4]和詞典[5-6]的方法、基于統計機器學習的方法[7]和基于深度神經網絡的方法[8]

    目前,用電安全領域缺乏權威數據集[9],命名實體識別研究工作首先需要對語料集進行序列標注,標記非結構文本中的相關實體、無關字符、詞性序列等,在此研究背景下,采用統計機器學習、深度神經網絡的方法較難獲取大規模的訓練語料集。因此,本文主要基于規則和詞典的方法對實體命名識別進行第一階段研究,發掘用電安全領域實體構詞規則及詞性特征,構建領域詞典及規則模板,進一步擴充語料庫,為后續用電安全領域命名實體識別的機器學習、神經網絡方法的研究奠定基礎。

    從技術角度分析,如果構建的領域詞典能夠覆蓋待識別文本中絕大多數相關實體,那么,基于詞典的命名實體識別方法將具有高準確度及高響應度。但是,領域實體的多樣性、復雜性、衍生性導致構建覆蓋全面的高質量詞典較為困難。因此,基于詞典的方法通常是基于規則方法的輔助補充手段[10]。基于規則的實體命名識別多采用人工歸納并構造規則模板,選用特征包括標點符號、關鍵字、指示詞和方向詞、位置詞(如前后綴)、中心詞等,以規則模板的正則匹配為主要手段[11]。當語料規模不大且提取的規則能比較精確地反映語言現象時,基于規則和詞典的方法其性能要優于基于統計的方法[12]

    另一方面,物聯網設備和數據的爆發式增長,使得基于云計算模型的聚合性服務逐漸顯露出其在實時性、網絡制約、資源開銷等方面的不足。為彌補集中式云計算的不足,本文采用邊緣計算架構,其優勢在于能夠在數據產生側快捷、高效地響應業務需求,減小服務對網絡的依賴,在離線狀態下也能夠提供基礎業務服務。




本文詳細內容請下載:http://www.rjjo.cn/resource/share/2000005035




作者信息:

袁金斗1,潘明明1,張  騰2,姜  玨1

(1.中國電力科學研究院有限公司,北京100192;2.國網江蘇省電力有限公司,江蘇 南京210000)




wd.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 国产三及 | 久久久精品国产 | 亚洲国产精品免费 | 亚洲男人第一天堂 | 日本aaaa级片 | 成人男女网18免费看 | 欧美激情精品久久久久 | 91精品日本久久久久久牛牛 | 亚洲午夜网 | 日本手机看片 | 国产精品秒播无毒不卡 | 国产日产亚洲系列首页 | 久久精品一区二区三区中文字幕 | 国产手机视频 | 国产激情一级毛片久久久 | 欧美日韩国产在线人成dvd | 亚洲第一免费网站 | 国产成人高清在线观看播放 | 日韩欧美一区二区三区不卡在线 | 国内视频一区 | 国产伦一区二区三区四区久久 | 美女被免费视频网站a国产 美女被免费网站视频软件 美女被免费网站在线软件 美女被免费网站在线视频软件 | 92午夜国产福利视频1000 | 久久久国产亚洲精品 | 欧美精品成人一区二区视频一 | 国产三级a三级三级 | 最新理论三级中文在线观看 | 久久久一区二区三区不卡 | 国产妇乱子伦视频免费 | 亚洲精品m在线观看 | 久久精品成人一区二区三区 | 一级做a爰片性色毛片小说 一级做a爰片性色毛片中国 | 67194国产精品 | 国产高清厕所盗摄视频 | 欧美亚洲日本国产综合网 | 欧美日韩在线第一页 | 欧美中文字幕在线视频 | 国产精品福利午夜h视频 | 日韩美女在线看免费观看 | 精品欧美激情在线看 | 男人操美女网站 |