《電子技術(shù)應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 設計應用 > 基于BERT-CNN的新聞文本分類的知識蒸餾方法研究
基于BERT-CNN的新聞文本分類的知識蒸餾方法研究
2023年電子技術(shù)應用第1期
葉榕,邵劍飛,張小為,邵建龍
昆明理工大學 信息工程與自動化學院,云南 昆明 650500
摘要: 近年來,隨著大數(shù)據(jù)時代進入人類的生活之后,人們的生活中出現(xiàn)很多無法識別的文本、語義等其他數(shù)據(jù),這些數(shù)據(jù)的量十分龐大,語義也錯綜復雜,這使得分類任務更加困難。如何讓計算機對這些信息進行準確的分類,已成為當前研究的重要任務。在此過程中,中文新聞文本分類成為這個領(lǐng)域的一個分支,這對國家輿論的控制、用戶日常行為了解、用戶未來言行的預判都有著至關(guān)重要的作用。針對新聞文本分類模型參數(shù)量多和訓練時間過長的不足,在最大限度保留模型性能的情況下壓縮訓練時間,力求二者折中,故提出基于BERT-CNN的知識蒸餾。根據(jù)模型壓縮的技術(shù)特點,將BERT作為教師模型,CNN作為學生模型,先將BERT進行預訓練后再讓學生模型泛化教師模型的能力。實驗結(jié)果表明,在模型性能損失約2.09%的情況下,模型參數(shù)量壓縮約為原來的1/82,且時間縮短約為原來的1/670。
關(guān)鍵詞: 新聞文本 BERT CNN 知識蒸餾
中圖分類號:TP391.1
文獻標志碼:A
DOI: 10.16157/j.issn.0258-7998.223094
中文引用格式: 葉榕,邵劍飛,張小為,等. 基于BERT-CNN的新聞文本分類的知識蒸餾方法研究[J]. 電子技術(shù)應用,2023,49(1):8-13.
英文引用格式: Ye Rong,Shao Jianfei,Zhang Xiaowei,et al. Knowledge distillation of news text classification based on BERT-CNN[J]. Application of Electronic Technique,2023,49(1):8-13.
Knowledge distillation of news text classification based on BERT-CNN
Ye Rong,Shao Jianfei,Zhang Xiaowei,Shao Jianlong
School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China
Abstract: In recent years, after the era of big data has entered human life, many unrecognizable text, semantic and other data have appeared in people's lives, which are very large in volume and intricate in semantics, which makes the classification task more difficult. How to make computers classify this information accurately has become an important task of current research. In this process, Chinese news text classification has become a branch in this field, which has a crucial role in the control of national public opinion, the understanding of users' daily behavior, and the prediction of users' future speech and behavior. In view of the shortage of news text classification models with large number of parameters and long training time, the BERT-CNN based knowledge distillation is proposed to compress the training time while maximizing the model performance and striving for a compromise between the two. According to the technical characteristics of model compression, BERT is used as the teacher model and CNN is used as the student model, and BERT is pre-trained first before allowing the student model to generalize the capability of the teacher model. The experimental results show that the model parametric number compression is about 1/82 and the time reduction is about 1/670 with the model performance loss of about 2.09%.
Key words : news text;BERT;CNN;knowledge distillation

0 引言

    隨著大數(shù)據(jù)時代的到來,今日頭條、新浪微博和豆瓣等主流新聞媒體APP產(chǎn)生海量新聞文本,因此如何將這些新聞文本進行快速有效的分類對于用戶體驗乃至國家網(wǎng)絡輿情控制是十分必要的。針對中文新聞文本分類任務,研究者提出許多分類算法和訓練模型,證明深度學習分類方法的有效性。

    以BERT[1](Bidirectional Encoder Representation from Transformers)預訓練模型為例:在文獻[2]的實驗中可以得出,BERT-CNN模型取得的效果最佳,但是從工程落地的角度來說,模型參數(shù)量過于巨大,僅僅一個BERT模型,參數(shù)就達一億多。本文使用的是谷歌開源的面向中文的BERT預訓練模型,占用內(nèi)存大小為325 Mb。另一方面,針對訓練時間過長的缺點,以該實驗為例,訓練18萬條新聞文本數(shù)據(jù)消耗的時間為3.5 h,很顯然對于未來的模型工程落地還存在很大的差距。因此,本文在保證不下降過多模型的準確率的前提下,將BERT-CNN進行模型壓縮,降低模型體積以及模型的訓練時間,提升模型的泛化能力。

    本文創(chuàng)新點主要體現(xiàn)在:(1)對實驗數(shù)據(jù)集進行了擴充處理,提升模型泛化能力;(2)通過觀察不同的T和α的組合對模型蒸餾性能的影響確定最優(yōu)組合值而不是固定值;(3)蒸餾場景不再局限于傳統(tǒng)情感分析(二分類),本實驗面向10分類的文本分析,不同標簽文本的蒸餾性能也不盡相同。




本文詳細內(nèi)容請下載:http://www.rjjo.cn/resource/share/2000005068




作者信息:

葉榕,邵劍飛,張小為,邵建龍

(昆明理工大學 信息工程與自動化學院,云南 昆明 650500)




wd.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 成人国产在线视频 | 亚洲区精品久久一区二区三区 | 一级做a爰片性色毛片中国 一级做a爰性色毛片 | 天天五月天丁香婷婷深爱综合 | 亚洲高清视频在线观看 | 免费在线观看a级毛片 | 女bbbbxxxx毛片视频0 | 色内内免费视频播放 | 韩国美女爽快一级毛片黄 | 国产精品久久久久影视不卡 | 欧美在线一区二区三区 | 久久久久久久国产a∨ | 欧美巨乳在线 | 99视频在线精品免费观看18 | 久久久久久久国产精品 | 国产一区成人 | 岛国大片在线播放高清 | m男亚洲一区中文字幕 | 国产精品一区二区三区四区五区 | 免费公开视频人人人人人人人 | 日本又黄又爽又免费 | 深夜福利网站在线观看 | 国产国语对白一级毛片 | 美国一级片免费看 | 欧美精品一区二区三区免费 | 26uuu天天夜夜综合 | 国产精品视频一区二区猎奇 | 一区二区三区久久精品 | 亚洲国产另类久久久精品小说 | 国产亚洲精品激情一区二区三区 | 看一级特黄a大片日本片 | 热热涩热热狠狠色香蕉综合 | 成人一级毛片 | 一级毛片大全 | 久久99国产综合精品 | 男女男精品视频网站 | 国产精品吹潮在线播放 | 深夜福利视频在线观看免费视频 | 手机看片日本 | 一级做性色a爰片久久毛片免费 | a级毛片免费高清毛片视频 a级毛片免费高清视频 |