中文引用格式: 萬成凱,李居朋. 基于改進CenterNet的發(fā)票檢測算法[J]. 電子技術應用,2025,51(6):71-78.
英文引用格式: Wan Chengkai,Li Jupeng. Detection algorithm for invoice based on improved CenterNet[J]. Application of Electronic Technique,2025,51(6):71-78.
引言
隨著社會的不斷發(fā)展,大量發(fā)票的錄入和歸檔,對于財務人員是相當繁重的工作。在以往的工作中,財務人員往往采用手工錄入的方式,這種錄入方式不但效率低下,而且常常因為工作人員的疲勞產(chǎn)生錯誤而造成損失。隨著圖像處理與深度學習技術的興起,越來越多的研究人員開始研究基于數(shù)字圖像技術的發(fā)票自動識別算法[1-2]。
基于數(shù)字圖像技術的發(fā)票自動識別通常包括發(fā)票檢測、發(fā)票信息區(qū)定位、字符定位、字符識別等步驟。其中首要的步驟就是發(fā)票檢測。發(fā)票檢測是檢測出一張圖像中是否存在發(fā)票,并對每張存在的發(fā)票進行精確定位。由于在實際的財務歸檔工作中發(fā)票的朝向往往上下左右各不相同,因此發(fā)票檢測不但要檢測出發(fā)票的類型、位置,還要同時檢測出發(fā)票的朝向。
目前基于深度學習的目標檢測方法可以分為one-stage和two-stage方法兩類。two-stage的方法如Faster R-CNN[3]。這類檢測方法整個檢測過程分為兩個階段。在第一個階段,算法需要找到一些可能的目標存在區(qū)域;在第二個階段,算法在這可能的區(qū)域上進行分類和位置回歸。這類方法檢測精度高,但運行速度通常會比較慢,難以滿足實時檢測的需求。
one-stage的方法如YOLO系列[4-8]、SSD[9]等。這類檢測方法是一個端到端的檢測過程,它可以直接回歸出物體的類別和位置。該類方法過程簡潔、檢測速度快,目前已被廣泛應用于各種目標檢測任務當中,但其準確性仍有待提高。
YOLO系列、SSD等檢測方法均屬于基于錨點(anchor)的方法,需要事先統(tǒng)計anchor尺寸和比例等先驗知識,而且在計算過程中,會計算大量無用的候選框。雖然算法后期可以通過非極大值抑制等方法去除多余的候選框,但會帶來計算開銷的增加。以CenterNet[10]為代表的無anchor檢測方法克服了基于anchor方法的缺點,可以直接對目標中心點和尺寸進行預測。
本文結合YOLOv5的主干網(wǎng)絡和CenterNet各自的優(yōu)點,提出了一種改進的CenterNet發(fā)票檢測算法。算法模型采用參考了CSPDarkNet的主干網(wǎng)絡,引入了注意力機制,并且采用新的輸出結構和損失函數(shù),可以端到端地檢測出發(fā)票的分類、位置和朝向。
本文詳細內(nèi)容請下載:
http://www.rjjo.cn/resource/share/2000006565
作者信息:
萬成凱1,李居朋2
(1.北京世紀瑞爾技術股份有限公司 北京 100085;
2.北京交通大學 電子信息工程學院,北京 100044)