勵志

勵志人生知識庫

ctpn模型

CTPN(Connectionist Text Proposal Network)是一種在自然圖像中檢測文本的算法,於2016年在ECCV上提出。CTPN結合了CNN(卷積神經網路)和LSTM(長短期記憶網路)的深度網路,能夠有效地檢測複雜場景中橫向分布的文本。它改進自Faster R-CNN,通過在卷積特徵映射中檢測一系列精細比例的文本建議中的文本行來進行文字檢測。CTPN使用垂直錨定機制,可以聯合預測每個固定寬度提案的位置和文本/非文本得分,從而大大提高了定位精度。

CTPN的主幹特徵提取網路採用VGG16的卷積部分,通過卷積不斷進行下採樣,下採樣的步長為16,以獲得VGG的conv5的特徵圖。後續的改進包括在conv5特徵圖上做3x3的滑動視窗以產生學習到的空間特徵,然後將特徵通過雙向LSTM網路以獲取上下文的編碼信息。最後,CTPN通過三個分支的預測網路輸出結果,包括垂直坐標、錨是前景還是背景的得分,以及水平方向上的側邊修正。

CTPN的主要創新點包括將文本行拆分為slice進行檢測,加入RNN以獲取文本的時序性信息,以及使用水平方向的切片框作為回歸目標。這些特點使得CTPN能夠在多尺度和多語言文本上可靠地工作,而不需要進一步的後處理。