【1】Shi B, Wang X, Lv P, et al. Robust Scene Text Recognition with Automatic Rectification[J]. arXiv preprint arXiv:1603.03915, 2016.
上圖即為本篇論文的系統(tǒng)框架:包括 Spatial Transformer Network (STN ) 和 Sequence Recognition Network (SRN ) 兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。其中, STN 通過(guò) Thin-Plate-Spline 變換,能夠?qū)⑼干渥儞Q或曲折的文本圖片對(duì)齊到1個(gè)正規(guī)的、更容易讀的圖片;SRN 能夠直接將輸入的文本圖片辨認(rèn)為1個(gè)文本序列。
這個(gè)系統(tǒng)是1個(gè)端到真?zhèn)€文本辨認(rèn)系統(tǒng),在訓(xùn)練進(jìn)程中也不需要額外標(biāo)記字符串的關(guān)鍵點(diǎn)、字符位置等。同時(shí),由于 STN 和 SRN 這兩個(gè)網(wǎng)絡(luò)的共同作用,該系統(tǒng)在自然場(chǎng)景的文本辨認(rèn)方面獲得了 state-of-the-art 的結(jié)果,特別是對(duì)那些有著各種形變的字符圖片。