文通互聯網圖片文字識別系統
1、 公司簡介
北京文通科技有限公司是享譽國內外的OCR(光學字符識別)技術生產商、文檔影像技術和應用解決方案提供商。在與清華大學的攜手合作過程中,文通科技成功地將"國家863計劃"項目成果――"文字圖像識別技術TH-OCR"產業化,真正實現了TH-OCR技術與市場應用的完美結合。
文通科技以TH-OCR和手寫識別技術為核心,研發出多項產品并提供多種行業解決方案,依靠完善的服務體系,拓寬了產品技術應用領域。目前,文通科技已經擁有跨平臺(包括Windows/Linux/Android/IOS及嵌入式平臺)的智能圖像處理、亞洲文字OCR、手寫識別、二維條碼識別等自有知識產權技術。公司業務深入至金融保險、智能交通、稅務、公共安全、政府等行業領域。
2、 行業背景
2.1、OCR技術由來已久
1929年,德國的科學家Tausheck首先提出了OCR的概念,并且申請了專利。幾年后,美國科學家Handel也提出了利用技術對文字進行識別的想法。但這種夢想直到計算機的誕生才變成了現實。OCR的意思就演變成為利用光學技術對文字和字符進行掃描識別,轉化成計算機內碼。
在60~70年代,世界各國相繼開始了OCR的研究,多以文字的識別方法研究為主,且識別的文字僅為0至9的數字。直至1965至1970年之間開始有一些簡單的產品,如印刷文字的郵政編碼識別系統,幫助郵局作區域分信的作業;也因此至今郵政編碼一直是各國所倡導的地址書寫方式。
2.2、漢字OCR技術發展迅速
對于漢字的識別最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy發表了第一篇關于印刷體漢字識別的論文,在這篇論文中他們利用簡單的模板匹配法識別了1,000個印刷體漢字。
我國OCR技術自70年代才開始對數字、英文字母及符號的識別進行研究。
同國外相比,我國的光學字符識別研究起步較晚。但由于我國政府對漢字自動識別輸入的研究從80年代開始給予了充分的重視和支持,經過科研人員十多年的辛勤努力,漢字識別技術的發展和應用有了長足進步:目前系統可以支持簡、繁體漢字的識別,解決了多體多字號混排文本的識別問題,對于簡單的版面可以進行有效的定量分析,同時漢字識別率已達到了98%以上。
2.3、OCR的“三級跳”
任何一項技術要從實驗室走向市場,都要實現技術、產品和應用的“三級跳”。對于OCR技術來說也是如此。正如上面所說的,OCR在中國經歷了幾十年的發展,技術和產品已經非常成熟了,其識別率也已經達到相當高的水平,而在應用方面,卻遠遠落后于歐美以及日本等國家。
從行業消費者的需求來看,電子政務、金融、保險、稅務、工商等行業用戶對信息識別的需求已越來越廣泛,由此大力促使了識別技術的大規模的應用。而個人消費者對資料電子化、手寫識別技術等需求拓展了OCR識別技術在這一領域的應用之路。
與此同時,網絡時代的特征也在影響著OCR應用市場的前進步伐,政府、公司、家庭、個人均是網絡時代的組成部分,因此,大家越來越重視信息安全方面的內容在網絡上傳播,政府也越來越重視網絡輿情領域對民眾的思想引導影響,在這樣的環境下,傳統的文字識別已經不能滿足當下的使用需求,互聯網圖片文字識別系統應運而生!
1、互聯網搜索公司:
手機拍攝圖片識別
一些互聯網搜索公司經常會遇到移動終端拍照的圖片文字提取的需求,這個時候就需要一項技術專門來提取這些信息,將結果傳輸回給用戶進行復用!這里面會包含各式各樣類型的圖片,識別的復雜程度非常高。
2、輿情監控公司:
長微博圖片識別,網頁截屏識別
由于目前中國經濟發展較好,國際上的一些潛在威脅慢慢的想國內蔓延,針對這種情況發展而起的輿情監控公司非常需要一套有力的技術手段,對非傳統的文字信息,也就是圖片來進行監測和控制,用以及時發現不良活動的苗頭,防患于未然。
通常輿情監控公司對網頁截圖的傳播,以及長微博的傳播,以及一些博客論壇的圖片傳播監控力度不夠,主要是針對圖片識別的技術一直較落后的原因使然。
所以互聯網圖片文字識別系統可以幫助輿情監控類的公司更高效的保護網絡意識的干凈環境,使謠言圖片等止于源頭。
3、信息安全公司:
掃描件識別、互聯網圖片識別、長微博識別,彩信圖片識別
1、識別算法
以下算法都是系統先自動計算,定位出文字位置,然后進行文字字符切分,最后進行文字字符識別的過程,差別就在于定位文字的方法,以及字符識別的算法!
(1) 普通互聯網圖像識別核心
在網上傳播的一些較簡單、類似文檔的圖片進行識別,提取出相應的文字內容,用于后端的系統集成;
(2) 復雜背景圖像識別核心
在網上傳播的一些較復雜、類似廣告、宣傳、推廣的海報類圖片進行識別,也包括一些后期加文字處理的照片識別,還包括用戶手機拍照或者制作的彩信圖片識別;這些圖片多半出現在論壇、博客等區域,或者通過互聯網,或者通過移動網絡進行傳播,帶有較強的引導讀者思路的影響;針對這些圖片進行文字提取,然后進行系統集成。
(3) 長微博圖像識別核心:這個目前使用
由于移動手持設備的大力發展,手機、平板的廣泛應用,很多文章都會被轉化成適合小寬度超長度的圖片,供移動終端設備查閱,由于其傳播載體太過廣泛,對讀者的思維滲透影響卓絕,勢必需要對立面的內容進行識別,然后集成到相應系統中甄別不良信息。
長微博識別核心可以針對長微博這種類型的圖片,進行特殊的版面分析方法,準確的進行文字定位,然后對每個字符進行切分識別;同時針對復雜背景以及一類特殊字體進行識別。
2、軟件功能
該技術是一個系統集成開發包,C語言所寫,具有豐富的接口,可以兼容目前市面上各種設計語言的環境接口;軟件演示程序會包括下列幾項設置:
(1) 選擇識別算法
根據應用場景的不同,可以預先選擇4種識別算法中的一種來提高工作效果:
(2) 識別語言選擇
目前系統支持純英語、漢語+英語、漢語,其中漢語包括簡體和繁體兩種。
少數民族語言:維吾爾文,哈薩克文(新疆),藏文,阿拉伯文,
(3) 顯示識別結果
對識別的結果顯示支持設置,包括字體、字號等內容
(4) 顯示定位區域識別結果
識別結果包括定位的區域和位置,方便用戶查閱識別的對象是否是所需要的內容。
(5) 支持的圖片格式
TIF、BMP、PNG、JPG、GIF
(6) 豎排文字識別
目前市面上的公司普遍服務器使用的是windows和linux 兩類系統,這兩類系統中又分為32位和64位;該開發包目前全兼容這兩種系統4個平臺
(1) Windows32和64位操作系統
(2) Linux32和64位操作系統
上一篇 移動互聯網時代讓你的人生重新啟動
下一篇 Linux的五個查找命令分析