|
TH-OCR2005錄入工廠
隨著電腦網路的飛速發展,許多資訊已經電子化,文字是資訊最重要、最集中的載體,實現文字的電子化,OCR技術是其中最重要的環節。世界各地出現了許多“電子版”的報紙、雜誌等出版物。但是我們可以看到印刷材料的數量也大大地增加了,一些專業單位如新聞社、圖書館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,面對大量的紙介質資訊,用什麼工具或者通過何種手段將所有資訊輸入電腦?
把漢字輸入到電腦裏一般有兩種方法:人工鍵入和自動輸入。使用OCR文字識別技術,能大大提高文字的自動化錄入速度。清華文通資訊技術有限公司作為一家擁有自主知識產權,以清華光學字元識別TH-OCR及手寫識別兩大核心技術為先導的獨立軟體發展商和行業解決方案提供商。一直致力於文字識別技術的發展,依託清華大學的技術後盾,沉澱積累了卓越的識別技術,為我國的資訊化建設做出了巨大貢獻。
TH-OCR2005錄入工廠能做到:
1、實現電腦自動電子化處理——系統能夠實現對圖像資源的動態監視,即時自動進行資料轉換
2、 保證每人每天能夠錄入10萬字——具有超大字元集(2萬多漢字)的識別核心,使識別率更高,減少校對工作量
3、 檔錯誤率降到萬分之三以下——特有的校對工具,在2小時之內可以實現20萬漢字的校對
4、 得到高保真全息數位化檔——獨有的恢復版面工具,可以恢復原圖像的任何一點細節,使資訊得到最完整的保留
5、 支援A0幅面圖像的識別——系統附加的版面拼接功能,在沒有大幅面掃描器的情況下,依然可以獲得大幅面圖像
6、 節約成本,一套搞定——只需購買一套,就可以保證每個同事都能使用,不必重複購買
7、
可以生成任何需要的格式——系統除去可以生成HTML、RTF、TXT和PDF等這些常規格式檔外,還提供一個JDA中間格式檔,支援轉換其他專有格式列印。
TH-OCR2005錄入工廠型號:
運行版、增強版、網路版
TH-OCR2005典型用戶:
中國國家圖書館
中國期刊網
青蘋果資料公司
中海石油渤海分公司
國家安全部九局
清華大學圖書館
上海交大圖書館
天津南開大學圖書館
TH-OCR2005錄入工廠的構成:
1、識別模組:
具有超強的識別核心,可以識別簡、繁體漢字2萬多,識別的語言包括中文簡、繁體、英文、日文、韓文,自動版面分析能力大大增強,最大限度減少手工操作量。
2、縱向校對模組:
A、可以將成百上千張圖像一起校對;
B、將識別成同一個字的圖像塊集中在一個視窗內,這樣很容易查錯,操作者不會陷入到具體的語言環境中;
C、視窗的尺寸是根據人機距離以及人的眼距來設定的,這樣可以使操作者“一目了然”,避免眼疲勞
3、版面恢復模組:
通過版面恢復編輯器,可以將原始圖像的所有資訊恢復過來。比如:字體、顏色、花邊等。
4、自動處理模組:
可以實現圖像檔到PDF檔的自動轉換,生成的PDF檔能夠實現全文檢索,可以複製粘貼;也可以對某個指定目錄進行長期監視,真正實現無人操作。
5、版面拼接模組:
確保在沒有大幅面掃描器的情況下仍然可以獲得大幅面圖像。
6、HTML編輯器:
超值贈送HTML編輯器,對識別後導出的HTML檔進行排版編輯,得到較好的流覽效果。
7、自動轉換模組:
實現從圖像PDF檔中抽出圖像檔,保存為TIF檔,再對TIF檔進行識別處理。
|