智能數字化文檔掃描加工系統   廣東省檔案局科技項目

試用申請

一、前言

    紙質文檔的數字化加工在各個行業已經廣泛應用,越來越多的用戶把大批量的紙質文檔進行數字化掃描加工,以便保存和利用。但目前的現狀是數字化加工的質量參差不齊,有的單位掃描加工的文件圖像質量令人堪憂。雖然目前掃描儀的種類越來越多,掃描速度越來越快,但用於紙質文檔數字化加工的專用工具軟件卻難以尋覓。《智能數字化文檔掃描加工系統》針對文件、檔案管理工作的特點,通過集合圖像處理、OCR等多項自動化智能技術,實現處理掃描圖像自動糾偏、除黑邊、去汙等處理,實現掃描文件自動命名與裝訂,生成多頁TIF文件,通過OCR識別技術實現電子文件元數據半自動獲取,在大幅度提高掃描加工的工作效率的同時,可以完成電子文件元數據的獲取工作,並在保證掃描圖像文件質量前提下,以最低的容量存儲文件。

二、產品優勢

    既可連接掃描儀對直接掃描進來的圖像文件進行加工處理,也可對已存在的目錄中的圖像文件進行加工處理。

三、適用範圍

    ●數字化掃描加工企業;

    ●需要利用掃描儀進行紙質文檔掃描加工和OCR處理的機關、企事業單位。

四、系統主界面

五、自動流水線功能介紹

    1、掃描加工流水線界面

    2、目錄加工流水線界面

    3、流水線功能

      ①自動掃描與目錄圖象屬性加工設置(見紅框1);

      ②自動傾斜較正/去黑邊/去白頁/加粗/A3切割為A4(見紅框2);

      ③前置處理設置:去斑、亮度/對比度、顏色通道設置(見紅框3);

      ④自動文件命名(見紅框4);

      ⑤自動裝訂(將多個單頁TIF文件合並為1個多頁TIF文件),支持固定頁分割、白頁分割、標志按鈕分割(見紅框5);

      ⑥自動JPG輸出質量設置(見紅框6);

      ⑦自動掃描頁計數(見主界面掃描計數器),目錄中文件與頁數自動統計(見紅框7)。

六、其它系統功能

    1、任意“快捷鍵”自定義功能;

    2、自動批量重命名;

    3、圖象文件屬性標志顯示,屬性標志分為黑白、灰度、16色、256色、真彩;無須逐一打開圖象文件,就可知道圖象的屬性,便於對文檔的處理;

    4、任意圖象文件裝訂(將多個單頁TIF文件合並為1個多頁TIF文件)和拆解(將1個多頁TIF文件分為多個單頁TIF文件);

    5、任意圖象文件屬性(顏色、分辨率、大小)改變;

    6、圖象拼接功能:可將多個圖象文件拼接為一個更大的圖象文件,例如將2個A4圖象拼接為1個A3圖象;

    7、使用調色板改變顏色;

    8、插入電子印章;設置和插入檔號章;

    9、編輯和插入背景水印,水印可以是文字,也可以是圖片;

    10、頁排序:對目錄中有頁碼的圖象可自動進行排序;

    11、背面影像:如果掃描時背面影像更清晰,可以將其變為正面;

    12、手工和批量補插頁碼;

    13、元數據:元數據分為“基本元數據”和“真實性元數據”,系統自動建立“真實性元數據”,包括:圖象文件生成時間,文件大小,總頁數,可用於對圖象文件的真實性檢測;還可半自動建立“基本元數據”,輸出的“基本元數據”格式為TXT、XML、INI,可根據需要自行設定;

    14、OCR識別功能:支持對簡體、繁體、英文及中英混合識別;支持對橫排、豎排的識別;支持局部識別、全文識別、表格識別、版面複原識別;支持對彩色文檔的識別。

七、圖象處理與加工功能

    ●大鏡:局部放大鏡功能,可設置放大倍數;

    ●放大:逐級放大圖象;

    ●縮小:逐級縮小圖象;

    ●橡皮:橡皮檫功能;

    ●清除:清除鼠標拉框內的內容;

    ●去色:去掉某個顏色,支持成批處理;

    ●去斑:去掉頁面中的斑點,支持成批處理;

    ●漂白:將彩色圖象轉變為黑白圖象,支持成批處理;

    ●區漂:支持局部漂白功能,即是將鼠標拉框內的局部彩色圖象轉變為黑白圖象;

    ●亮度/對比度:亮度與對比度調整,支持成批處理;

    ●自校:自動傾斜較正(20度以內),支持成批處理;

    ●手校:手動傾斜較正,支持任意角度;

    ●黑邊:自動去黑邊與自動傾斜較正,支持成批處理;

    ●切分:將1個大的圖象文件切為2個小的圖象文件,比如1個A3圖象切為2個A4圖象,支持成批處理;

    ●剪裁:裁剪鼠標拉框內或外的內容,支持成批處理;

    ●移動:移動鼠標拉框內的內容到其它位置;

    ●加粗:加粗圖象中的字符,支持成批處理;

    ●平滑:平滑圖象中的字符,支持成批處理;

    ●居中:將圖象居中,支持成批處理;

    ●撤消:撤消最近一次的操作;

    ●左旋:向左旋轉90度;

    ●右旋:向右旋轉90度;

    ●翻轉:旋轉180度;

    ●旋轉:按設定角度旋轉。

八、圖像處理工作流

    如上所述,系統具有很多的圖像處理功能,你還可以按照自己的需要,將它們組織成一個工作流,操作時系統將按照工作流順序自動運行,以簡化操作。見下圖:

九、系統特點

    1、具有智能、自動、成批處理能力 “自動流水線”和“工作流”功能,可定義要自動執行的流水線工作模式,如:圖象屬性、自動傾斜較正/除黑邊、自動批量文件命名、自動裝釘等等;也可將各種圖像處理功能組織成工作流,讓系統按照你定義的流水線模式和工作流進行自動運行,實現高度智能化。

    2、與人工處理的比較優勢

      ●強大的圖像處理和加工能力,使掃描的圖像質量得到穩定可靠的保證;

      ●一套該軟件可取代一條掃描加工的人工流水線(由3至4人減為1人),而且除了大大減輕錄入人員的勞動強度外,還可大大提高工作效率至少20倍以上;

      ●配合“數據庫掛接”軟件可實現從掃描端到數據終端全流程的全自動化操作;

      ●獲得最小的掃描圖像文件;

      ●在掃描加工的實踐中,遇到個別紙質比較箔時,往往會出現掃描出來後正面的圖像反而沒有背影的圖像清晰,這時可以利用系統中的“翻轉”功能,利用“水平翻轉”功能將背影的圖像轉變為正面的圖像。

十、選件

    1、OCR識別集中校驗模塊除了系統已提供的OCR識別(在全文識別時提供)圖文比對校驗(橫向校驗)功能外,如果使用本模塊,還可對OCR識別結果進行集中式的校對(縱向校驗),即:無論識別多少頁圖檔,只需校驗一次,除了可確保數據的百分百正確外,還大大提高了校驗的工作效率,使得每人每天正確錄入20萬字不再空談。

    2、雙層PDF自動生成模塊 隨著PDF格式成為國際標准後,有些企事業單位要求將掃描加工輸出為PDF文件格式。本模塊具有:①目錄監視功能、②自動OCR功能,③PDF生成功能。可以對指定目錄進行監視,發現有TIFF文件時,自動進行OCR識別,並生成雙層結構的PDF文件(圖層和文本層),該PDF文件具有全文檢索定位(字符級定位)功能。

十一、接口標准

    系統支持TWIN標准的所有高速或平板掃描儀。

十二、使用環境

    操作系統:Windows 2000 / XP /Vista /中文簡體版/中文繁體版 支持軟件:Microsoft Office 2000/2003/Xp(中文版) WPS Office 2005

十三、系統說明

    本系統由廣東省檔案局科教處和廣東清華文通科技有限公司聯合開發。軟件包括三大部分:①圖像的掃描/處理/加工;②流水線/工作流;③OCR功能。分別對應軟件的三個版本:普通版(圖像的掃描/處理/加工)、高級版(圖像的掃描/處理/加工與流水線/工作流)、完全版(圖像的掃描/處理/加工與流水線/工作流與OCR功能)。並可向軟件開發商提供二次開發接口。

     

   
地址:廣州市天河區天河東路14號 電話:86-020-87535501 

版權所有 廣東清華文通科技有限公司