首頁   公司   开发   加工   市场   咨询   下载   我们   客户中心   友好链接  
产品目录
图书文件档案数字化建设与管理平台

一、开发背景

图书、文件、档案经过数字化加工,使传统载体的信息成为电子文件、电子档案等数字信息,数字信息具有传统载体信息无可比拟的优势,可以通过网络提供远程利用,快捷方便;可以纳入OA等信息管理系统进行处理,文本型数字信息更可以进行检索,准确、迅速的查询到需要的信息内容。

然而,面对大量的图书、文件、档案以及还在不断收到的纸质文件,如何使这些锁固在纸张上的静态信息,成为可以实时利用、处理的数字信息是许多单位的难题。数字化加工不仅投资大而且需要投入相当的人力物力,而且加工的数字图书、文件、档案要做到图像质量高且存储容量小,同时配套相应的数字化检索管理平台,这些都需要较高的技术含量和一定的技术技巧。

二、系统概述

“图书文件档案数字化建设与管理平台”可以很方便的解决以上这些问题,很小的人、财、物投入就可自行数字化加工,优质高效的制作数字文件及档案。更勿需额外投资,直接利用“图书文件档案数字化建设与管理平台”的查询检索和管理模块,图书文件档案数字化建设与管理中的一切问题便迎刃而解。

“图书文件档案数字化建设与管理平台”是综合利用扫描技术、图像处理技术、图像压缩技术、文档处理技术、OCR识别技术、PDF文件生成技术、数据检索技术、数据库技术、网络与互联网技术等多门学科技术,针对图书馆室及机关事业单位量身定做的一套图书文件档案数字化建设与管理平台。该平台涵盖从纸质文件的扫描录入、图像加工处理、元数据标引、版面分级管理、电子文件图文生成、双层PDF文件生成、数据审核、文件发布、文件下架、元数据查询、全文检索、用户管理、角色管理、密码管理、库表分类、安全设置、统计分析、浏览阅读等功能模块,并使之整合于同一平台。

三、平台框架结构

四、平台工作流程

五、平台功能结构

六、平台结构说明

1、平台架构

“图书文件档案数字化建设与管理平台”采用C/S和B/S混合结构,其中“扫描加工工作站”、“文件元数据标引模块”、“版面分级管理定义模块”、“电子文件图文生产车间”、“数据审核”、“文件发布与下架”等数字化建设部分采用C/S结构。“文件元数据查询”、“文件全文检索”、“系统管理”、“资源管理”等电子文件管理部分采用B/S结构。通过Web服务器,单位局部网内桌面终端无需安装任何软件即可实现对图像文件的元数据查询、全文检索(可定位到页面字符级)及浏览阅读,还可下载为PDF格式来阅读,但如果使用PDF格式来阅读文件时,需下载安装一个PDF阅读器。当数据量不是很大或从节省投资考虑时,也可将Web服务器、图像文件服务器、索引文件服务器安装在同一台物理服务器上。

2、平台服务器

平台配置有三个类型的服务器,分别是Web服务器、图像文件服务器、索引文件服务器,其作用说明如下:

●Web服务器:提供IIS 的Web服务安装,以实现单位局部网内桌面终端可以Web浏览器方式对电子文件的查询检索和浏览阅读。

●图像文件服务器:提供对扫描源图像文件Tif和双层PDF文件的存储和管理。

●索引文件服务器:提供对源图像文件Tif的元数据和全文本索引信息的存储和管理,实现以元数据方式或全文检索方式来查询电子文件。

3、平台文件格式

●归档保存:Tif文件

●阅读:在线阅读:Tif文件

下载阅读:双层PDF文件

4、平台应用环境

●服务器

操作平台:Windows Server 2000及以上/IIS/.NET Framework 2.0

数据平台:Windows SQL Server 2000及以上

●桌面查询检索终端:

操作平台:Windows 2000/XP/Vista

浏览软件:IE 6.0及以上

●扫描加工工作站接口:

TWAIN标准高速或平板扫描仪


七、图书文件数字化建设平台

1、扫描加工工作站

软件用来将纸质图书、文件、档案加工为图像型电子文件,并对电子文件提供各种图像处理,比如:倾斜校正、去斑、自动文件命名、裁边等等,以确保电子文件的质量。界面见下图所示:

主要功能:

(1)支持Twain标准各种扫描仪;既可连接扫描仪对直接扫描进来的图象文件进行加工处理,也可对已存在的目录中的图象文件进行加工处理。

(2)自动扫描文件命名;自动装订(将多个单页TIF文件合并为1个多页TIF文件);自动文件分割(支持固定页分割、白页分割、标志按钮分割等);自动扫描页计数等等。

(3)图象属性改变,如:真彩→256→16色→灰度→黑白,300dpi→200dpi;可使用调色板改变字体颜色;可将多个图象文件拼接为一个更大的图象文件,例如将2个A4图象拼接为1个A3图象等等。

(4)任意“快捷键”自定义功能;设置和插入档号章、公章;编辑和插入背景水印,水印可以是文字,也可以是图片;对目录中有页码的图像可自动进行排序;如果扫描时背面影像更清晰,可以将其变为正面等等。

(5)其它各种图像处理功能,如:亮度/对比度、自动/手动倾斜较正、去斑、去色、全部/区域漂白、去黑边、橡皮搽、清除、放大、缩小、切分、剪裁、移动、加粗、平滑、居中、旋转等等。

2、元数据标引模块

该模块用于设定文件元数据集,并以半自动方式(鼠标拉框,无需从键盘输入任何字符)建立文件元数据,并对文件设置保密级别,该级别分为“公开”和“1-9级”,对应阅读者的相应权限级别,如果阅读者的级别为9级,将可阅读所有文件。见下图所示:

3、版面分级管理定义模块

该模块支持在文件的页面中按区域(使用鼠标拉框方式确定)设定保密控制级别, 例如:将文件某页面上半部设为8级,下半部设为9级,当阅读者的级别为8级时,其阅读时只能看到文件中该页面上半部分的内容,同一页面可支持最多分9级设置,该模块可用于对敏感文件的管理控制,增强系统保密性。见下图所示:

4、电子文件图文生产车间

软件用来将图像文件生成全文本文件,并建立全文检索信息及字符的位置信息,生成相应的索引信息表,以提供对文件的全文检索及对文件内容的利用,还可设置输出为双层PDF文件,以提供PDF方式的下载阅读。软件支持“自动加工”工序,即:可设置实时异步监控指定的目录,当发现目录中有文件时即自动转换,也可对指定目录设定自动转换的时间,系统将按设定的时间自动操作,无需人工干予。系统还可对“自动加工”后质量不好的图档给出提示,质量不好的图档可转入第1—6道工序进行手工处理。对于输出质量要求特别高时,也可直接使用手工处理(1—6道工序),以确保获得高质量的文本文件或双层PDF文件。对于有目录的文件档案,可以半自动方式(鼠标拉框,无须从键盘敲入任何字符)建立目录书签。生成的双层PDF文件还可设置密码和权限(如:不能拷贝、不能打印)。系统主界面栏目如下图所示:

主要功能:

(1)第0道工序:自动加工

可实时异步监控指定的目录,当发现目录中有文件时即自动转换;也可对指定目录设定自动转换的时间,系统将按设定的时间自动操作,无需人工干予,还可对自动加工输出的文件设置密码和权限。图界面:

(2)第1道工序:倾斜校正

该工序读入指定目录文件,批量旋转、批量自动倾斜校正、支持对页面的直接手动倾斜校正。见下图界面:

(3)第2道工序:阀值调整

该工序读入指定目录文件,批量自动阀值调整、支持对选中页面的手动阀值调整。见下图界面:

(4)第3道工序:版面分析

该工序读入指定目录文件,批量自动版面分析、支持对选中页面的手动版面分析。见下图界面:

(5)第4道工序:文字识别

该工序读入指定目录文件,批量自动文字识别、支持对中文繁体、中文简体、英文的识别。见下图界面:

(6)第5道工序:集中校对

该工序读入指定目录文件,对文字识别结果进行集中式的校对(纵向校验),即:将相同的文字集中在一起批量改错,对错一目了然,无论识别多少页图档,只需校验一次。除了支持“纵向校对”外,系统还支持“横向校对”(即:全文的图文比对),这样除了可确保数据的准确性外,还大大提高了校验的工作效率。见下图界面:

(7)第6道工序:输出文件(文本文件或双层PDF文件)

该工序读入指定目录文件,批量自动生成文本文件或双层的PDF文件,还可对输出的双层PDF文件设置密码与权限(如:不能复制、不能打印、凭密码打开等)。见下图:

(8)增强工序:建立书签

该工序对于有目录的图书文件或档案,可以半自动方式(鼠标拉框,无须从键盘敲入任何字符)建立目录书签,以方便阅读。建立书签可在第6道工序前的任何一道工序的前或后建立,见下图所示:

5、数据审核模块

该模块用于将已上传的文件统一汇总排列进行审核,错误的元数据标引也可在这里进行修改,并对不合格的文件资料予以删除,对合格的文件资料打上已审核的标志

6、文件发布与下架

将已通过数据审核模块审核合格的图文文件和双层PDF文件分别上传到图文服务器和Web服务器。文件下架提供对选择的文件进行下架处理,支持批量移库,批量删除,整库删除。见下图所示:

7、双层PDF文件特点

系统支持在电子文件图文生产时可生成双层PDF文件,以提供下载阅读。PDF文件格式已成为国际标准,越来越多的行业和单位正在使用它。其特点是具有多层结构,包括图层和文字层,而且其图文位置上下一一相对应,这样,既可以100%保留原始版面效果,又可以通过下层的文字信息支持选择、复制、全文检索等功能。因此,双层PDF文件同时兼顾视觉效果和信息利用,极大地方便了对电子文件的管理。

八、Web查询检索与管理平台

系统提供单位局部网内桌面终端以Web方式查询检索和浏览阅读所需要的图像电子文件。既提供以元数据方式查询及在线阅读,支持模糊查找方式,也提供全文检索及在线阅读,全文检索时支持定位到页面的字符位置。其Web界面如下图所示:

1、查询检索与浏览阅读

系统既支持使用元数据的查询方式,也支持全文检索的查询方式(可定位到页面字符级)。元数据查询项由用户根据类别需要自行定义,例如文件类:文件编号、发文时间、文件标题、主题词、发文单位、密级等。也可对文件内容使用全文检索的查询方式,对于10万页的图像文件库,检索时间在1秒钟以内,但对于100万页的图像文件库,检索时间大概需要15秒左右。系统支持以tif格式在线方式、以pdf格式下载方式浏览阅读查找到的图像文件,如果以pdf格式阅读电子文件,需要在桌面安装一个pdf阅读器。当以全文检索方式进行图像文件检索时,系统将列出检索到的所有文件、页面、并直接定位到页面中的字符级,例如:使用全文检索来查找内容有“科技”二个字的图像文件时,在界面中的左边将列出查找到的含有“科技”二个字的全部十多个文件,点击进入其中的某个文件时,将列出含有“科技”二个字的所有页数,进入某一页时,系统将用红色方框标出内容含有“科技”二字的位置。也可采用pdf方式来阅读文件,下图是采用pdf阅读器来阅读一个双层pdf文件,该阅读器可以仿照人的习惯用鼠标进行翻页。双层pdf格式支持对文件内容的利用。

2、系统管理

系统管理包括“角色管理”、“用户管理”和“密码管理”,为了保证数据的安全性,需要对用户的访问和操作进行权限和角色的控制。

●角色管理:可定义使用系统的人员角色,比如:系统管理员、扫描加工人员、元数据标引人员、数据审核人员、文件发布与下架人员、系统访问者等等,并对每种角色的权限分门别类进行定义,比如:扫描加工操作员拥有文件扫描加工和文件整理(含:元数据标引、图文电子文件和双层PDF生产加工)的操作权限,系统管理员拥有对录入文件的审核、发布、下架等操作权限,系统访问者拥有按级别浏览文件的权限等等。

●用户管理:用户除了受角色控制外,还分为9级权限,对应文件的9级控制级别(由系统管理员设定),如某用户被授权为9级权限时,可以查看所有文件,授权为8级权限时,可以查看文件控制级别除9级外所有文档,以此类推。

●密码管理:提供对用户名和密码的加密控制,数据库中的用户名和密码是无法直接看到的,支持用户随时变更自己的密码。

3、资源管理

资源管理包括“分类定义”、“IP设置”、“分析统计”。“分类定义”提供用户可根据自己的需要自行设置库表的树状分类结构,比如:“文件、档案”,“文件”下面再分“上级文件、本级文件”,“上级文件”下面再分“中央文件、省文件”等;“IP设置”提供对平台使用范围限制的IP设置,以提高系统安全性;“分析统计”提供对文件的分析统计,如:时间段内入库文件数量、时间段内下架文件数量、某文件阅读次数、某文件下载次数、某用户阅读文件数量等管理功能。

九、图书文件档案数字化管理平台特点

1、涵盖从纸质文件的扫描录入、图像加工处理、建立元数据、图文生产和双层PDF文件生成、数据审核、文件发布与下架、元数据查询、全文检索、系统管理、资源管理、文件浏览阅读的数字化建设与管理的全面解决方案;

2、该平台适应面广,数据可大可少,既可用于党政机关,也可用于图各类企事业单位,既可作独立应用的文件档案管理平台,也可与OA等各种信息系统整合应用;

3、强大的图像处理和加工能力,使电子文件的图像质量得到稳定可靠的保证;并在保证质量前提下可获得最小的扫描图像电子文件;

4、可以半自动方式(鼠标拉框,无须从键盘敲入文字)建立文件元数据和文件目录书签,并以全自动方式建立全文检索的索引信息;

5、图文电子文件和双层PDF文件加工工序设计完整,既支持自动加工处理,也支持六道工序的人工处理;先进的“纵向校对”和“横向校对”相结合的OCR混合校对方式,既保证了快速,又保证了精确;

6、图文加工时可全界面显示缩略图,并直接对缩略图进行各种处理操作,如:倾斜校正、阀值调整、版面分析等,缩略图大小可自行调整,以便容纳显示更多的图档,大大提高加工效率;

7、实用高效的全文检索算法,支持以全文检索方式查询图像电子文件,全文检索时可支持页面字符级定位;

8、可提供模块或系统的外部接口,方便与其它系统整合。

十.平台应用环境

●服务器

操作平台:Windows Server 2000及以上/IIS/.NET Framework 2.0

数据平台:Windows SQL Server 2000及以上

●桌面查询检索终端:

操作平台:Windows 2000/XP/Vista

浏览软件:IE 6.0及以上

●扫描加工工作站接口:

TWAIN标准高速或平板扫描仪

中国OCR技术应用网 版权所有:广东清华文通科技有限公司
备案序号:粤ICP备05099948号
业务咨询: 业务咨询