当前各级档案馆面向社会公众开放档案以供查询利用,满足公众档案利用需求,最大化发挥档案价值已是大势所趋。《“十四五”全国档案事业发展规划》提出:“着力推动档案工作走向依法治理、走向开放、走向现代化”。2020年新修订的《档案法》要求:“县级以上各级档案馆的档案,应当自形成之日起满二十五年向社会开放。”
国家档案局第19号令《国家档案馆档案开放办法》第七条指出:“自形成之日起满二十五年的国家档案馆的档案,经开放审核后无需限制利用的应当及时向社会开放。经济、教育、科技、文化等类档案,经开放审核后可以提前向社会开放。”以上法规、政策为档案开放利用指明了方向。但受制于开放审核标准和程序不统一、不具体以及档案开放审核人员不足等因素,档案开放审核工作进展缓慢。
随着AI技术的迅猛发展,通过AI技术推动档案开放审核向前快速发展已成为现实。过往档案开放审核应用主要依赖于敏感词过滤、自然语言处理(NLP)等技术,存在迁移学习能力不强、适应面窄、语义分析能力弱等诸多技术问题,无法大幅降低合规遵循、隐私保护等风险,而采用基于定制化训练模型的档案开放审核系统能够很好解决以上问题。
除定制化训练模型之外,还需综合智能OCR识别、公章检测、公章OCR识别、图像识别、图像比对、语义识别、自然语言处理技术构建AI档案开放审核系统,可自定义审核规则,智能开展档案开放审核工作,可视化展现审核过程和结果,系统架构如下图所示:
基于神经网络、自然语言处理、深度学习等AI技术构建的SM文件智能筛查子系统,可自动分析非结构化电子文件,识别文本中的密级标识,对SM文件进行高效筛选。
采用AI-OCR识别技术,对所有扫描的数字化副本进行文字识别,印刷体识别准确率可达99%,横排手写体识别准确率可达95%。经OCR识别后生成文本信息,再通过自然语言处理和大语言模型技术处理形成数据化信息,为档案开放审核奠定数据基础。
采用深度学习、计算机视觉处理技术,经过文档/图像预处理、目标检测模型、生成候选区域、公章分类与后处理等流程,实现公章自动检测。
在公章检测的基础上,采用OCR识别、图像预训练模型技术,对公章内部文字信息进行检测、识别。公章OCR识别区别于普通OCR识别,是专门针对公章内部文字(一般为单位名称或人名)的检测和识别,需专门训练公章OCR识别模型。
采用计算机视觉处理、图像预训练模型技术对档案数字化副本进行检测、识别,辅助提高AI-OCR识别准确率、公章检测和OCR识别准确率。
AI文档分类鉴定子系统可自动分类文档,实现对文本与图像内容的分类识别,辅助开放审核系统快速判断文档类型并与审核规则匹配,进一步提升开放审核效率。
AI档案开放审核系统的成熟度取决于开放审核模型的成熟度,在开放审核过程中需根据人工审核反馈结果不断优化模型,特别针对“假阴性”(模型预测为开放,人工审核为受控,来自混淆矩阵概念)样本进行强化训练,不断提高开放审核准确率。
由于档案开放审核业务场景的特殊性,在软件研发过程中开放或受控二分类大容量样本/语料难以获取,一般采取如下方法提高准确率指标:
可购买或租用AI档案开放审核一体机,以离线方式开展开放审核工作。若采用租赁方式完成项目后,一体机内的存储载体(硬盘)将留给租用单位。
经某项目实际验证:样本档案20万件,AI档案开放审核系统初次鉴定精确率达100%,准确率达99%,通过对“假阴性”样本进行针对性训练,第二次鉴定准确率达到100%。
当然,AI档案开放审核模型只是行业定制化训练模型,毕竟不是通用模型,其准确率受训练样本数据的影响,存在一个场景适用性的问题。也就是在某一家单位的某个项目上取得了很好的效果,不一定就能满足另一家单位另一个项目的需求。因此,软件开发者应尽可能深入应用一线,通过与档案保管单位联合开发/合作的方式,经历多项目或多场景历练以不断提高模型准确率。