让古籍“活”起来 贵州师范大学这个学生团队致力于推进古籍数字化

  青年,古籍。

  一个由学生组成的团队,将这两个词结合在了一起。

  贵州师范大学的“溯古寻真”团队,专注于借助AI技术帮助古籍研究者完成古籍残缺部分的数字化修复。用团队创始人焦成的一句话来说就是:“将中华典籍和信息技术相结合,赋予尘封古籍新生命。”

  截至目前,这支由在校大学生组成的“溯古寻真”团队交出了抢眼的成绩单:已获批2项语言数据专利,9项发明专利正在审批。这些专利技术为团队提供竞争优势,并为古籍数字化技术解决方案领域,提供独特的技术支持。

  罗丽丽老师(左三)与团队成员进行交流

  8月10日,多彩贵州网记者在贵州师范大学见到了“溯古寻真”团队创始人焦成,他是2019级物理与电子科学学院电子信息工程专业毕业生。

  一个理工生为何情系古籍修复?

  这源自于一次偶然的机会。焦成参加了贵州师范大学图书馆举办的“墨香古韵——雕版印刷、碑帖传拓技艺体验”活动。贵州师范大学档案馆的罗丽丽老师的介绍,让他对古籍修复这个冷门小众的行业产生了浓厚的兴趣。

  焦成查阅了大量资料,了解到我国古籍修复以及古籍数字化面临的困境,特别注意到了因破损残缺严重,导致一部分内容缺失的古籍文献。

  对于那些遗失的古籍内容,是否真的无法揭开它神秘的面纱?他联想到“填字”游戏和人工智能,于是有了一个大胆的想法。

  贵州师范大学档案馆的古籍修复师向团队成员展示古籍修复过程

  他开始在学院内组建团队,队员横跨工学、文学、历史学、管理学等多个领域,学科交叉、团结协作是这支年轻团队的优势。

  为了深入了解古籍数字化之前的人工修复过程,团队成员经常到校档案馆向罗丽丽老师请教。档案馆的古籍修复师向成员们现场一次又一次的展示古籍修复过程。罗老师耐心解答了成员们在古籍数字化进程中,关于历史文献知识图谱方面的疑惑。

  古籍修复是一件漫长并且需要极大耐心和细心的事情,因而修复速度远赶不上老化速度,大量古籍亟待抢救。

  时不待人,团队队员们开始有条不紊地着手研发产品,一系列问题随之出现。

  由于古籍文献中字体、纸张质地、语言的表达方式、损坏程度等不同,给图像处理和文字识别带来了挑战。系统在识别过程中,需要考虑到历史背景和上下文信息,这彰显了“溯古寻真”团队成员多学科交叉的重要性。

  “溯古寻真”系统后台截图

  在产品研发最初,团队去到学校古籍修复中心试用产品,效果并不理想。团队成员将老师正在修补的一本清末年间的书籍进行扫描后补全,但猜测器给出的推测却是五花八门,团队成员受到了极大的打击。

  “大家垂头丧气的。”焦成回忆着说道。在罗丽丽老师的鼓励下,大家“重整旗鼓”,猜测是算法出现问题,决定更换模型重新训练,并继续补充数据集。团队通过大量实验,将技术完全改头换面了一次。

  推翻重来,付出更多时间,对整个团队来说,需要巨大勇气。

  那段时间团队成员每天没日没夜跑代码、改算法。还好,功夫不负有心人。

  “溯古寻真”系统后台截图

  团队又再次去古籍修复中心,在老师的指导下,将产品再次进行验证,这次的补全建议基本达到了老师的需求。团队成员受到了鼓舞,又将产品送到不同机构部门试用,最终均得到较好的反馈结果。

  一次又一次的补课学习,以及不断实验和改进,不断优化算法和模型,大家逐步克服困难,使“溯古寻真”古籍识别系统达到更好的效果。

  贵州师范大学该团队所研发的“溯古寻真”古籍识别系统,拥有自身的核心技术,首创的古籍GCT猜测器创新性地采用深度学习方法,通过检测图像中的文字残缺区域,能够识别出残缺文字所在的位置。

  同时,团队改良的二代OCR识别技术与文字校对系统,对文字检索速度提升超10倍;对应知识图谱给出的文字补全建议,达到90%以上的采用率。

  “溯古寻真”系统已经助力多家图书馆、档案馆完成了40余册古籍的识别与数字化。

  “我们希望,让古籍、碑文上的字以数字化的方式,永远存续。”焦成说,团队将接力奋斗,不断将产品优化升级,助力我国古籍数字化进程的推进。

  本网记者:杨昌鼎

  一审:曹 轶 林 萌

  二审:袁小娟

  三审:李 蓓

  举报/反馈