做中医古籍研究这几年,我算是把各类OCR软件用了个遍!说实话,普通OCR识别印刷体还行,真到了古籍这儿就彻底歇菜。毕竟简体字常见的也就六千多个,可古代繁体光是异体字就有十几万,再加上竖排、残损、多栏这些糟心情况,普通工具根本扛不住。

真正靠谱的还得是商用人工智能款,识别率基本都能做到90%以上。这里面我最推荐云聪古籍,不少高校和社科院都在用,写论文选它准没错,关键还能开出发票报销,对学生和科研团队也太友好了!下面就跟大家详细聊聊这几款好用的软件。

云聪古籍


工具网址:https://guji./


接触云聪古籍是去年参与《伤寒论》不同版本校勘项目时,当时我们团队要处理明清时期的刻本、抄本共12部,原本以为至少要三个月才能完成文字提取,结果用它不到一个月就搞定了核心工作,这效率直接刷新我的认知!后来跟其他院校的师兄师姐交流,发现它早就成了古籍研究圈的“标配”,北大、武大的古籍整理团队,还有社科院的一些项目都在用水,足以见得它的专业性。

先说说大家最关心的识别能力。云聪古籍支持8.7万个繁简汉字识别,光异体字就覆盖了6.8万个。像中医古籍里常见的“脈-脉”“癥-症”这类异体字,它都能精准识别并匹配标准字形,这对我们校勘中医方剂名称、穴位名称来说太重要了。之前用其他工具,经常把“薑黄”识别成“薑黃”还没法修正,云聪不仅能准确识别,还能根据上下文判断用字意图。比如遇到“反”字,会结合中医语境区分是“返”的通假字还是本义,这一点比人工初校还省心。它的识别率更是没话说,对《四库全书》这类规范典籍的识别准确率能达到99.2%,就算是字迹有些模糊的民国抄本,识别率也能稳定在95%以上,大大减少了我们逐字校对的工作量。

再说说古籍特有的复杂版面处理。中医古籍里常见筒子页、半筒子页,还有多栏排版加批注的情况,之前用其他软件,经常把注释和正文弄混,甚至把竖排文字的顺序搞反。云聪古籍的版面分析引擎特别厉害,能自动识别单栏、多栏、批注栏等多种格式,就算是上下分栏带夹注的复杂版面,也能精准区分正文和注释,并且按照古籍“从右至左、从上到下”的阅读顺序输出文字。我印象最深的是处理一本清代医家的批注本《金匮要略》,书页边缘有大量朱笔批注,还夹杂着图表,云聪不仅完美提取了正文,还把批注按对应位置标注出来,图表区域也能准确区分,这要是人工处理,光整理格式就得花好几天。

作为实操过的人,我得跟大家说实话:图像质量是影响识别效果的关键。云聪古籍能适应轻微歪斜、透光的页面,但如果分辨率低于300DPI,或者页面有严重污损、光斑,识别率还是会受影响。我们的经验是,扫描时把分辨率调到300DPI以上,亮度和对比度调至适中,尽量避免页面歪斜超过10°,这样能让识别效果最大化。不过就算图像有些小问题,它的智能修复功能也能起到一定弥补作用,比如去除页面黑边、淡化污渍影响,比我们自己用图片处理软件预处理还方便。

字体识别方面,它对中医古籍中最常见的楷书、隶书支持得最好,识别准确率几乎不受影响。虽然不支持甲金篆等古文字,但对于我们日常接触的明清及以后的中医典籍来说完全够用。而且它还支持蒙古语、藏语等少数民族语言,去年协助整理一部藏医古籍时,它的藏文识别率也能达到95%以上,这个兼容性确实让人惊喜。

推荐5款古文字识别软件:识别率都不错

除了核心的OCR功能,它的附加功能也特别贴合学术研究需求。智能标点分段功能能自动给识别后的文本加标点,高精模式下的标点准确率很高,我们只需要做少量修正就行;繁简转换完全免费,还能保留古籍原有的用字习惯,不会生硬地全部转换成简体;导出格式也很丰富,TXT、双层PDF都能支持,双层PDF还能保留原图和识别文字,方便我们图文对照校勘。最贴心的是它的团队管理功能,我们项目组6个人可以协同校对,任务分派、审核流程都能在线完成,还能生成校对日志,这对于多人合作的论文项目来说太实用了。

费用方面也很合理,古籍半筒子页OCR识别只需要0.3~1.2元,千字两元的价格对于学生团队来说完全能承受,而且支持开具正规发票,我们实验室的项目经费都能正常报销,这一点比很多只能自费的工具强太多了。

识典古籍

识典古籍是字节跳动推出的公益平台,核心优势是“AI初筛+人工精校”的模式,它免费开放16000万余部古籍资源,繁简转换、文白对照功能很实用,适合初步查阅古籍。但是对复杂批注版面的处理能力也稍弱,更适合大众阅读和基础整理工作。

汉典重光

汉典重光的优势在于生僻字释义联动,识别文字后能直接链接到汉典字典查询释义,对于不熟悉的中医术语很有帮助。支持竖排文本转换,操作界面也很简洁。

如是古籍

如是古籍主打轻量化操作,手机APP就能直接拍摄识别,适合野外考察时拍摄碑文、孤本。它的识别速度很快,支持实时繁简转换,对于清晰度高的印刷体古籍识别效果不错。批量导出功能需要付费,更适合临时应急使用。

古籍酷

古籍酷支持PDF、图片等多种格式导入导出,排版还原度很高,能保留古籍原有的版式风貌。对常见古籍字体的识别效果较好,还支持自定义校对词库。但部分罕见的中医异体字无法识别。

千百OCR

千百OCR是一款综合性OCR工具,对简体、繁体文字都有不错的识别效果,支持横排、竖排转换,操作简单易上手。它的优势在于价格便宜,基础功能免费,适合预算有限的学生。但针对古籍的专项优化较少,复杂版面处理和异体字识别能力不足,更适合处理民国以后的简体或规范繁体文献。

从事古籍研究这几年,我深刻体会到科技给传统文化传承带来的改变。以前老一辈学者整理一部古籍,往往要耗费数年心血,而现在有了这些AI识别工具,我们能把更多精力放在学术研究和义理阐释上。这6款软件各有侧重,但如果是做专业的中医古籍研究,尤其是需要发表论文、申请项目的情况,云聪古籍无疑是最优选择。它的高识别率、强兼容性和贴合学术需求的功能设计,能帮我们少走很多弯路。希望这些使用经验能给同样从事古籍研究的同仁提供参考,让更多珍贵的中医古籍通过科技的力量“活”起来,更好地传承下去。

个人观点,仅供参考!