
图来源/数智时代古籍研究前沿论坛暨‘我用AI校古籍’(2025年)总结会
无论你是否身处AI行业,近期总能频繁刷到关于中国AI新物种的新闻。在美国拉斯维加斯会展中心举办的CES大会上,来自中国的AI产品遍布各个展馆,成为全场关注的焦点,这也恰如其分地印证了2025年中国AI应用落地的蓬勃发展态势。
AI正在为万物赋予新的可能性,过去一年里,各类软硬件新产品层出不穷,AI教育、AI电商、AI家电、智能穿戴、AI健康、AI助手、AI陪伴等应用遍地开花。AI 已经成为一切产品的底层能力。
相比百亿乃至千亿赛道里的AI产品,在没被更多人关注到的传统文化领域,AI发挥的作用同样耀眼。
古籍整理原本是一个专业门槛极高的工作,需要专家和学者逐字敲击录入电脑,过程中还得分辨版刻混用字、俗体字、异体字、底本错字,工作可谓艰辛且繁琐。现在AI 能够把这些工作分层,大多数工作可以由机器和简单的人工操作来完成。
这意味着AI重塑了古籍整理的新范式,很多人仅凭借兴趣爱好就能参与古籍整理的工作,让沉睡千年的古籍以更快的速度走出“深闺”。
古籍为什么重要?近现代历史上,古籍文字凭借美感吸引着名家著书立言。朱光潜在《中国古代美学简介》中提出,古籍不仅是文献资料,其版式、字体等也具有极高的审美价值。
孔子校订”六经”是中国最早的系统性古籍整理实践,奠定了后世古籍整理以校勘、注释为核心的方法论基础。两千多年后,一帮古籍爱好者在AI 的辅助下踏上孔子走过的路,他们以技术为舟楫,渡向孔子曾渡过的河。
2024年,字节公益平台识典古籍发起“我用AI校古籍”活动,上线仅一年半便吸引3.7万人报名参与,累计整理2万部共15亿字。背后靠的正是识典古籍平台里几乎无处不在的AI。
古籍大众智能化的春天已来,而这一切是如何发生的呢?
01
AI重塑了古籍整理的新范式
古籍是文化传承的重要载体,承载着丰富的历史信息、文化内涵和思想智慧,千百年来古籍在流动的文明长河滋养着人们的精神世界。即便到了如今的AI时代,当很多人以为这种艰涩难读的古籍应当被束之高阁时,它却依旧迸发着新的活力。
识典古籍团队甚至都没料想到,一场古籍整理活动能吸引数万公众参与。
刘尔君是上海大学中国古代文学专业研二的学生,自小喜欢文学。2025年4月,她偶然看到网上招募“我用AI校古籍”志愿者的消息,毫不犹豫报了名,“这既是我的专业也是我的热爱。”
顺利入选后,从“初阶组”做到“进阶组”,短短几个月她累计校对近70卷古籍,其中包括7卷《永乐大典》。她参与的首批任务以佛经为主,如《金刚经》《楞严经》《华法经》等佛教经典古籍,“佛经用字繁复,异体字多,初看如天书,但越难越有趣。”刘尔君称,校对近70卷古籍不算什么,她有个同学校对了200多卷。
对很多不熟悉古籍的大众而言,很容易被《永乐大典》这种类古籍大部头吓退,事实上并非只有文学爱好者才能校对古籍。在校对古籍的数万参与者里,不仅有千余所高校的师生,也有上班族、退休老人,甚至青少年。
校对古籍的工作,正从“学人时代”进入到大众智能化时代。这背后离不开识典古籍AI功能的迭代和进化。
2022年10月,字节跳动联合北京大学共同打造了识典古籍数字化平台,AI技术正式进入古籍整理全流程。依托AI,识典古籍还将哈佛燕京图书馆的7000部古籍转化为高清数字资源,并免费向公众开放,用户登录平台可检索宋刻《十诵律》、元刻《隋书》、明抄《永乐大典》等珍本。
随着人工智能技术的突飞猛进,2024年识典古籍发起“我用AI校古籍”活动,旨在把古籍整理从专业性工作降到普通大众均可参与的文化实践。
过去古籍整理因专业人才匮乏、生僻字识别难度大,整理效率长期偏低。AI的引入显著改变了这一局面:AI可快速完成初步点校和基础整理工作,再将任务拆解为多个简单、标准化的模块,大幅降低参与门槛。
完全没有古籍整理背景的志愿者,只需借助“识典古籍”平台的OCR校对等AI工具及配套教程,即可高效完成古籍的初步整理任务。
为什么大众会热衷整理古籍?拥有十多年古籍整理经验的清华大学人文学院副教授唐宸告诉我们,主要是AI的强大功能,降低了大众对传统古籍的恐惧。只要破除恐惧心理,投入进去后就很容易发现古籍中蕴藏的文化美。
以往古籍整理专业门槛很高,主要依赖专家和学者逐字校勘、断句标点,最后还要核校一遍,导致效率低下。
唐宸见证了AI技术如何把学者从这种繁琐的劳动中解脱出来。他过去整理古籍的方式非常机械,需要把古籍复印出来,再逐字把它录入到电脑里,敲的时候很容易出错,如果没办法获得复印件,他就要到图书馆里手抄。
即便那时候有一些工具可用,也达不到当前的效率。例如古籍的图像转成文字,就需要用一些古籍OCR(光学字符识别)工具,加标点又要去用一个工具。“过去用计算机整理古籍的最大问题是流程比较割裂,现在识典古籍把整个流程统一到了一个系统里。”唐宸说。
在识典古籍这个系统里,数据可以无缝流转,完成从头到尾的所有工作。而随着大模型能力的进化,古籍整理的速度又进一步提升。
2024年华东师大的博士刘帅参加了“我用AI校古籍”活动,一个月里他初步整理出200万字的古籍,到了2024年底,三个月时间里刘帅校过、标过、排版过、审过的书一共有191种,总字数500万以上。“之前人工整理古籍是骑自行车,现在突然变高铁了。”刘帅说。
“我用AI校古籍”活动最初是在字节内部发起的,没料想很多员工参与的积极性特别高,当中有喜欢传统文化的人,或者是文科生。他们一部分价值感来自于,自己当年学的东西竟然还有用武之地。
甚至有一部分员工,下了班就沉浸式校对古籍中,发现这是一件特别解压的事。而这正是古籍跨越千年历史后,与现代人产生的深度连接。
经过几期的招募活动,截止目前,字节已经有两三千位同事加入到古籍整理活动中。
若想让更多人参与进古籍整理中,单单是字节内部人参与还远不够。2024年的六月份,识典古籍和北大数字人文研究中心共同开了一个研讨会,决定向公众推广这个活动。一年多以来,活动累计带动3.7万人参与进古籍整理的工作。
AI“盘活”了沉睡千年的古籍,更激发出大众整理古籍的热情。
02
AI如何校古籍
2025是大模型通过高频迭代迅速提升性能的一年,陆续开始应用到各种小众领域。最近有媒体报道,Gemini 3.0 Pro仅用1小时,就破解了拉丁文古籍《纽伦堡编年史》中500多年未解的神秘注释,识别出这是中世纪学者的历法换算表。
豆包作为日活过亿的头部大模型同样应用广泛,尤其在传统文化领域的应用令人惊喜。识典古籍平台基于豆包大模型的基座,精调出一系列擅长特定任务的专业模型,因为精调的模型比较小,响应速度也快。它们如同各个领域的专家,被植入进系统内高效丝滑地执行任务。
要明白这一点,需知道古籍整理的全流程,从以下步骤也能看出AI 是如何把传统古籍“盘活”的。
一,把古籍影像上传到平台,通过OCR技术自动识别,对古籍的影像文字进行单个切分,再进行文字识别和顺序识别。这个过程并不简单,OCR技术需要将古籍图像转化为可编辑文本,接着平台再将流程拆解为 “AI初校—大众粗校—专家精校” 三级体系,最后由北大的专业力量把关。
这样的流程最为科学,既提升了效率又将保证了高准确率。

识典古籍平台粗校版《永乐大典》页面
二,传统古籍是没标点的,AI会通过序列标注的方式对古籍自动进行标点划分,目的是为了便于现代人阅读。在这方面AI 极为擅长,唐宸教授说:“早期用电脑加标点质量确实不行,现在识典古籍运用大模型加标点,水平已经超过硕士生。”
三,AI自动为古籍划分结构。传统古籍往往“有字无篇”,卷、回、段落、标题全靠读者肉眼寻找,翻检效率极低。识典古籍将版面视觉模型与序列标注模型叠加,能识别页面栏线、插图,乃至自动输出多级目录。
尽管AI处理复杂版式时有较高可靠性,但实际效果受图像质量、字体变体等因素影响,最后需结合人工校对以提升精度。
四,提取古籍里的人名、地名、书名等,再自动关联到百科。AI能通过序列标注方式识别古籍文本中的专有名词,包括人名、地名、书名、时间、官职五类实体,这是因为模型在训练过程中学习了古籍的文风和用字规律,能力相当于这个领域的专家。
识别结果会以不同颜色或下划线形式高亮显示,用户可对错误或缺漏的实体进行人工修正,下方还有词条显示,甚至可链接到抖音百科进一步了解相关知识。

AI识别“子男”并提供词条,可链接到抖音百科
值得一提的是,2024年以前识典古籍主要运用的是传统NLP (即自然语言处理)技术,现在已经完全依赖大模型。这得益于字节豆包大模型的性能提升,以及火山引擎提供的算力支持。大模型的优势在于,具备庞大的知识储备,此外深度思考能力让它更能做出准确的判断。
当然,大模型并非不会出错。2024年模型还总出现幻觉,例如会给一个历史人物补充一些虚假的介绍,但到2025年已经减少很多。
古籍大众化的关键一点在于翻译。很多古籍都是用文言文写的,阅读门槛将不少人挡在门外,这就让翻译变得尤为重要。过去行业基本上用的都是机器翻译,也能出结果,但出错率比较大。
2024年,识典古籍团队决定使用大模型进行翻译。识典古籍的AI翻译功能由多个精调的模型组成,这些模型有的是历史专家,有的是佛教专家,能够读懂文言文的语境和上下文,直接把专业技能拉满。最初机器翻译的准确率只有13%,运用了大模型进行翻译后,现在准确率已经能达到80%乃至90%。
如果说以上的AI能力打通了古籍和大众的那堵墙,让大众都能参与进来校对。那么识典古籍的“深度研究助手”,则是为了帮助专家和学者更高效便捷地使用。

识典古籍深度研究助手界面
这款深度研究助手同样是基于大模型的古籍研究工具。它并非简单的”问答机器人”,而是具备自主研究能力的AI智能体,能够对平台收录的数万部古籍进行深度挖掘与智能分析,自主完成从研究计划制定、知识系统挖掘、表格整理与研究报告生成的全流程工作。
用户只需输入研究主题,便能在古籍资料中进行全面的挖掘与智能分析,显著提升研究效率与深度。
唐宸教授在日常调研和学习中,已经深度依赖这个深度研究助手,主要用来检索一些比较细节的古籍知识,还经常向它提问开放性问题。一定程度上,这个深度研究助手相当于他的“同行”,能和他一起碰撞灵感。
作为深度且专业的用户,唐宸对识典古籍的评价很高。“从阅读和检索图文的角度来说,识典古籍应该是最好用的,主要因为它数字化的古籍足够多,现在已有四万多种的体量了。”唐宸说。
03
大众智能时代
几年下来,识典古籍的数字化成绩斐然。2022年10月,识典古籍以390部古籍为基础,在网页端、今日头条古籍频道正式上线第一版产品。
如今3年多过去,平台已累计向全社会开放超47000部古籍资源,各渠道每月服务用户超240万人,每天有35万人次检索资料,平台总访问量突破1.47亿。
从390部到4万多部,识典古籍用3年多时间实现了体量的百倍扩容。这得益于AI大模型与豆包技术的深度应用,实现了古籍的智能化整理与深度研究助手功能,让古籍研究更高效、更普及。
背后也是科技与文化传承的深度结合,古籍从“深闺”走向“大众”,实现了传统文化的创造性转化。
随着“我用AI校古籍”活动的推进,很多的高校自发把这个活动纳入到他们古籍相关专业的教学中。这个活动有一个统计口径,称为贡献值,贡献值会折算成学生日常的课堂成绩。学生们在古籍校对中既拿了学分,又能感受到传统古籍的魅力。此外,还有超过4000个外部团队使用识典古籍进行古籍研究整理。
可以说传统古籍的”活化”,离不开所有人的参与。他们为文化传承做出自己的贡献,从专业修复到大众传播,从学术研究到创意转化,各方力量共同织就了古籍活化的恢弘画卷。
1月10日,“数智时代古籍研究前沿论坛暨‘我用AI校古籍’(2025年)总结会”在北京举行。活动现场,北京字节跳动企业社会责任部产品与运营总经理罗海岳向行业同仁发出邀请:“识典古籍是一个共建共享平台,我们期待与更多专业机构和团队合作共建。”
这份邀请很快得到回应。在当天“数智时代古籍整理与人才培养”分论坛上,来自北京大学、暨南大学、内蒙古师范大学等高校的老师们,纷纷谈起把“识典古籍”搬进课堂,以及用于学科建设的经历。
清华大学人文学院副教授唐宸,对识典古籍几乎手不释“卷”。他说,只需打开手机版识典古籍app,就能随手查资料,哪怕在火车上。
唐宸认为,识典古籍还改变整个行业。学术界过去用同类型的产品,通常里面只有一两万种古籍,而且收费很高。识典古籍作为公益平台不仅古籍数量庞大,还完全免费,为推广传统文化做出巨大贡献。
“都说我们中国有5000年文明,你得让民众看见,口头说没有意义,得让他们去阅读,去查找,去检索。”唐宸说。而这就是识典古籍努力向大众普及的事。
古籍作为中华文明的重要载体,其保护与活化对于传承民族文化、增强文化自信具有深远意义。未来,字节跳动将在古籍保护传承之路上继续深耕,扩充古籍资源,并降低公众阅读和理解门槛。而随着大模型的持续迭代,AI一定能帮助更多古籍焕发新生。
文章来自于“白鲸实验室”,作者 “孙方”。

