字节跳动和北大推出古籍数字化平台测试版已上线

2022-10-12 15:36:52· 稿源：网络整理

10月11日消息，由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。

目前，该平台涵盖390部经典古籍，主要来自《四部丛刊》，共计3000多万字，即日起向公众免费开放。未来三年，“识典古籍”将陆续完成一万种古籍的智能化整理工作，基本覆盖儒家、道家和佛学的核心典籍目录，届时将全部免费开放。

今年3月，北京大学与字节跳动合作成立了“北京大学—字节跳动数字人文开放实验室”，致力于将人工智能技术应用于古籍资源的智能化整理。

“识典古籍”项目负责人介绍，该平台当前主要使用了三种技术，包括文字识别、自动标点和命名实体识别。文字识别技术，是对古籍的影印版文字进行单个切分，再进行文字识别和顺序识别。

自动标点技术，是通过序列标注的方式对古籍自动进行标点划分。命名实体识别技术，则是通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。

据悉，目前行业内OCR识别准确率平均为93%至94%，“识典古籍”的准确率为96%至97%。

与其他古籍数字化平台相比，“识典古籍”具有自身的特点，页面简洁，浏览流畅，提供影印底本作为参照，还具备主题词检索和繁简体转换功能，便于专业研究人员、广大古籍爱好者使用。同时，“识典古籍”书目将持续更新，后续将上线手机移动版。

未来，“识典古籍”将向全社会开放古籍阅读检索研究能力，还将实现全自动整理校对，实现存量古籍全部数字化。同时，平台也鼓励拥有文献的学者自行上传文献，用户甚至可参与再创作和再阐释。

1、宁推网原创文章未经授权转载必究，如需转载请联系授权；

2、转载时须在文章头部明确注明出处、保留作者和原文链接，如：转自宁推网字样；

3、宁推网报道中所涉及的所有内容均由用户提供，仅供参考！

4、声明：该文观点仅代表作者本人，宁推网系信息发布平台，宁推网仅提供信息存储空间服务。

字节跳动和北大推出古籍数字化平台 测试版已上线