“识典古籍”平台:实现存量古籍数字化,搭建免费开放的“智能图书馆”

发布时间:2022-10-14 14:53:24 【来源:搜狐科技快讯】

  10月11日,由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。目前,该平台涵盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字,即日起向公众免费开放。未来三年,“识典古籍”将陆续完成一万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,届时将全部免费开放。

  “识典古籍”项目负责人现场讲解据了解,上述实验室系今年3月北京大学与字节跳动合作成立,将人工智能技术应用于古籍资源的智能化整理。“识典古籍”平台上线,即是双方合作的最新进展。

  当前,中国的古籍数字化还处于初级阶段,面临技术难度高、资金缺口大、人才紧张等难点。相关资料显示,现存的20多万种古籍中,只有8万种完成影像数字化扫描,近4万种完成文本数字化。据专家统计,从1949年到2019年,国内共修复整理出版古籍近3.8万种,要将现存古籍全部修复整理出来,可能需要300年时间;若利用人工智能技术辅助修复整理,大概二三十年就能完成。

  据“识典古籍”项目负责人介绍,该平台当前主要使用了三种技术,包括文字识别、自动标点和命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分,再进行文字识别和顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别技术,则是通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。据悉,目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。

  与其他古籍数字化平台相比,“识典古籍”具有自身的特点,页面简洁,浏览流畅,提供影印底本作为参照,还具备主题词检索和繁简体转换功能,便于专业研究人员、广大古籍爱好者使用。同时,“识典古籍”书目将持续更新,后续将上线手机移动版。

  未来,“识典古籍”将向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化。同时,平台也鼓励拥有文献的学者自行上传文献,用户甚至可参与再创作和再阐释,助力古籍文化传承和研究。

  一年多来,字节跳动在古籍修复和活化上也有所进展。此前,字节跳动资助国家图书馆定向修复的珍贵古籍104册件,现已完成50多册件,包括一批稀有的样式雷图档。在活化方面,抖音平台推出“寻找古籍守护人”计划,旨在激励创作者通过音乐、说书、绘画、复原美食等形式,普及古籍知识、演绎古籍内容,让古籍鲜活起来。(编辑/尹莉娜)

更经济的AGV与更智能的AMR,复合移动机器人为何兴起?
人工智能创业渗透多个城市,投资机构追捧高涨
国内新能源品牌崛起,日系车被夺市场
996已死:在海外没生存土壤,在国内“人人喊打”
作为“数字原住民”,Z世代具备哪些特征?
量子认知机,或将是下一代人工智能
阿里巴巴不一定成就了杭州,但京东确实成就了宿迁
国内芯片市场积极转型,自研芯片进程如何?
[ 最新资讯 ]

“识典古籍”平台:实现存量古籍数字化,搭建免费开放的“智能图书馆”

10月11日,由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。...

墨水屏领域再添新品!汉王科技推出7.8英寸手写电纸本N10 mini

10月12日,汉王科技在云端举办2022年秋季新品发布会,推出7 8英寸的汉王科技手写电纸本N10 mini。...

二手交易平台兴起,“微瑕品”市场超千亿元

继“微瑕施华洛世奇黑天鹅”后,整活网友不甘落后,开启万物皆可微瑕出售新时代。...

吸尘器选择困难症?快来查收明星产品选购攻略,升级全家健康生活

近期,“科技与狠活”带来的关于食品添加剂的争议引发全民讨论,高热度背后,折射出大众健康意识的明显提高。...

UR-V赢得新中产青睐的关键:以品质打动人心

  作为大多接受过优质教育,并在事业上取得一定成功的人群,新中产们正以相当强劲的消费信心,展开对美好品质生活的热切追求。  这一点 ...

手机相机盲测:1英寸超级大底IMX989传感器+徕卡影像,小米赢麻了!

相机一直是各大手机厂商发力的重点,尤其是最高端的旗舰机,影像方面都非常强大,而在各大手机厂商中,小米无疑是进步最大的厂商,一举做到了手机影像的前列。...