访问地址:http://inindex.cn/
1、背景介绍
中文在线“引得”数字人文资源平台是由哈佛大学费正清中国研究中心、台湾“中央研究院”历史语言研究所、北京大学中国古代史研究中心及中文在线四方共同合作进行,中文在线将与哈佛大学、北京大学等CBDB项目组专家一起,共同打造中国古典数据的数字人文资源平台,重构古文献研究服务新脉络,同时运用人工智能技术,提高处理历史资料的效率和准确度,聚合更多主体并不断优化用户体验。
中国历代人物传记资料库(CBDB)创始人为郝若贝教授(Robert M.Hartwell)(1932-1996)。郝若贝教授将本资料库初版及其他财产遗赠给哈佛燕京学社,目前由哈佛大学费正清中国研究中心、北京大学中国古代史研究中心、台湾“中研院”历史语言研究所共同主持开发,将内容用于学术研究之用。
2、平台介绍
“引得”数字人文资源平台共收录从先秦到晚清约42万人的传记、著作资料(约4亿字,存储信息量达2TB),是历经150余位专家学者提供学术支持才获得的宝贵成果。这些人物主要出自七世纪至十九世纪,其中以唐、宋、明、清的人物传记资料最为充实。中文在线数字人文资源平台除了可作为人物传记的参考资料外,也是数字人文领域从古老、传统的研究,走向新时代的一个重要路径。
“引得”数字人文资源平台
2.1平台特点
数字人文资源库的内容由人物(People)、亲属(Kinship)、非亲属关系(Non-kinship Associations)、社会区分(Status)、入仕途径(Modes of Entry into Government)、官历(Offices / Postings)、地址(Places)、著述(Writings)、研究成果(Research result)等部份組成。
尊重历史以及古籍原貌,采用繁体字原文+简体字注释+中英文标注多种形式充分展示历史数据,通过字条段落信息可以联查古籍出处、原文,真正将古籍与历史、人物生动串联,重构古文献研究服务新脉络。
能根据不同的检索条件反映出相应的传记资料。检索条件可以是简单的条件,也可以通过复杂的组合条件进行筛选,用户可以在线访问数据库进行检索,也可以从网站上下载相关的分析数据表格和图表应用于其它工具库中。同时支持网页端以及移动端操作。
数字人文库中数据以关系型数据库+图数据库方式存储,便于适合各类开发平台以及后期业务的拓展。
遵循数据采集-存储-加工-更新-复用循环反复的古籍内容整理流程,运用人工智能技术,提高处理历史资料的效率和准确度。
建立基于数位系统为基础的网络基础设施,广泛地用于各学科;方便于从事开发和使用跟中国研究相关的数据库、资源库、工具和平台的专家、图书馆员和商业数据库开发者,都可以从网络基础设施的建设中获益。
中文在线数字人文资源平台内容资源:
2.2平台架构
①人物传记库
人物传记学是透过对一群历史人物的生平所做的集体性的研究,探讨其共同的背景特征。研究方法是通过先建立一个研究范围,然后针对此范围提出一组相同的问题,包括:出生、死亡、婚姻、家庭、社会出身、经济地位、居住地、教育、个人财富与来源、职业、宗教、官历等方面。然后,将此研究范围中所有人物的各种信息加以分类、组合,通过对这些信息的考察找出具有显著意义的信息,研究者可以检测这些信息的内在相关性,及其与其他行为形式、行动形式的相关性。其资料的来源:
传记资料
宋人传记资料、元人传记资料、明人传记资料、清代人物生卒年表。
史料
正史列传、墓志铭、墓表、地方志列传。
文学作品
文集之祭文、序、记、书信等
官方文书
郡守年表、会要、官禄等
②地理资讯分析
地理资讯系统可以帮助研究者在大量传记资料中归纳总结一定的模型,从中国历史研究的角度,中国历史地理资讯系统提供了自西元前221年至1911年间行政区划体系的资料,及1820年和1911年不具行政功能的主要市镇资料库。利用OpenLayers或百度地图等GIS相关工具,我们可以将中国历代人物传记资料库和中国历史地理资讯系统中的资料信息整合在一起。
③社会网络分析
社会网络分析可以将个人关系通过动因组成相应的集合体,为历史学家评估亲族与非亲族关系提供支持。社会网络关系分析家发现,人们须从不同的社会关系中、不同的人身上,寻求情绪上以及经济上的支持。因此,仅仅研究人们如何在危机时刻利用亲族关系已经不足够;相反地,历史学的研究必须涵盖过去人们如何为不同目的而利用亲族与朋友关系,以及利用相关关系的优势与限制。
④内容库
内容库中涵盖了工具、图片、地图、著述、研究成果、学术论坛等相关资源内容。
⑤古籍文献库
引得古籍文献库为学者提供方便快捷的阅读服务,文献库收录超过20亿字(约合8000种)古籍文献,同时向学习、研究者提供相关古籍文献资料的查询、下载、阅览服务。
⑥研究成果分享
搭建人文历史研究成果数据库,实现基于大数据处理、存储、管理;研究成果是专家、学者们辛勤劳动的结晶,研究成果具有时间跨度大、数据类型多样、数据来源多源、数据量大等特征,如何有效地管理这些研究成果,并高效地挖掘出人们所需要的经验知识,是研究成果价值实现的关键环节与重要内容。
⑦后台资料系统
实现对元数据以及古籍资料的后台增补以及修订工作,目的是为了让使用者自发为资源平台中的内容进行新的资料扩充、内容优化与升级。
3、独特价值
高校图书馆处在为学校教学、科研服务的第一线,古籍的收藏和利用为其重要的工作内容之一,如何尽快实现古籍的数字化、信息化,是目前许多高校图书馆的迫切任务,现有古籍和古代人物数据的获取和开放程度是中国数字人文面临的一大挑战。以中国古代典籍为例,数字化材料的开放程度远远不够。各类古籍数据库多如牛毛,但数据共享的做法仍然非常罕见,这对不同电子资源之间的协作造成一定障碍,“引得”CBDB数字人文资源平台正是肩负着这样的使命诞生的。在此次与CBDB项目组签约合作中,我公司将利用技术、用户、渠道等方面的资源优势,积极推动产学研合作,营造数字资源的共享环境,使CBDB在更大范围内获得应用,产生更大的文化价值。
4、适用对象
“引得”数字人文资源平台适用对象为高校人文社科类学院、社会科学研究机构、高校图书馆、公共图书馆等。
5、软件功能
普通检索:用户可通过姓名、地名、官名进行检索(可支持简体、繁体、拼音检索)。
综合查询:可以通过生活的年代、朝代以及籍贯等信息进行检索。
①人物传记库
普通检索:用户可通过姓名、地名、官名进行检索(可支持简体、繁体、拼音检索)。
综合查询:可以通过生活的年代、朝代以及籍贯等信息进行检索。
显示包括人物的中英文生平介绍、资料出处、别名、地址、入仕、任官、社会区分、亲属关系、社会关系、著述等信息。
②古籍文献资源库
用户使用账户登录后,可检索、在线阅览及下载“引得”数字人文资源平台收录的古籍文献内容资源。
③可视化分析工具
可将数据录入数据模版并上传以制作历史人物相关的地理信息分析图与人物关系图谱,现已拥有40余种可视化分析工具。
④古籍在线文字识别辅助工具
引得平台古籍在线文字识别辅助工具基于转智神经网络开发,其致力于多种风格的古代文字识别。截至目前,古籍在线OCR工具对古籍善本的平均识别率达到90%左右。