摘 要:以甲骨卜辞语料为基础,把本体作为知识表达和共享的载体,对甲骨卜辞语料进行标注,特别实现了基于本体的语义标注,试图构建语义标注的甲骨卜辞语料库,以便实现甲骨文辅助考释和知识共享。
关键词:甲骨卜辞 本体 语义标注
中图分类号:TP391文献标识码:A文章编号:1674-098X(2011)01(b)-0231-01
甲骨卜辞是研究甲骨文的基础,经过甲骨学者近百年的不懈努力,至今可以说已经具备了较为完备的知识体系。但随着信息化的深入和知识发现等概念的提出,传统的研究缺乏规范的弊端也逐渐突显出来,甲骨文数字资源缺乏知识层次的统一描述,给甲骨文信息利用和共享造成了困难。
本文考虑在已建立甲骨文语料库的基础上,用本体技术进行甲骨卜辞的研究和分析,通过对甲骨卜辞的语料标注,主要是进行语义标注,试图构建甲骨卜辞的知识库,在语料知识库上构建推理程序,完成未识甲骨文字的相关知识发现。
1 甲骨卜辞本体
因为本体所对应的应用领域不同,本体所需要表达的领域范围也不同,从而本体中包含的概念和术语也不同。构建甲骨文卜辞本体的目的是为了达到能够根据甲骨文字释义的现有了解,对甲骨卜辞做出推导提示,对甲骨卜辞进行精细加工。 所以本文的领域本体建模的范围就是严格按照Gruber本体约定最小(Minimal Oniological Commitment)原则将甲骨卜辞细化、完善。
本文采用OWL语言作为本体的描述性语言,其中甲骨卜辞本体存储甲骨字语义概念信息,包括人、事、物、时、地、其他等类以及它们的属性及其之间的关系。例如,对甲骨文“时间类”的描述如下:
xmlns:rdf=”/ontology#” xmlns:xsd=”/ontology#”>
2 甲骨卜辞语料的语义标注
2.1 语义标注
和数据库类比,语义标注就如同为建立好的数据库表添加具体的纪录。如果将本体看作简化了的知识库,那么从本体的角度来看,添加实例,即进行语义标注,可视为丰富本体的过程。如果站在语义Web的角度来看,语义标注便是语义信息的发布过程:用户依据一定的本体,为页面添加语义信息。
语义标注的方法目前来说有3类[5],人工标注、领域文档类型定义(DTD)和文档模式进行概念映射和标注和利用词汇语义分析进行标注。
本文采取人工标注方法和利用语义分析标注相结合的方法。
首先在Eclilpse中导入需要用到的包,然后使用Jean通过读取已创建的本体模型,从而显示本体OWL文件中的信息。
OntModel ontModel=ModelFactory.createOntologyModel(OntModelSpec.OWL_DL_MEM);
ontModel.read("file:./甲骨卜辞本体.owl");
如果输入一个甲骨卜辞编号,则可以调用ontModel.getResorce()获取该条卜辞的相关信息,再经过不同程度的切分将信息规格化。最后通过可视化界面将规格化后的信息显示出来。
2.2 甲骨卜辞语义标注辅助系统
尽管自动语义标注研究工作开始的很早,但是由于语言的复杂性和多变性,要完全自动化实现语义标注还很难,基于本体的语义标注在国内更多还处于理论研究阶段。
本文采用Java语言实现了一个基于甲骨卜辞本体的语义自动化标注系统,该系统所采用的开发环境是WindowsXP,JDK1.6,开发工具为Myeclips7.1以及语义开发包Jena2.4。虽然系统还处于研发测试阶段,但基本实现了简单的甲骨卜辞字用语义的自动系统标注功能,并能对“卜辞语法”类的相关信息进行简单标注。
3 结语
对于语义信息检索系统所表现出的这些功能,传统的全文信息检索显然是无法做到的。尽管我们的甲骨卜辞本体标注系统仍然处理实验阶段,信息量也不大,但是和传统的信息检索系统比较,由于基于本体的信息检索,一些甲骨卜辞的信息检索已经开始趋于智能化,并能在查准率、召回率方面有一定的提高,这为我们日后进行课题的进一步深化研究奠定基础。
参考文献
[1]何婷婷.语料库研究[D].华中师范大学博士学位论文.2003.4.
[2]李晓红,聂旭飞,冯志勇.基于本体和规则的物流知识表示与推理[J].天津大学学报.2008,41(3):305-31.
[3]杜小勇,李曼,王珊.本体学习研究综述[J].软件学报.2006,9(17).1837-1847.
[4]汪方胜,候立文,蒋馥.领域本体建立的方法研究[J].情报科学.2005(4).
[5]张晓林.Semantic Web与基于语义的网络信息检索[J].情报学报.2002,21(8):413-420.