总体目标:通过两个不同的书目数据集,实现同一本书的匹配,进而将两边同一本书的类号抽取出来。

1、两个数据集的标签匹配

BNB

OLB

书名

dct:title

书名

dcterms:title

书号

bibo:isbn10




blt:bnb



作者

dct:creator

作者

bibo:authorList

合作者

dct:Contributor

合作者

dcterms:contributor

出版

blt:publication-event:agent

出版者

dcterms:publisher

出版时间

blt:publication-event:time

出版时间

dcterms:issued

出版地

blt:publication-event:place

出版地

rdvocab:placeOfPublication

版本

isbd:p1008



语言

dct:language

语言

dcterms:language

页数

isbd:P1053

页数

dcterms:extent

主题

dct:subject-DDC/LCSH

主题

dc:subject/dcterms:subject

2、对应标签下的内容匹配,使用字符相似度。

 分别计算题名、作者、出版信息(出版时间、地点、机构)的相似度,每个分配一个权重计算总体的相似度:,根据实验看设置相似度为多少合适,满足一定阈值为同一本书。作者可能有多个,排序不同,逐一匹配。

3、考虑利用链接信息实现,帮助计算字符相似度,比如作者存在别名、简写等,通过(owl:sameAS),点击链接,丰富作者信息,提高匹配的准确度。

4、识别同一本书后,把对应的书类号提取出来建立相同关系,如668/.65=SB950.93 .I57。

总体流程:

 

图片1.png 

 

 

 


编程类代写

他类

2018-01-09


对应标签下的内容匹配,使用字符相似度。 分别计算题名、作者、出版信息(出版时间、地点、机构)的相似度,每个分配一个权重计算总体的相似度:​,根据实验看设置相似度为