摘要: 实体匹配也叫记录匹配,是数据集成与数据清洗过程中的一项关键技术.其典型用例包括不同网站之间的商品匹配以及DBLP(Digital Bibliorgrophy & Library Project)与Scholar文献数据库之间的文献实体匹配.真实数据中广泛存在的数据质量缺陷,如错误值、缺失值和数据表达形式多样性等数据质量问题,使得实体匹配问题很具挑战性.目前流行的实体匹配算法可划分为三大类:基于规则的、基于概率的和基于学习的.电商数据中,对同一商品的描述可能差异巨大.对于这类充满表达多样性的实体匹配问题,通常并不存在简洁高效的匹配规则,训练精准的分类模型也很困难.针对这个问题,文中提出了一种基于离群点检测(Outlier Detection)的自动实体匹配方法,记为ODetec算法.首先计算记录序偶在匹配属性上的相似度,并将序偶映射为特征空间上的点;接着在特征空间中估算每个序偶的离群距离;最后根据离群距离和匹配约束,抽取匹配序偶.另外,ODetec算法采用主成分分析方法将多个存在相关性的匹配特征变换为彼此正交的主成分,突破了Fellegi-Sunter模型中属性之间须满足条件独立假设的限制,具备了更好的匹配效果和更为广泛的适用性.实验结论证实了ODetec方法的有效性.
摘要: 实体匹配也叫记录匹配,是数据集成与数据清洗过程中的一项关键技术.其典型用例包括不同网站之间的商品匹配以及DBLP(Digital Bibliorgrophy & Library Project)与Scholar文献数据库之间的文献实体匹配.真实数据中广泛存在的数据质量缺陷,如错误值、缺失值和数据表达形式多样性等数据质量问题,使得实体匹配问题很具挑战性.目前流行的实体匹配算法可划分为三大类:基于规则的、基于概率的和基于学习的.电商数据中,对同一商品的描述可能差异巨大.对于这类充满表达多样性的实体匹配问题,通常并不存在简洁高效的匹配规则,训练精准的分类模型也很困难.针对这个问题,文中提出了一种基于离群点检测(Outlier Detection)的自动实体匹配方法,记为ODetec算法.首先计算记录序偶在匹配属性上的相似度,并将序偶映射为特征空间上的点;接着在特征空间中估算每个序偶的离群距离;最后根据离群距离和匹配约束,抽取匹配序偶.另外,ODetec算法采用主成分分析方法将多个存在相关性的匹配特征变换为彼此正交的主成分,突破了Fellegi-Sunter模型中属性之间须满足条件独立假设的限制,具备了更好的匹配效果和更为广泛的适用性.实验结论证实了ODetec方法的有效性.
说明:如本页面涉及到版权问题或作者不愿意公开,请联系本站管理员删除!
[1] | 董祥千 郭兵 沈艳 段旭良 申云成 张洪 . 一种高效安全的去中心化数据共享模型 [J]. 计算机学报 ,2018,5 |
[2] | 杨洋 刘磊 李广力 张桐搏 吕帅 . 一种新的基于局部搜索的扩展规则推理方法 [J]. 计算机学报 ,2018,4 |
[3] | 徐艳 . 介绍一种荧光型安全输液器 [J]. 中国临床护理 ,2018,1 |
[4] | 陈英 段欠欠 沈苏南 王晓囡 奚邦生 张玲 季建刚 孙万平 . 一种高效筛选公共引物的方法 [J]. 中国血液流变学杂志 ,2016,1 |
[5] | 刘彩霞 季新生 邬江兴 . 一种基于MSISDN虚拟化的移动通信用户数据拟态防御机制 [J]. 计算机学报 ,2018,2 |
[6] | 何炎祥 孙松涛 牛菲菲 李飞 . 用于微博情感分析的一种情感语义增强的深度学习模型 [J]. 计算机学报 ,2017,4 |
[7] | 沈勇 董家齐 石中兵 赵开君 . 一种等离子体湍流实验数据分析程序的设计与应用 [J]. 核聚变与等离子体物理 ,2017,1 |
[8] | 韩鹏 刘晓晨 胡赞远 闫中午 . 一种用于获得飞机部件气动载荷的网格向量法 [J]. 空气动力学学报 ,2018,4 |