使用PL/SQL找到两个表中的相似值

问：您好，我的数据库有两个表，每个表都有两列。我需要在两个表中找到相似的值，举个例子，比如第一个表中第一列有一个值为Jeff Shapiro clinical，而第二个表中的第二列有一个相似的值，为clinic of Jeff Shapiro。　　请问我该如何在两个表中找到这样相似的值?如果能用SQL实现最好，PL/SQL也可以。请问是不是使用like contains或者regexp?或者使用域索引会好一些? 　　答：我第一次看到这样的问题是在糖果零售行业，手动的数据录入让数据库中充满了各式各样“相似但不完全一样”的字符串，而且还是用了不一样的缩写，甚至还有些拼写的错误。

我当时写了一个非常……

查看全文

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

问：您好，我的数据库有两个表，每个表都有两列。我需要在两个表中找到相似的值，举个例子，比如第一个表中第一列有一个值为Jeff Shapiro clinical，而第二个表中的第二列有一个相似的值，为clinic of Jeff Shapiro。

　　请问我该如何在两个表中找到这样相似的值?如果能用SQL实现最好，PL/SQL也可以。请问是不是使用like contains或者regexp?或者使用域索引会好一些?

　　答：我第一次看到这样的问题是在糖果零售行业，手动的数据录入让数据库中充满了各式各样“相似但不完全一样”的字符串，而且还是用了不一样的缩写，甚至还有些拼写的错误。我当时写了一个非常复杂的算法，但是可以在处理百万条以上的记录时速度很快。

　　首先我们需要解析所有的标识符。
　　然后我们对标识符进行标准化，并将缩写统一转化成一致的缩减形式。然后将冠词“the”删除。
　　如果无法定位一个准确的匹配，那么我们就将扫描所有的标识符，一次一个字母，然后给每一个字母的位置赋予一个加权。如果总得加权与最接近的标准化关键词相似程度达到95%以上，我们就认为它们二者是相互匹配的。如果低于95%，我们可以利用手动来进行识别。
　　这样，完整的标识符转换集就可以被解析并匹配了。

　　我想到的方式就是这样了，这个方法是十分有效的，但是过程可能会有一些复制，请参考。

作者

: Dan Clamage

翻译

: 孙瑞

使用PL/SQL找到两个表中的相似值

取消回复

作者

Dan Clamage

翻译

孙瑞

相关推荐

DBA支招：如何实现Oracle EBS 12.2.5升级

Oracle数据库云服务：处理各种规模的应用程序

Oracle 12c升级需遵循的简单步骤

Oracle12c R2：利用分片技术提升分布式性能