问:您好,我的数据库有两个表,每个表都有两列。我需要在两个表中找到相似的值,举个例子,比如第一个表中第一列有一个值为Jeff Shapiro clinical,而第二个表中的第二列有一个相似的值,为clinic of Jeff Shapiro。 请问我该如何在两个表中找到这样相似的值?如果能用SQL实现最好,PL/SQL也可以。请问是不是使用like contains或者regexp?或者使用域索引会好一些? 答:我第一次看到这样的问题是在糖果零售行业,手动的数据录入让数据库中充满了各式各样“相似但不完全一样”的字符串,而且还是用了不一样的缩写,甚至还有些拼写的错误。
我当时写了一个非常……
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
问:您好,我的数据库有两个表,每个表都有两列。我需要在两个表中找到相似的值,举个例子,比如第一个表中第一列有一个值为Jeff Shapiro clinical,而第二个表中的第二列有一个相似的值,为clinic of Jeff Shapiro。
请问我该如何在两个表中找到这样相似的值?如果能用SQL实现最好,PL/SQL也可以。请问是不是使用like contains或者regexp?或者使用域索引会好一些?
答:我第一次看到这样的问题是在糖果零售行业,手动的数据录入让数据库中充满了各式各样“相似但不完全一样”的字符串,而且还是用了不一样的缩写,甚至还有些拼写的错误。我当时写了一个非常复杂的算法,但是可以在处理百万条以上的记录时速度很快。
- 首先我们需要解析所有的标识符。
- 然后我们对标识符进行标准化,并将缩写统一转化成一致的缩减形式。然后将冠词“the”删除。
- 如果无法定位一个准确的匹配,那么我们就将扫描所有的标识符,一次一个字母,然后给每一个字母的位置赋予一个加权。如果总得加权与最接近的标准化关键词相似程度达到95%以上,我们就认为它们二者是相互匹配的。如果低于95%,我们可以利用手动来进行识别。
- 这样,完整的标识符转换集就可以被解析并匹配了。
我想到的方式就是这样了,这个方法是十分有效的,但是过程可能会有一些复制,请参考。
作者
翻译
相关推荐
-
DBA支招:如何实现Oracle EBS 12.2.5升级
那些对于是否要将EBS进行升级持观望态度的Oracle数据库管理员们可以从一家研究公司获得一些启示。
-
Oracle数据库云服务:处理各种规模的应用程序
Oracle表示将通过在未来六个月内开放三个新的数据中心或云可用性区域来支持其整体云产品。
-
Oracle 12c升级需遵循的简单步骤
现在是将Oracle数据库升级到12c版本的时间,DBA Brian Peasland说。通过Oracle数据库升级助手中的命令行很容易做到。
-
Oracle12c R2:利用分片技术提升分布式性能
在云环境中提升数据扩展性对Oracle来说非常重要,因为Oracle在从内部构建环境迁移到云环境的过程中会承担更多负载,同时会要求成本更低。