Python中的高性能模糊字符串比较，使用Levenshtein或difflib [关闭]-python黑洞网

本站消息

站长简介/公众号

出租广告位,需要合作请联系站长

黑洞官方问答小能手

1769214

文章

1038856712

访问

+关注

分类

暂无分类

日期归档

暂无数据

Python中的高性能模糊字符串比较，使用Levenshtein或difflib [关闭]

发布于2019-08-22 21:53 阅读(886) 评论(0) 点赞(30) 收藏(1)

我正在进行临床信息规范化（拼写检查），其中我检查每个给定的单词对900,000字的医学词典。我更关注时间复杂度/性能。

我想做模糊字符串比较，但我不确定使用哪个库。

选项1：

import Levenshtein
Levenshtein.ratio('hello world', 'hello')

Result: 0.625

选项2：

import difflib
difflib.SequenceMatcher(None, 'hello world', 'hello').ratio()

Result: 0.625

在这个例子中，两者给出相同的答案。在这种情况下，你认为两者都表现相似吗？

解决方案

如果您对Levenshtein和Difflib相似性的快速视觉比较感兴趣，我计算了约230万本书籍：

import codecs, difflib, Levenshtein, distance

with codecs.open("titles.tsv","r","utf-8") as f:
    title_list = f.read().split("\n")[:-1]

    for row in title_list:

        sr      = row.lower().split("\t")

        diffl   = difflib.SequenceMatcher(None, sr[3], sr[4]).ratio()
        lev     = Levenshtein.ratio(sr[3], sr[4]) 
        sor     = 1 - distance.sorensen(sr[3], sr[4])
        jac     = 1 - distance.jaccard(sr[3], sr[4])

        print diffl, lev, sor, jac

然后我用R绘制结果：

在此输入图像描述

严格来说，我也比较了Difflib，Levenshtein，Sørensen和Jaccard相似度值：

library(ggplot2)
require(GGally)

difflib <- read.table("similarity_measures.txt", sep = " ")
colnames(difflib) <- c("difflib", "levenshtein", "sorensen", "jaccard")

ggpairs(difflib)

结果：在此输入图像描述

Difflib / Levenshtein的相似性确实非常有趣。

2018编辑：如果您正在努力识别类似的字符串，您还可以查看minhashing - 这里有一个很棒的概述。Minhashing在线性时间内在大型文本集中找到相似之处是惊人的。我的实验室整理了一个应用程序，使用minhashing检测并可视化文本重用：https：//github.com/YaleDHLab/intertext

程序员说：42岁了，突然觉得研发前途渺茫

中国程序员数量达755万，全球排名第二

为什么都说程序员找不到女朋友，但是身边程序猿的却没一个单身的？

程序员说：30岁以上你还死磕技术，别说拿高薪，可能你连饭碗都会保不住

程序员被开除，老板：“有你参与的项目全黄了！”

笑话：一个测试工程师走进一家酒吧

笑话：面试官：请拿出一段体现你水平的代码。我： sudo rm -rf /*面试官：这体现了你哪方面能力？

python精选：Python 办公实战！按姓名拆分 Excel 为单独文件，微信自动发给相应联系人

网友说：做开发，不被领导喜欢怎么办？

网友说：我奉劝各位，一定不能在职场透露自己的家庭条件

所属网站分类: 技术文章 > 问答

作者：黑洞官方问答小能手