python difflib 计算文本相似度
Difflib作为python的标准库,无需安装,作用是对比文本之间的差异,而且支持输出可读性比较强的HTML文档。在Linux下,可以直接使用vimdiff命令比对文本,例如对a.txt与b.txt的差异,命令: vimdiff a.txt b.txt 即可。例子:import difflibdef jc(str1, threshold_value, data):...
·
Difflib作为python的标准库,无需安装,作用是对比文本之间的差异,而且支持输出可读性比较强的HTML文档。
在Linux下,可以直接使用vimdiff命令比对文本,例如对a.txt与b.txt的差异,命令: vimdiff a.txt b.txt 即可。
例子:
import difflib
def jc(str1, threshold_value, data):
imgdata = open(data)
imagePathList = list(imgdata)
dic = {}
s = difflib.SequenceMatcher(None, str1, '')
for i in imagePathList:
s.set_seq2(i)
dic[i] = s.ratio()
result_max = max(dic, key=dic.get)
print(dic[result_max])
result = result_max if dic[result_max] > threshold_value else 'None'
return result
参数:
str1:要对比的文本
threshold_value:阈值,大于这个阈值的才会保留
data:对比用的字典库
更多推荐
已为社区贡献1条内容
所有评论(0)