fuzzywuzzy库和rapidfuzz库
fuzzywuzzy是一个Python库,用于模糊字符串匹配。它可以帮助你在处理数据时进行模糊匹配,尤其是在字符串匹配方面。它的主要功能包括:
它的使用非常简单,只需要安装库并导入即可。该库还有许多可调整的参数,以便根据特定需求进行自定义。
import pandas as pd from fuzzywuzzy import fuzz, process
df1 = pd.read_excel('C:/Users/Polo/Desktop/车品牌小程序.xlsx',sheet_name='Sheet2')
lis=[] for index1, row1 in df1.iterrows(): target_string1 = row1['小程序名称'] sim_max_re='' sim_max=-float('inf') for index2, row2 in df1[0:581].iterrows(): target_string2=row2['品牌名称'] if type(target_string2)==type(1): target_string2=str(target_string2) sim=fuzz.partial_ratio(target_string1,target_string2) if sim>sim_max: sim_max_re=target_string2 sim_max=sim print([target_string1,sim_max_re,sim_max]) lis.append([target_string1,sim_max_re,sim_max])
|