Python文本预处理(文本剔除)
27 Jan 2018 最后再看一下文本剔除,该业务需求是我们手上有一份文件名单,希望从数据集中将对应名单的文本提取出来,换句话说就是将数据集中不匹配的文本剔除。具体步骤如下:将文件名单name.txt放在D盘下,并在D盘新建一个文件夹test,将原始语料a1.txt,a2.txt,a3.txt,a4.txt放入test文件夹中
Python文本剔除程序如下:
import os
rootdir = "d:\\test\\"
_files = []
for l in open("d:\\name.txt","r",encoding="utf-8").readlines():
_files.append(l.strip())
for root ,dirs, files in os.walk(rootdir):
for _file in files:
filepath = root + _file
if _file not in _files:
os.remove(filepath)
分类: 自然语言处理