Python文本预处理(文本剔除)

  最后再看一下文本剔除,该业务需求是我们手上有一份文件名单,希望从数据集中将对应名单的文本提取出来,换句话说就是将数据集中不匹配的文本剔除。具体步骤如下:将文件名单name.txt放在D盘下,并在D盘新建一个文件夹test,将原始语料a1.txt,a2.txt,a3.txt,a4.txt放入test文件夹中
  Python文本剔除程序如下:

import os
rootdir = "d:\\test\\"

_files = []
for l in open("d:\\name.txt","r",encoding="utf-8").readlines():
    _files.append(l.strip())
    
for root ,dirs, files in os.walk(rootdir):
    for _file in files:
        filepath = root + _file
        if _file not in _files:
            os.remove(filepath)

分类: 自然语言处理