Python TAG文件预处理

图片名称

  最近拿到一批TAG格式的文件,需要对其进行预处理以得到我们想要的标准TXT文本格式。TAG文件与TXT文件内容如下:

.TAG文件
<Speaker 1> male
<Speaker 2> male

<Speaker 0> <[ENS]> 0 1.571 [ENS]
<Speaker 0> <[MUSIC]> 1.571 4.485 [MUSIC]
<Speaker 0> <[BELL]> 4.485 15.535 [BELL]
<Speaker 0> <[ENS]> 15.535 21.091 [ENS]
<Speaker 1> <Chinese-talk> 21.091 21.731 喂你好
<Speaker 2> <Chinese-talk> 21.731 22.73 喂喂
<Speaker 1> <Chinese-talk> 22.73 29.867 嗯您好,呃广发银行信用卡中心,我姓韩工号b s一七八九,呃请问一下是段光润段先生吗
<Speaker 0> <[ENS]> 29.867 30.507 [ENS]
<Speaker 2> <Chinese-talk> 30.507 30.982 对
<Speaker 0> <[ENS]> 30.982 31.719 [ENS]
<Speaker 1> <Chinese-talk> 31.719 33.193 您好啊,不好意思打扰您了
<Speaker 0> <[ENS]> 33.193 33.736 [ENS]
<Speaker 1> <Chinese-talk> 33.736 41.678 呃这边从系统啊留意到段先生您近期使用广发银行信用卡,这边在三月七号到三月二十四号有三笔刷卡消费

====转换后的文件样例====
.TXT文件
坐席    喂你好    21.091    21.731
客户    喂喂    21.731    22.73
坐席    嗯您好,呃广发银行信用卡中心,我姓韩工号b    22.73    29.867
客户    对    30.507    30.982
坐席    您好啊,不好意思打扰您了    31.719    33.193
坐席    呃这边从系统啊留意到段先生您近期使用广发银行信用卡,这边在三月七号到三月二十四号有三笔刷卡消费    33.736    41.678

Python预处理程序如下:

import os

s1 = '坐席'
s2 = '客户'
inputpath = 'D:/sale/epp/' #自定义输入路径
outputpath = 'D:/test/'    #自定义输出路径
endtime =  0

filedirs = os.listdir(inputpath)
for file in filedirs :
    f = open(inputpath+file,'r')
    lines = f.readlines()
    f.close()
    lines = [i.split() for i in lines]
    data = []
    for line in lines[3:] :
        temp = []
        if line[1] == '1>' :
            temp.append(s1)
        elif line[1] == '2>' :
            temp.append(s2)
        else :
            continue
        temp.append(line[5])
        temp.append(line[3])
        temp.append(line[4])
        if endtime :
            temp.append(line[4])
        data.append(temp)
        txt = open(outputpath+file[:-4]+'.txt','w')
        for line in data:
            line = "    ".join(line)
            txt.write(line+ '\n')

分类: Python技术