如何高效获得更多的训练样本?

  现实中,文本分类的准确性直接影响到业务指标的高低,以呼叫中心催收场景为例,如果错误的将恶意拖欠的客户意图分到承诺还款中,可能使得催收员跟进不到位,导致回款率下降。又例如在电销场景中,如果将需要跟踪的客户标记为失败,可能会误导电销员后续不要再对该客户跟进,导致潜在客户丢失,成单率下降。既然分类的准确性如此重要,那么如何提高准确性呢?其中一个很关键的因素就在于训练样本量是否充足。

  传统获取训练样本的方式有两种:①收集未标注的语料,交给标注师进行标注;②找多个人,针对同一句话进行改写。第一种方式确实能获得更多整理好的样本,但我们不能保证每一篇语料中正巧都能找到我们想要标注的句子,也不能保证我们在新语料中标注的样本与之前的样本不会有重复,因此我们想通过这种方式进行语料补充,可能需要投入难以想象的人力资源。第二种方式同样能够获得更多的样本,但同样有明显的缺陷,首先不同的人对同一句话改写方式可能出现重复,其次人的主观随意性可能导致改写后的句子词意不搭、文法不通等,因此通过这种方式获得的语料我们后续需要进行二次加工才能使用。
  那么是否可以借助自然语言处理技术去扩充训练样本量呢?答案是肯定的。假如我们有这样一句话“很高兴为您服务”,我们可以借助NLP技术将其改写为“为您服务很高兴”、“竭诚为您服务”、“很高兴为您效劳”等等。如此表述“很高兴为您服务”这个意图,我们很快便有了4个训练样本。借助机器实现自动样本扩充有三点突出优势:节省大量标注人力;扩充后的文本无明显错误;非常高的执行效率。

  基于上述考虑,中金智汇为解决训练样本量不足的问题,推出了基于句式和语义的文本扩充技术。用户使用文本扩充功能时,只需要准备一批表示同一个意图的文本即可,系统会自动根据文本中句子的结构和上下文语义进行文本扩充。文本扩充技术可解决来电原因分类场景下,部分类别样本稀少的问题,也可以解决客户意图识别场景下,由于客户表述复杂多变导致意图识别不准确的问题,为企业更精细化的细分业务问题、挖掘客户心声,提供前期的数据保障。

分类: 相关资讯