用crf++工具实现中文命名实体识别

  斯坦福的课程中讲到命名实体识别HER,在学术界中认为命名实体识别是NLP已经解决的问题,其解决方式的原理便是采用条件随机场CRF。这里借助封装好的CRF++工具包实现中文命名实体识别。
环境准备:

  1. Windows crf++下载地址
  2. 案例1数据下载地址
  3. 案例2数据下载地址

· 训练CRF模型
打开cmd命令框,进入CRF目录

crf_learn crf.template train_data.txt model_test
# crf.template用来修改CRF模型
# train_data.txt训练语料
# model_test训练出来的模型名称

· 使用CRF模型预测

crf_test -m model_test test_data.txt> output_data.txt
# model_test模型名称
# test_data.txt测试语料
# output_data.txt结果语料

参考文献:

  1. 用CRF++开源工具做文本序列标注教程
  2. CRF++使用简介
  3. CRF++官方文档

分类: 自然语言处理