Python之 结巴中文分词
11 Jun 2017结巴分词(Jieba)是python中一个比较常用的中文分词包,功能包括:中文分词、词性标注、未登录词识别等。本文将着重介绍以下两个部分:Part A. 结巴分词下载与安装; Part B. 结巴中文分词基础应用。
Part A 结巴分词下载与安装
1.下载结巴分词(jieba)
官方下载地址:https://pypi.python.org/pypi/jieba/
注:可尝试官网中所述的其他安装方法
2.将下载好的ZIP包,解压缩到新建文件夹中
3.进入Windows下cmd命令框,输入如下命令
C:\Users\Admin>e:
E:\>cd 新建文件夹
E:\新建文件夹>cd jieba-0.38
D:\新建文件夹\jieba-0.38>python setup.py install
#=========== 安装完成 ============#
Part B 结巴中文分词基础应用
结巴分词共支持如下三种分词模式:
精确模式 也是最常用的模式,适合文本分析;
全模式 把句子中所有的可以组成词的词语都切分出来;
搜索引擎模式 在精确模式的基础上,对长词再次切分,从而提高召回率;
Python程序设计
import jieba
text="小明硕士毕业于中国科学院计算所,后在日本京都大学深造"
seg_list = jieba.cut(text, cut_all = False)
print("Precise Mode: " + "/".join(seg_list)) #精确模式
seg_list = jieba.cut(text, cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut_for_search(text) #搜索引擎模式
print("Search Mode: " + "/".join(seg_list))
Python执行结果
Precise Mode: 小明/硕士/毕业/于/中国科学院/计算所/,/后/在/日本京都大学/深造
Full Mode: 小/ 明/ 硕士/ 毕业/ 于/ 中国/ 中国科学院/ 科学/ 科学院/ 学院/ 计算/ 计算所/ / / 后/ 在/ 日本/ 日本京都大学/ 京都/ 京都大学/ 大学/ 深造
Search Mode: 小明/硕士/毕业/于/中国/科学/学院/科学院/中国科学院/计算/计算所/,/后/在/日本/京都/大学/日本京都大学/深造
分类: 自然语言处理