上海涛德顾问学院

人工智能学习系列:NLP中文分词工具jieba简介

摘要: 在人工智能的NLP相关技术领域,如情感分析等。 我们会经常涉及到分词处理。而中文分词与英文单词用空格不太一样。还设计到多个字组成的词语。这时就涉及到中文分词。其中Jieba是一个非常优秀的中文分词工具。GitHub ...

作者:涛德顾问学院

 

人工智能NLP相关技术领域,如情感分析等。 我们会经常涉及到分词处理。

 

而中文分词与英文单词用空格不太一样。还设计到多个字组成的词语。这时就涉及到中文分词。其中Jieba是一个非常优秀的中文分词工具。

 

GitHub地址为https://github.com/fxsjy/jieba

 

我们通过一个简单的例子来看看。这个软件的基础用法。

 

案例:

 

import jieba

cn_string='涛德顾问学院即将在2018年底推出keras培训欢迎参加。'

jieba_list=jieba.cut(cn_string)

tokenslist=[]

for seg in jieba_list:

    tokenslist.append(seg)

print (tokenslist)

 

输出如下:

 

['', '', '顾问', '学院', '即将', '', '2018', '年底', '推出', 'keras', '培训', '欢迎', '参加', '']

 

可以看到效果还是不错,而且还自动把英文转换成了小写。当然结果还是很完美,还可能需要对数字处理。标点符号处理。不过借助于R,或者Python等工具,已经不是难事了。毕竟最重要的分词问题可以解决了。

 

当然如果你希望看到涛德顾问学院作为一个整体名称存在,就需要自定义字典了(jieba支持这个功能)

 

此外,这个软件还支持, 更多分词模式等其他功能,具体的信息可以访问上面github上的文档。

相关阅读

联系

上海涛德顾问学院 ( 沪ICP备14006824号 )  

GMT+8, 2018-12-11 12:14 , Processed in 0.133621 second(s), 15 queries , Gzip On.

Top Data World

回顶部