adnb34g 发表于 2019-2-26 14:28:51

hanlp和jieba等六大中文分工具的测试对比



本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由水...琥珀 完成的。相关测试的文章之前也看到过一些,但本篇阐述的可以说是比较详细的了。这里就分享一下给各位朋友!安装调用jieba“结巴”中文分词:做最好的 Python 中文分词组件THULAC清华大学:一个高效的中文词法分析工具包FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词教程:FoolNLTK 及 HanLP使用HanLP最高分词速度2,000万字/秒**中科院 Ictclas 分词系统 - NLPIR汉语分词系统哈工大 LTP LTP安装教程哈工大NTP分词 安装pyltp 及配置模型(新)如下是测试代码及结果

下面测试的文本上是极易分词错误的文本,分词的效果在很大程度上就可以提现分词器的分词情况。接下来验证一下,分词器的宣传语是否得当吧。


jieba 中文分词


thulac 中文分词

fool 中文分词

HanLP 中文分词

中科院分词 nlpir

哈工大ltp 分词
以上可以看出分词的时间,为了方便比较进行如下操作:
分词效果对比




结果为:



总结:1.时间上(不包括加载包的时间),对于相同的文本测试两次,四个分词器时间分别为:jieba:
页: [1]
查看完整版本: hanlp和jieba等六大中文分工具的测试对比