erliang20088/SkyLightAnalyzer
Folders and files
| Name | Name | Last commit date | ||
|---|---|---|---|---|
Repository files navigation
1、基于二分查找的trie树结构一个分词组件,对词典有一定的依赖性,对“纯字母”、“纯数字”的字符串截断式匹配有过滤功能
2、该版本的分词的准确率主要依赖于词典的完整性,并未做新词发现、人名地名的识别,但对“纯字母”和“纯数字”的
截断式匹配进行了过滤。
3、词典词汇量为17.5万,trie树构建用时0.4s。
4、抽词速率为1150万字符/s,分词速率约为510万字符/s.
5、词典来源于ansj_seg分词,该分词的开发过程中主要参考了ansj_seg分词的数据结构与算法,在此表示感谢~