Hanlp中文自然语言处理中的分词方法有标准分词、NLP分词、索引分词、N-最短路径分词、CRF分词以及极速词典分词等。下面就这几种分词方法进行说明。
1) 标准分词
标准分词也是最短路分词,最短路求解采用Viterbi算法。Hanlp中有一系列“开箱即用”的静态分词器,以Tokenizer结尾。HanLP.segment其实是对StandardTokenizer.segment的包装. (ViterbiSegment,DijkstraSegment)
2) NLP分词
NLP分词NLPTokenizer会执行全部命名实体识别和词性标注。()
3) 索引分词
索引分词IndexTokenizer是面向搜索引擎的分词器,能够对长词全切分,另外通过term.offset可以获取单词在文本中的偏移量。
4) N-最短路径分词
NShortSegmentDijkstraSegment
5)CRF分词(条件随机场分词)
基于CRF模型和BEMS标注训练得到的分词器。也不支持命名实体识别,应用场景仅限于新词识别。(CRFSegment)
6) 极速词典分词
极速分词是词典最长分词,速度极其快,精度一般。(AhoCorasickSegment)
7)繁体分词
TraditionalChineseTokenizer