实例demo类 | 功能 | 实例用到的语料 | 具体使用方向 |
DemoAtFirstSight | 开启调试模式(会降低性能) |
| 模型分词调试 |
DemoBasicTokenizer | 演示基础分词,基础分词只进行基本NGram分词,不识别命名实体,不使用用户词典 |
|
|
DemoChineseNameRecognition | 中国人名识别(默认开启人名识别) |
|
|
DemoCRFLexicalAnalyzer | CRF词法分析器 自1.6.6版起模型格式不兼容旧版:CRF模型为对数线性模型,通过复用结构化感知机的维特比解码算法,效率提高10倍。(分词效果与模型(model)相关) |
|
|
DemoCustomDictionary | 演示用户词典的动态增删(动态增加、强行插入) 【词 词性 词频】 *建议同一词性放在一个文件 |
|
|
DemoCustomNature | 演示自定义词性,以及往词典中插入自定义词性的词语(自定义词性可在分词生效,还可插入用户自定义词典)例:词性 苹果电脑 |
|
|
DemoDependencyParser | 依存句法分析(神经网络句法模型) 准确性依赖模型 分析句子结构(例:主 谓 宾) |
| 可用于缩句、提取出一个句子的最简单机构即可(主谓宾) |
DemoEvaluateCWS | 演示如何正确规范地评测中文分词的准确率: 1、公平公正。训练模块、分词模块、语料库、评测程序全部开源。 2、禁止使用语料库之外的词典及其等价物(词向量等)。 3、试验结果可复现,可通过其他评分脚本校验。 | icwb2-data(中文分词语料) |
|
DemoHighSpeedSegment | 演示极速分词,基于DoubleArrayTrie实现的词典正向最长分词,适用于“高吞吐量”“精度一般”的场合 |
|
|
DemoIndexSegment | 索引分词 |
|
|
DemoJapaneseNameRecognition | 日本人名识别 (需要开启) |
|
|
DemoKeyword | 关键词提取 (源码用到的是viterbi【维特比】分词器) StandardTokenizer |
|
|
DemoMultithreadingSegment | 演示多线程并行分词 由于HanLP的任何分词器都是线程安全的,所以用户只需调用一个配置接口就可以启用任何分词器的并行化 |
|
|
DemoNewWordDiscover | 词语提取、新词发现 | 红楼梦.txt |
|
DemoNLPSegment | NLP分词,更精准的中文分词、词性标注与命名实体识别。 语料库规模决定实际效果,面向生产环境的语料库应当在千万字量级。欢迎用户在自己的语料上训练新模型以适应新领域、识别新的命名实体。(感知分词器) 使用model |
|
|
DemoNormalization | 演示正规化字符配置项的效果(繁体->简体,全角->半角,大写->小写)。 该配置项位于hanlp.properties中,通过Normalization=true来开启 切换配置后必须删除CustomDictionary.txt.bin缓存,否则只影响动态插入的新词,用到的分词器是:perceptron |
|
|
DemoNotionalTokenizer | 演示自动去除停用词、自动断句的分词器 使用分词器:Viterbi 【维特比】 |
|
|
DemoNShortSegment | N最短路径分词,该分词器比最短路分词器慢,但是效果稍微好一些,对命名实体识别能力更强 |
|
|
DemoNumberAndQuantifierRecognition | 演示数词和数量词识别 用到的分词器是:Viterbi 需要启动 |
|
|
DemoOccurrence | 演示词共现统计 使用分词器:Viterbi |
|
|
DemoOrganizationRecognition | 机构名识别 使用分词器:Viterbi 需要开启 |
|
|
DemoPerceptronLexicalAnalyzer | 基于感知机序列标注的词法分析器,可选多个模型。 large训练自一亿字的大型综合语料库,是已知范围内全世界最大的中文分词语料库。 pku199801训练自个人修订版1998人民日报语料1月份,仅有183万字。 语料库规模决定实际效果,面向生产环境的语料库应当在千万字量级。欢迎用户在自己的语料上训练新模型以适应新领域、识别新的 命名实体。 无论在何种语料上训练,都完全支持简繁全半角和大小写。 | 默认下载model(基于人民日报训练的模型仅有183万字) 推荐自己训练,不建议使用98年这中陈旧的语料库,支持在线学习 |
|
DemoPhraseExtractor | 短语提取 使用分词器:Viterbi NotionalTokenizer |
|
|
DemoPinyin | 汉字转拼音 |
|
|
DemoPinyinToChinese | 拼音转汉字 |
|
|
DemoPipeline | 演示流水线模式,几个概念: * - pipe:流水线的一节管道,执行统计分词或规则逻辑 * - flow:管道的数据流,在同名方法中执行本节管道的业务 * - pipeline:流水线,由至少一节管道(统计分词管道)构成,可自由调整管道的拼装方式 |
| 使用正则表达式识别网址,邮箱等 |
DemoPlaceRecognition | 地名识别 使用分词器:Viterbi |
|
|
DemoPosTagging | 词性标注 |
|
|
DemoRewriteText | 这个方法可以利用同义词词典将一段文本改写成意思相似的另一段文本,而且差不多符合语法 使用分词器:Viterbi |
|
|
DemoSegment | 标准分词 Viterbi |
|
|
DemoSentimentAnalysis | 演示文本分类最基本的调用方式(是好是坏) | ChnSentiCorp情感分析酒店评论 |
|
DemoStopWord | 演示如何去除停用词 通过api可操作停用词 |
|
|
DemoSuggester | 文本推荐(句子级别,从一系列句子中挑出与输入句子最相似的那一个) 使用分词器:Viterbi |
| 可用于推荐某一类文章 |
DemoSummary | 自动摘要 使用分词器:Viterbi |
|
|
DemoTextClassification | 演示文本分类最基本的调用方式(属于哪一种类型 例如:军事) | 搜狗文本分类语料库迷你版 |
|
DemoTextClassificationFMeasure | 演示了分割训练集和测试集,进行更严谨的测试 | 搜狗文本分类语料库 |
|
DemoTextClustering | 文本聚类 使用分词器:Viterbi |
| 用把人分类(物一群分人以类聚) |
DemoTextClusteringFMeasure | 文件聚类 |
|
|
DemoTokenizerConfig | 演示动态设置预置分词器,这里的设置是全局的 使用分词器:Viterbi |
|
|
DemoTraditionalChinese2SimplifiedChinese | 将简繁转换做到极致 |
|
|
DemoTraditionalChineseSegment | 繁体中文分词 |
|
|
DemoTranslatedNameRecognition | 音译人名识别 |
|
|
DemoURLRecognition | 演示URL识别 |
|
|
DemoUseAhoCorasickDoubleArrayTrieSegment | 基于AhoCorasickDoubleArrayTrie的分词器,该分词器允许用户跳过核心词典,直接使用自己的词典。 需要注意的是,自己的词典必须遵守HanLP词典格式。 |
|
|
DemoWord2Vec | 演示词向量的训练与应用 | 搜狗文本分类语料库已分词.txt |
|
DemoWordDistance | 语义距离 |
|
|
|
|
|
|
Hanlp |
|
|
|
CRFPOSTaggerTest | 模型训练 style="min-width:auto;white-space:normal;margin:4px 8px;border:1px solid rgb(217,217,217);padding:4px 8px;vertical-align:top;">
|
| |
中文分词 训练 | java -cp hanlp.jar com.hankcs.hanlp.model.perceptron.Main -task CWS -train -reference data/test/pku98/199801.txt -model data/test/perceptron/cws.bin |
|
|
词性标注 训练 | java -cp hanlp.jar com.hankcs.hanlp.model.perceptron.Main -task POS -train -reference data/test/pku98/199801.txt -model data/test/perceptron/pos.bin |
|
|
命名实体识别 训练 | java -cp hanlp.jar com.hankcs.hanlp.model.perceptron.Main -task NER -train -reference data/test/pku98/199801.txt -model data/test/perceptron/ner.bin |
|
|
|
|
| |
|
| ||
| crf模型: |
|
|
| CRFSegmenterTest | CRF分词模型 cws |
|
| CRFPOSTaggerTest | CRF词性标注模型 pos |
|
| CRFNERecognizer | CRF命名实体识别模型 |
|