自然语言处理(Hanlp)

实例demo类

功能

实例用到的语料

   具体使用方向

DemoAtFirstSight

  开启调试模式(会降低性能)

 

  模型分词调试

DemoBasicTokenizer

演示基础分词,基础分词只进行基本NGram分词,不识别命名实体,不使用用户词典

 

 

DemoChineseNameRecognition

 中国人名识别(默认开启人名识别)

 

 

DemoCRFLexicalAnalyzer

CRF词法分析器

自1.6.6版起模型格式不兼容旧版:CRF模型为对数线性模型,通过复用结构化感知机的维特比解码算法,效率提高10倍。(分词效果与模型(model)相关)

 

 

DemoCustomDictionary

演示用户词典的动态增删(动态增加、强行插入)   【词 词性 词频】  *建议同一词性放在一个文件

 

 

DemoCustomNature

演示自定义词性,以及往词典中插入自定义词性的词语(自定义词性可在分词生效,还可插入用户自定义词典)例:词性 苹果电脑

 

 

DemoDependencyParser

依存句法分析(神经网络句法模型) 准确性依赖模型   分析句子结构(例:主 谓 宾)

 

可用于缩句、提取出一个句子的最简单机构即可(主谓宾)

DemoEvaluateCWS

 演示如何正确规范地评测中文分词的准确率:

  1、公平公正。训练模块、分词模块、语料库、评测程序全部开源。

  2、禁止使用语料库之外的词典及其等价物(词向量等)。

  3、试验结果可复现,可通过其他评分脚本校验。

icwb2-data(中文分词语料)

 

DemoHighSpeedSegment

演示极速分词,基于DoubleArrayTrie实现的词典正向最长分词,适用于“高吞吐量”“精度一般”的场合

 

 

DemoIndexSegment

索引分词

 

 

DemoJapaneseNameRecognition

日本人名识别  (需要开启)

 

 

DemoKeyword

关键词提取 (源码用到的是viterbi【维特比】分词器)    StandardTokenizer

 

 

DemoMultithreadingSegment

演示多线程并行分词

由于HanLP的任何分词器都是线程安全的,所以用户只需调用一个配置接口就可以启用任何分词器的并行化

 

 

DemoNewWordDiscover

词语提取、新词发现

红楼梦.txt

 

DemoNLPSegment

 NLP分词,更精准的中文分词、词性标注与命名实体识别。

 语料库规模决定实际效果,面向生产环境的语料库应当在千万字量级。欢迎用户在自己的语料上训练新模型以适应新领域、识别新的命名实体。(感知分词器)  使用model

 

 

DemoNormalization

演示正规化字符配置项的效果(繁体->简体,全角->半角,大写->小写)。

该配置项位于hanlp.properties中,通过Normalization=true来开启

切换配置后必须删除CustomDictionary.txt.bin缓存,否则只影响动态插入的新词,用到的分词器是:perceptron

 

 

DemoNotionalTokenizer

演示自动去除停用词、自动断句的分词器    使用分词器:Viterbi  【维特比】

 

 

DemoNShortSegment

 N最短路径分词,该分词器比最短路分词器慢,但是效果稍微好一些,对命名实体识别能力更强

 

 

DemoNumberAndQuantifierRecognition

演示数词和数量词识别  用到的分词器是:Viterbi     需要启动

 

 

DemoOccurrence

演示词共现统计   使用分词器:Viterbi 

 

 

DemoOrganizationRecognition

机构名识别   使用分词器:Viterbi   需要开启

 

 

DemoPerceptronLexicalAnalyzer

 基于感知机序列标注的词法分析器,可选多个模型。

 large训练自一亿字的大型综合语料库,是已知范围内全世界最大的中文分词语料库。

 pku199801训练自个人修订版1998人民日报语料1月份,仅有183万字。

 语料库规模决定实际效果,面向生产环境的语料库应当在千万字量级。欢迎用户在自己的语料上训练新模型以适应新领域、识别新的   命名实体。

 无论在何种语料上训练,都完全支持简繁全半角和大小写。

默认下载model(基于人民日报训练的模型仅有183万字)

推荐自己训练,不建议使用98年这中陈旧的语料库,支持在线学习

 

DemoPhraseExtractor

短语提取  使用分词器:Viterbi    NotionalTokenizer

 

 

DemoPinyin

汉字转拼音

 

 

DemoPinyinToChinese

拼音转汉字

 

 

DemoPipeline

 演示流水线模式,几个概念:

 * - pipe:流水线的一节管道,执行统计分词或规则逻辑

 * - flow:管道的数据流,在同名方法中执行本节管道的业务

 * - pipeline:流水线,由至少一节管道(统计分词管道)构成,可自由调整管道的拼装方式

 

使用正则表达式识别网址,邮箱等

DemoPlaceRecognition

地名识别  使用分词器:Viterbi

 

 

DemoPosTagging

词性标注

 

 

DemoRewriteText

这个方法可以利用同义词词典将一段文本改写成意思相似的另一段文本,而且差不多符合语法   使用分词器:Viterbi

 

 

DemoSegment

标准分词  Viterbi

 

 

DemoSentimentAnalysis

演示文本分类最基本的调用方式(是好是坏)

ChnSentiCorp情感分析酒店评论

 

DemoStopWord

演示如何去除停用词  通过api可操作停用词

 

 

DemoSuggester

文本推荐(句子级别,从一系列句子中挑出与输入句子最相似的那一个)  使用分词器:Viterbi

 

可用于推荐某一类文章

DemoSummary

自动摘要  使用分词器:Viterbi

 

 

DemoTextClassification

演示文本分类最基本的调用方式(属于哪一种类型 例如:军事)

搜狗文本分类语料库迷你版

 

DemoTextClassificationFMeasure

演示了分割训练集和测试集,进行更严谨的测试

搜狗文本分类语料库

 

DemoTextClustering

文本聚类  使用分词器:Viterbi

 

用把人分类(物一群分人以类聚)

DemoTextClusteringFMeasure

文件聚类

 

 

DemoTokenizerConfig

 演示动态设置预置分词器,这里的设置是全局的  使用分词器:Viterbi

 

 

DemoTraditionalChinese2SimplifiedChinese

将简繁转换做到极致

 

 

DemoTraditionalChineseSegment

繁体中文分词

 

 

DemoTranslatedNameRecognition

音译人名识别

 

 

DemoURLRecognition

演示URL识别

 

 

DemoUseAhoCorasickDoubleArrayTrieSegment

 基于AhoCorasickDoubleArrayTrie的分词器,该分词器允许用户跳过核心词典,直接使用自己的词典。

 需要注意的是,自己的词典必须遵守HanLP词典格式。

 

 

DemoWord2Vec

演示词向量的训练与应用

搜狗文本分类语料库已分词.txt

 

DemoWordDistance

语义距离

 

 

​​​​

 

 

 

Hanlp 

 

 

 

CRFPOSTaggerTest

模型训练    style="min-width:auto;white-space:normal;margin:4px 8px;border:1px solid rgb(217,217,217);padding:4px 8px;vertical-align:top;">

 

 

中文分词   训练

java -cp hanlp.jar com.hankcs.hanlp.model.perceptron.Main -task CWS -train -reference data/test/pku98/199801.txt -model data/test/perceptron/cws.bin

 

 

词性标注   训练

java -cp hanlp.jar com.hankcs.hanlp.model.perceptron.Main -task POS -train -reference data/test/pku98/199801.txt -model data/test/perceptron/pos.bin

 

 

命名实体识别   训练

java -cp hanlp.jar com.hankcs.hanlp.model.perceptron.Main -task NER -train -reference data/test/pku98/199801.txt -model data/test/perceptron/ner.bin

 

 

 

  

 

 

 

 

crf模型:

 

 

 

CRFSegmenterTest

CRF分词模型    cws

 

 

CRFPOSTaggerTest

CRF词性标注模型  pos

 

 

CRFNERecognizer

CRF命名实体识别模型