solr集成mmseg4j分词-白红宇

solr集成mmseg4j分词

阅读量：7239 次

发布时间：2019-06-29

本文共 993 字，大约阅读时间需要 3 分钟。

solr集成mmseg4j分词

mmseg4j

作者blog

mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法( )实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。

MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex 加了四个规则过虑。官方说：词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

mmseg4j-solr2.2.0里面有两个jar包，分别是mmseg4j-core-1.10.0.jar，mmseg4j-solr-2.2.0.jar.将两个jar拷贝到/WEB-INF/lib里面。

配置

这时候在定义field是就可以使用text_mmseg的fieldType。

tokenizer参数

mmseg4j 在 solr 中主要支持两个参数：mode、dicPath。mode 表示是什么模式分词（有效值：simplex、complex、max-word，如果输入了无效的默认用 max-word。）。dicPath 是词库目录可以是绝对目录，也可以是相对目录（是相对 solr.home 目录下的，dic 就会在 solr.home/dic 目录下找词库文件），如果不指定就是默认在 CWD/data 目录（程序运行当前目录的data子目录）下找。

这个地方所说的solr.home我理解的时候，总是觉得是tomcat/solr 这个目录。也就是solr核心的根目录，测试了很久，这里所说的solr.home是指定core的目录，默认也就是/tomcat/solr/collection1这个目录。

dicPath支持相对路径和绝对路径，上面配置的dic,所以需要在/tomcat/solr/这个目录创建一个名为dic的目录。然后将词库文件放到这个目录下。并且词库文件名必须以words开头.dic结尾。词库强制使用utf-8.由于 utf-8 文件有带与不带 BOM 之分，建议词库第一行为空行或为无 BOM 格式的 utf-8 文件。

搜狗词库

需要转换才能给mmseg4j来使用

转载地址：http://cvrfm.baihongyu.com/

你可能感兴趣的文章