ik-analyzer-solr/README.md

152 lines
6.8 KiB
Markdown
Raw Normal View History

2019-05-15 01:28:47 -04:00
# ik-analyzer-solr
ik-analyzer for solr 7.x-8.x
2018-11-14 22:06:23 -05:00
<!-- Badges section here. -->
2018-11-18 21:09:00 -05:00
[![GitHub version](https://img.shields.io/maven-central/v/com.github.magese/ik-analyzer.svg?style=flat-square)](https://search.maven.org/search?q=g:com.github.magese%20AND%20a:ik-analyzer&core=gav)
2019-05-15 01:28:47 -04:00
[![Open Source Love](https://badges.frapsoft.com/os/v1/open-source.svg?v=103)](https://github.com/magese/ik-analyzer-solr/releases)
2018-11-15 01:23:33 -05:00
[![Crates.io](https://img.shields.io/crates/l/rustc-serialize.svg)](./LICENSE)
2019-05-15 01:28:47 -04:00
[![Build Status](https://travis-ci.org/magese/ik-analyzer-solr.svg?branch=master)](https://travis-ci.org/magese/ik-analyzer-solr)
2019-05-28 20:58:17 -04:00
[![HitCount](http://hits.dwyl.io/magese/ik-analyzer-solr.svg)](http://hits.dwyl.io/magese/ik-analyzer-solr)
2018-11-14 22:06:23 -05:00
2019-05-15 01:28:47 -04:00
[![GitHub forks](https://img.shields.io/github/forks/magese/ik-analyzer-solr.svg?style=social&label=Fork)](https://github.com/magese/ik-analyzer-solr/network/members)
[![GitHub stars](https://img.shields.io/github/stars/magese/ik-analyzer-solr.svg?style=social&label=Star)](https://github.com/magese/ik-analyzer-solr/stargazers)
2018-11-14 22:06:23 -05:00
<!-- /Badges section end. -->
2018-11-15 00:59:49 -05:00
## 简介
2021-03-21 23:46:41 -04:00
**适配最新版本solr 7&8**
2021-03-21 23:48:33 -04:00
2021-03-21 23:46:41 -04:00
**扩展IK原有词库**
2021-03-21 23:48:33 -04:00
2018-12-04 02:35:27 -05:00
| 分词工具 | 词库中词的数量 | 最后更新时间 |
| :------: | :------: | :------: |
| ik | 27.5万 | 2012年 |
| mmseg | 15.7万 | 2017年 |
| word | 64.2万 | 2014年 |
| jieba | 58.4万 | 2012年 |
| jcesg | 16.6万 | 2018年 |
2020-12-29 21:59:19 -05:00
| sougou词库 | 115.2万 | 2020年 |
2021-03-21 23:48:33 -04:00
2021-03-21 23:46:41 -04:00
**将以上词库进行整理后约187.1万条词汇;**
2021-03-21 23:48:33 -04:00
2021-03-21 23:46:41 -04:00
**添加动态加载词典表功能在不需要重启solr服务的情况下加载新增的词典。**
2021-03-21 23:48:33 -04:00
2020-12-29 21:59:19 -05:00
> <small>关闭默认主词典请在`IKAnalyzer.cfg.xml`配置文件中设置`use_main_dict`为`false`。</small>
2021-03-21 23:46:41 -04:00
> * IKAnalyzer的原作者为林良益<linliangyi2007@gmail.com>,项目网站为<http://code.google.com/p/ik-analyzer>
> * 该项目动态加载功能根据博主[@星火燎原智勇](http://www.cnblogs.com/liang1101/articles/6395016.html)的博客进行修改其GITHUB地址为[@liang68](https://github.com/liang68)
2018-11-15 00:59:49 -05:00
## 使用说明
2021-12-23 04:09:21 -05:00
* jar包下载地址[![GitHub version](https://img.shields.io/badge/version-8.5.0-519dd9.svg)](https://search.maven.org/remotecontent?filepath=com/github/magese/ik-analyzer/8.5.0/ik-analyzer-8.5.0.jar)
2018-12-26 04:31:18 -05:00
* 历史版本:[![GitHub version](https://img.shields.io/maven-central/v/com.github.magese/ik-analyzer.svg?style=flat-square)](https://search.maven.org/search?q=g:com.github.magese%20AND%20a:ik-analyzer&core=gav)
2020-12-29 22:42:31 -05:00
```xml
2018-11-15 00:59:49 -05:00
<!-- Maven仓库地址 -->
<dependency>
<groupId>com.github.magese</groupId>
<artifactId>ik-analyzer</artifactId>
2021-12-23 04:09:21 -05:00
<version>8.5.0</version>
2018-11-15 00:59:49 -05:00
</dependency>
```
2018-12-26 02:26:40 -05:00
### Solr-Cloud
2018-12-26 02:15:06 -05:00
* [Solr-Cloud说明](./README-CLOUD.md)
2018-12-26 02:26:40 -05:00
### 单机版Solr
2018-11-15 00:59:49 -05:00
1. 将jar包放入Solr服务的`Jetty`或`Tomcat`的`webapp/WEB-INF/lib/`目录下;
2. 将`resources`目录下的5个配置文件放入solr服务的`Jetty`或`Tomcat`的`webapp/WEB-INF/classes/`目录下;
```console
① IKAnalyzer.cfg.xml
② ext.dic
③ stopword.dic
④ ik.conf
⑤ dynamicdic.txt
```
3. 配置Solr的`managed-schema`,添加`ik分词器`,示例如下;
2020-12-29 22:42:31 -05:00
```xml
2018-11-15 00:59:49 -05:00
<!-- ik分词器 -->
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
```
4. 启动Solr服务测试分词
2018-11-15 01:23:33 -05:00
![analyzer](./img/analyzer.png)
2019-11-11 22:46:03 -05:00
5. `IKAnalyzer.cfg.xml`配置文件说明:
| 名称 | 类型 | 描述 | 默认 |
2020-12-29 21:59:19 -05:00
| ------ | ------ | ------ | ------ |
2019-11-11 22:46:03 -05:00
| use_main_dict | boolean | 是否使用默认主词典 | true |
| ext_dict | String | 扩展词典文件名称,多个用分号隔开 | ext.dic; |
| ext_stopwords | String | 停用词典文件名称,多个用分号隔开 | stopword.dic; |
6. `ik.conf`文件说明:
2020-12-29 22:42:31 -05:00
```properties
2018-11-15 00:59:49 -05:00
files=dynamicdic.txt
lastupdate=0
```
2018-12-26 02:15:06 -05:00
1. `files`为动态词典列表,可以设置多个词典表,用逗号进行分隔,默认动态词典表为`dynamicdic.txt`
2. `lastupdate`默认值为`0`,每次对动态词典表修改后请+1不然不会将词典表中新的词语添加到内存中。<s>`lastupdate`采用的是`int`类型,不支持时间戳,如果使用时间戳的朋友可以把源码中的`int`改成`long`即可;</s> `2018-08-23` 已将源码中`lastUpdate`改为`long`类型,现可以用时间戳了。
2018-11-15 00:59:49 -05:00
2019-11-11 22:46:03 -05:00
7. `dynamicdic.txt` 为动态词典
2018-11-15 01:23:33 -05:00
2018-12-26 02:15:06 -05:00
在此文件配置的词语不需重启服务即可加载进内存中。
以`#`开头的词语视为注释,将不会加载到内存中。
2018-11-15 00:59:49 -05:00
## 更新说明
2021-12-23 04:09:21 -05:00
- **2021-12-23:** 升级lucene版本为`8.5.0`
2021-03-21 23:46:41 -04:00
- **2021-03-22:** 升级lucene版本为`8.4.0`
- **2020-12-30:**
2020-12-29 21:59:19 -05:00
- 升级lucene版本为`8.3.1`
- 更新词库
2021-03-21 23:46:41 -04:00
- **2019-11-12:**
2019-11-11 22:46:03 -05:00
- 升级lucene版本为`8.3.0`
- `IKAnalyzer.cfg.xml`增加配置项`use_main_dict`,用于配置是否启用默认主词典
2021-03-21 23:46:41 -04:00
- **2019-09-27:** 升级lucene版本为`8.2.0`
- **2019-07-11:** 升级lucene版本为`8.1.1`
- **2019-05-27:**
2019-05-27 01:23:53 -04:00
- 升级lucene版本为`8.1.0`
- 优化原词典部分重复词语
- 更新搜狗2019最新流行词汇词典约20k词汇量
2021-03-21 23:46:41 -04:00
- **2019-05-15:** 升级lucene版本为`8.0.0`并支持Solr8使用
- **2019-03-01:** 升级lucene版本为`7.7.1`
- **2019-02-15:** 升级lucene版本为`7.7.0`
- **2018-12-26:**
2018-12-26 02:15:06 -05:00
- 升级lucene版本为`7.6.0`
- 兼容solr-cloud动态词典配置文件及动态词典可交由`zookeeper`进行管理
- 动态词典增加注释功能,以`#`开头的行将视为注释
2021-03-21 23:46:41 -04:00
- **2018-12-04:** 整理更新词库列表`magese.dic`
- **2018-10-10:** 升级lucene版本为`7.5.0`
- **2018-09-03:** 优化注释与输出信息取消部分中文输出避免不同字符集乱码现会打印被调用inform方法的hashcode
2021-03-21 23:49:04 -04:00
- **2018-08-23:**
2018-12-26 02:15:06 -05:00
- 完善了动态更新词库代码注释;
- 将ik.conf配置文件中的lastUpdate属性改为long类型现已支持时间戳形式
2021-03-21 23:46:41 -04:00
- **2018-08-13:** 更新maven仓库地址
- **2018-08-01:** 移除默认的扩展词与停用词
- **2018-07-23:** 升级lucene版本为`7.4.0`
2018-11-15 00:59:49 -05:00
2019-01-17 20:42:08 -05:00
## 感谢 Thanks
2019-05-15 01:28:47 -04:00
[![IDEA](./img/jetbrains.svg)](https://www.jetbrains.com/?from=ik-analyzer-solr)
2019-01-17 20:42:08 -05:00
[![forthebadge](https://forthebadge.com/images/badges/made-with-java.svg)](https://www.java.com)
2018-11-15 00:59:49 -05:00
## BUG & 疑问 & 其它
如果您在使用过程中遇到了BUG或者有不清楚的地方请挂ISSUE或者联系作者<magese@live.cn>
2018-11-15 01:52:03 -05:00
如果您觉得该项目对您有帮助,请别忘记给这个项目一个`star`