Lucene中文分词组件JE-Analysis1.4.0 分词效率: 第一次分词需要1-2秒(读取词典),之后速度基本与Lucene自带分词持平。 该组件免费安装使用传播,无限制商业应用,但暂不开源,也不提供任何保证。
运行环境: Lucene 1.9+
内存消耗: 30M+
1.4.0 —— 2006-08-21
增加词典的动态扩展能力
1.3.3 —— 2006-07-23
修正无法多次增加词典的问题
1.3.2 —— 2006-07-03
修正细粒度分词错误的问题
1.3.1 —— 2006-06-23
修正在某些情况下分词遗漏的问题
1.3 —— 2006-06-22
实现了词尾消歧算法中第一层的过滤
增加日期时间的匹配
1.2.2 —— 2006-06-13
完善了中英文噪声词典
1.2.1 —— 2006-06-10
修正中文数字成语无法识别的问题
1.2 —— 2006-06-08
增加中文数字的匹配(如:二零零六)
数量词采用“n”作为数字通配符
优化词典结构以便修改调整
1.1 —— 2006-06-06
增加扩展词典的静态读取方法
1.0.1 —— 2006-06-02
修正无法识别生僻字的问题
1.0 —— 2006-05-29
支持英文、数字、中文(简体)混合分词
常用的数量和人名的匹配
超过22万词的词库整理
实现正向最大匹配算法
支持分词粒度控制
|
来源:
| 作者:
| 发表时间:
2006-10-15 17:36:00
|
|
|