| 2014/6/2 | J2EE | 被围观 11,248 views+
IKAnalyzer是一个开源基于JAVA语言的轻量级的中文分词第三方工具包,采用了特有的“正向迭代最细粒度切分算法“,支持细粒度和智能分词两种切分模式。刚开始使用的时候,发现不能支持中文和字母混合的分词,例如:iPhone5s土豪金。后来发现在2012版本,词典支持中文,英文,数字混合词语,并且优化了词典存储,内存更小的占用。支持用户词典扩展定义。为了更好的测试,这里就使用了IKAnalyzer2012_u6这个版本。 使用到的Jar包: IKAnalyzer2012_u6.jar lucene-core-3.6.0.jar 把 IKAnalyzer中的IKAnalyzer.cfg.xml, ext.dic(如果找不到,可以手动创建一个该文件), stopword.dic文件...
| 2013/1/11 | J2EE | 被围观 4,922 views+
1、Lucene简介 Lucene是一个用Java写的全文索引引擎工具包,可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。 传统的数据库中的模糊查询 like %keyword% 是从数据库逐行匹配的,就像翻书一页页的查找需要的内容,所以效率也就自然很低了。而Lucene的全文索引指的是建立一个类似于科技索引一样的反向索引机制,将数据源排序存储,并提取出关键词并把关键词排好序,然后把关键词和文章映射好。所以检索过程就是把模糊查询变成多个可以利用索引的精确查询的逻辑组合过程。全文检索问题归结到最后就是一个排序问题。 可以从官网下载最新的Lucene: http://lucene.apache.org/core/ ...
随机文章 本月热门 热评
1 数据结构笔记 – 排序算法 冒泡排序算法实现 2011/9/20
2 Java中使用Base64编码URL作为URL的参数 2011/9/12
3 jQuery插件的编写相关技术 设计总结和最佳实践 2012/8/8
4 Java基础笔记 – Java中的泛型使用详细介绍 2011/10/30
5 Matters Neeeding Attention When Test The App Push Service 2014/10/10
6 使用Velocity生成静态页面减轻数据库压力提升网站性能 2011/10/5
友情推荐 更多
破博客 文官洗碗安天下,武将打怪定乾坤。多么美好的年代,思之令人泪落。
Mr.5's Life 白天是一名程序员,晚上就是个有抱负的探索者
行知-追寻技术之美 关注大数据,分布式系统
我爱编程 编程成长轨迹
Cynthia's Blog 学习笔记 知识总结 思考感悟
 
猜您喜欢
关于IT宅 文章归档

IT宅中的文章除了标题注明转载或有特别说明的文章,均为IT宅的技术知识总结,学习笔记或随笔。如果喜欢,请使用文章下面提供的分享组件。转载请注明出处并加入文章的原链接。 感谢大家的支持。

联系我们:admin@itzhai.com

Theme by arthinking. Copyright © 2011-2015 IT宅.com 保留所有权利.