隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。
阅读全文:数学之美系列三:隐含马尔可夫模型
上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。”
阅读全文:数学之美系列二:谈谈中文分词
也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。本文是Google 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。
阅读全文:数学之美系列一:统计语言模型
在lucene中,如果需要使用搜索,需要使用searcher类,这是一个抽象类,它有2个子类:indexsearcher和multisearcher。
阅读全文:如何使用Lucene进行全文检索(三)
在使用lucene对相关内容进行索引时,会遇到各种格式的内容,例如html,pdf,word等等,那么我们如何从这么文档中得到我们需要的内容哪?例如html的内容,一般我们不需要对html标签建立索引,因为那不是我们需要搜索的内容.这个时候,我们就需要从html内容中解析出我们所需要的内容.对于pdf,word文档,也是类似的要求.
阅读全文:如何使用Lucene进行全文检索(二)
本文告诉你在常用的内容管理系统或新闻发布系统中如果要想做全文检索功能,如果利用Lucene进行开发。
阅读全文:如何使用Lucene进行全文检索(一)
站内搜索是一个网站重要的组成部份, 一个强大的站内搜索能令访客更快捷的找到所需的内容, 同时保证搜索的质量和结果。目前,大部份主流CMS均提供了站内搜索模块,部份还提供了模糊查询功能,但由于普遍缺乏中文分词系统,造成搜索结果不理想。对于被搜索引擎宠坏的访问者,不要指望他们会以空格或其它方法来区分关键词。这样,由于无法很好的搜索到相关信息,站内搜索几乎成为鸡肋。
阅读全文:给你的网站添加一个轻量级中文分词系统
某些网站允许软件开发社团通过发布开发者指南、白皮书、FAQs【常见问题解答】和源代码以实现信息的共享。随着信息量的增长,和几个开发者贡献出自己的知识库,于是网站提供搜索引擎来搜索站点上现有的所有信息。虽然这些搜索引擎对文本文件的搜索可以做的很好,但对开发者搜索源代码做了比较严格的限制。搜索引擎认为源代码就是纯文本文件,因此,在这一点上,与成熟的可以处理大量源文件的工具――grep相比没有什么不同。
阅读全文:利用Lucene搜索Java源代码
对于搜索引擎等概率随机采样的研究已经有了相当长的历史,具体的背景文献我们不准备在这里一一探讨。我们希望通过对Bar-Yossef等人最近工作的介绍,把一种比较客观、科学的测试方法推介给读者。我们也会探讨他们的方法对于中文索引的局限性和一些解决方案。
阅读全文:如何测试搜索引擎的索引量大小(后篇)
搜索引擎的质量指标一般包括相关性(Relevance)、时效性(Freshness)、全面性(Comprehensiveness)和可用性(Usability)等四个方面,今天我们要谈的索引量就属于完整性指标的范畴。
阅读全文:如何测试搜索引擎的索引量大小(前篇)