|
|
| 俞士汶教授谈中文语言处理(三) | 以“字索引”支撑的全文检索技术应用到网页检索之所以不再有昔日的辉煌就是因为互联网上的信息太多了,量变引起质变,提高查准率成为主要追求目标。对网页文本进行切分建立词索引为搜索引擎提供了新的发展机遇。现在,在Yahoo,Google,百度等网站上检索“华人”,给出的结果不再包含关于“中华人民共和国”的网页信息,就是搜索引擎技术有重要进展的体现。
阅读全文:俞士汶教授谈中文语言处理(三) |
|
俞士汶 | 2006-11-20 11:24:00 |
|
| 俞士汶教授谈中文语言处理(二) | 与理论探讨、算法设计、演示系统开发不同,互联网搜索引擎技术要求词语切分技术具有实战能力。在互联网上应用时,歧义切分(交叉歧义和组合歧义)的消解技术仍会碰到解决不了的难题。现在最棘手的可能是“新词”问题。“新词”可定义为词典或训练语料中没有的词。新词种类很多,人名、地名、机构名、商品名等实体名称必然不断有新的出现,简称或缩略语也是,比这些更难对付的是新出现的普通词语。“新词”识别和歧义切分消解有时也会纠结在一起。
阅读全文:俞士汶教授谈中文语言处理(二) |
|
俞士汶 | 2006-11-20 11:22:00 |
|
| 俞士汶教授谈中文语言处理(一) | 我们多次前往北大计算语言学研究所和俞士汶教授进行了分词方面的技术交流,俞教授的谈话让我们受益匪浅。我们特意对俞教授进行了访谈,希望读到此文的搜索爱好者,也能和我们一起分享分词知识、探讨搜索未来。
阅读全文:俞士汶教授谈中文语言处理(一) |
|
俞士汶 | 2006-11-19 14:14:00 |
|
| 中文分词和搜索引擎(二) | 中文分词技术的研究,已经有几十年的历史了,在20世纪80年代,我国就有人开始研究如何用计算机来自动分词。如何让机器去识别语言中最小的语意单位,不是一件很容易的事情。
阅读全文:中文分词和搜索引擎(二) |
|
Winter | 2006-11-18 16:45:00 |
|
| 中文分词和搜索引擎 | 搜索引擎,上网的人基本上都不陌生了,CNNIC的第17次《互联网调查报告》显示,使用搜索引擎服务的网民,仅次于电子邮件。中文分词,估计了解的人并不多,毕竟太技术,太底层。但中文分词是中文搜索引擎系统中非常重要的模块,这里之所以强调是中文搜索引擎,是针对英文搜索引擎来讲,因为对于英文来说,空格代表词和词之间的分隔,也就不存在分词问题。和中文搜索引擎类似还有日文、韩文、泰文搜索引擎等,都需要处理分词问题。
阅读全文:中文分词和搜索引擎 |
|
Winter | 2006-11-18 16:42:00 |
|
| 集中、分布式搜索引擎的4种设计方案 | 搜索引擎,在索引量和搜索量大到一定程度的时候,索引更新的效率会逐渐降低,服务器的压力逐渐升高,因此基本上整个搜索引擎的利用率可以说是越来越低了,并且随着海量数据存储带来的困难,设计一个良好的分布式搜索引擎将是一个搜索引擎能否面相未来发展的关键因素了。 阅读全文:集中、分布式搜索引擎的4种设计方案 |
|
卢亮 | 2006-11-17 10:33:00 |
|
| Larbin一种高效的搜索引擎爬虫工具 | 本文对larbin做一个简单的介绍。因为相对于复杂的系统来讲,larbin具有高度的可配置性,和良好的工作效率。
阅读全文:Larbin一种高效的搜索引擎爬虫工具 |
|
卢亮 | 2006-11-17 10:29:00 |
|
| Lucene In Action ch6 笔记(I)自定义排序 | 使用Lucene来搜索内容,搜索结果的显示顺序当然是比较重要的。Lucene中Build-in的几个排序定义在大多数情况下是不适合我们使用的,要适合自己的应用程序的场景,就只能自定义排序功能。本节我们就来看看在Lucene中如何实现自定义排序功能。
阅读全文:Lucene In Action ch6 笔记(I)自定义排序 |
|
| 2006-11-14 9:41:00 |
|
|