|
|
| 自建Web搜索引擎和站内搜索引擎攻略(一) | 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎——新闻搜索引擎。 阅读全文:自建Web搜索引擎和站内搜索引擎攻略(一) |
|
| 2006-12-10 10:56:00 |
|
| 现代汉语语料库加工手册(四) | 准谓宾动词是指可以带准谓词性宾语的动词。准谓词性宾语的含义是该宾语由动词或形容词充当,但处于这个位置上的动词或形容词(也许个别的状态词)失去原有的一些谓词性特征,却具有某些体词性特征,如不能扩充为述宾结构或状中结构,而只能扩充为体词性结构。
阅读全文:现代汉语语料库加工手册(四) |
|
俞士汶主编 | 2006-12-4 17:37:00 |
|
| 现代汉语语料库加工手册(三) | 计算机自动切分并进行词性标注,无可避免地会有各种各样的错误。校对者只要依据《规范》就可以将其中大部分错误改正。实践经验表明,即使经过人工校对,与《规范》之间的不一致仍或多或少地存在。这些不一致产生的原因很复杂,有的可能是由于校对者疏忽或疲劳而产生的;有的可能是由于《规范》对某些语言现象规定得不明确;有的可能是由于7万词表提供的静态的、有限的信息难以完全满足大规模真实语料加工的需要,有的则是由于校对者固有的语法观点同《规范》遵循的“词组本位”语法体系之间有差异。本章的目的是通过实例分析、根据需要介绍《规范》所遵循的语法体系,使参加这项工作的所有人员的语法观点统一到《规范》的基础上,以最大限度地减少系统性的错误。但这只是本项语言工程的需要,并不妨碍各位学者在各自的研究中,坚持、发展、创新各自的语法体系与学术思想。
阅读全文:现代汉语语料库加工手册(三) |
|
俞士汶主编 | 2006-12-3 14:59:00 |
|
| 现代汉语语料库加工手册(二) | 当前计算机处理书面文本时,无法区分词的狭义兼类和广义兼类,不妨笼统地将具有同一词形而具有不同词性的词叫做“多类词”。对机器标注的结果进行人工校对就是要在具体的上下文环境中确定“多类词”的正确词性。本手册所附的7万词表虽然规定自动加工后的附加信息列出了每个词可能有的词性属于的类别,这是校对的基本依据。但根据词表给出的信息毕竟是静态的,而且很难囊括实际文本中的复杂现象。因此,人工校对需坚持从文本的实际出发,不仅允许而且鼓励对词表提出修正、补充意见。不过,校对者又要认识到这个词表是多位学者在词组本位语法体系指导下经十多年研究所取得的一项基础成果,几乎每一个词的归类都经过反复琢磨和切磋而定下来的。因此,凡有不同于《规范》及词表的意见时,一定要反馈给项目负责人,以便作出有关全局的决策。另外,要求校对者仔细阅读《规范》并参照《规范》后所列的文献,在这项具体的工程实践中一定要以词组本位语法体系作为统一的指导原则。
阅读全文:现代汉语语料库加工手册(二) |
|
俞士汶主编 | 2006-12-2 23:10:00 |
|
| 现代汉语语料库加工手册(一) | 本次加工所用到各种词类及专有名称的代码已达39个。初次接触的人不易记住。为了便于查阅,将本次加工所用到的各种词类及专有名称分别按其代码的字母顺序(见附录表1)、词类及专有名称的汉语拼音顺序(见附录2)排列成如下两个表。要了解词类体系和各个词类的语法功能,请参阅《现代汉语语法信息词典详解》。代码通常用小写字母。仅对语素代码g细分类时,前面冠以大写字母。相同字母的大写排在小写的前面。目前在语料中见到的语素只有5以下几个子类:名语素Ng、动语素Vg、形语素Ag、时语素Tg和副语素Dg等。在标注过程中若发现新的子类,将采用同样的方式命名、规定其代码。
阅读全文:现代汉语语料库加工手册(一) |
|
俞士汶主编 | 2006-12-1 23:22:00 |
|
| 现代汉语语料库加工规范(四) | 根据《现代汉语语法信息词典》,对于那些没有兼类信息的词,在切分的同时就可以确定其词性。这样,标注规范重点描述那些多类词的词性,即在特定的上下文环境下如何选择一个正确的词性标记。
阅读全文:现代汉语语料库加工规范(四) |
|
俞士汶主编 | 2006-11-30 22:17:00 |
|
| 现代汉语语料库加工规范(三) | 汉语中的语素是构词的基本单位。语素构成合成词的方式主要有三种:重叠、附加和复合。对这些情况的切分标注作如下规定。
阅读全文:现代汉语语料库加工规范(三) |
|
俞士汶主编 | 2006-11-30 22:16:00 |
|
| 现代汉语语料库加工规范(二) | “分词单位”是中国国家标准“分词规范”中的一个基本概念。它是指信息处理中使用的、具有确定的语义和语法功能的基本单位。为了同“分词规范”衔接,这里仍沿用“分词单位”这个概念,不过术语改用“切分单位”,因为“分词”这个术语已在英语语法中长期使用,大家已经熟悉,而用同一个术语表达同一或邻近学科的多个概念容易引起混乱。 阅读全文:现代汉语语料库加工规范(二) |
|
俞士汶主编 | 2006-11-29 15:44:00 |
|
| 现代汉语语料库加工规范(一) | 北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。第一步是对原始语料进行切分和词性标注。1994年制订了《现代汉语文本切分与词性标注规范V1.0》。几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。
阅读全文:现代汉语语料库加工规范(一) |
|
俞士汶主编 | 2006-11-28 19:55:00 |
|
| 俞士汶教授谈中文语言处理(四) | 根据中国国家标准《学科分类与代码表》(GB/T13745--92 )。在一级学科“计算机科学技术”下的二级学科“人工智能”里包含三级学科“自然语言处理”(520.2020)。在一级学科“语言学”下的二级学科“应用语言学”里包含三级学科“计算语言学”(740.3550)。由此可见,自然科学与语言学交叉渗透所取得的成果在学科体系中已经有了一席之地。不过,无论是“计算语言学”还是“自然语言处理”都还是三级学科,这意味着在大学里设置系或专业从本科起就开始培养中文信息处理人才还是受到限制的。据笔者了解,目前只有北京大学中文系设有应用语言学(中文信息处理)专业,南京师范大学设有语言技术系。不过,培养研究生的路子就宽多了,中国的大学大约1990年代初开始培养“计算语言学”和“自然语言处理”研究方向的博士生,培养硕士生更早,1980年代中期就开始了。现在已有相当数量的博士和硕士在发挥生力军的作用。
阅读全文:俞士汶教授谈中文语言处理(四) |
|
俞士汶 | 2006-11-22 2:17:00 |
|
|