广义短语结构语法 | generalized phrasestructure grammar | 一种语言学理论。建立在上下文无关短语结构语法的基础上。由句法规则、特征限制和语义解释三个部分组成。句法范畴以X阶理论为基础,由重写规则推导出句子的树形结构,再通过特征限制进行合格性条件检验,限制过强的生成能力,然后用蒙德鸠语法的方法得到句子的语义解释。 | ||
逻辑语法 | logic grammar | 用形式逻辑方法描述语言的句子结构的语言分析方法。 | ||
定子句语法 | definite clause grammar | 仅使用上下文自由语法规则的逻辑语法。既可以描述语言的句子结构,也可以表示分析句子的推理方法。其基本思想是:语法的符号不仅是原子符号,而且可以是广义的逻辑项。 | ||
外位语法 | extraposition grammar | 在定子句语法的基础上引入"间隔"等规则扩充而成的逻辑语法。 | ||
元语法 | metagrammar | 可以用来生成一个语法的一组元规则的集合。通过元规则来揭示语法中规则之间存在的规律。 | ||
计算语言学 | computational linguistics | 语言学的一个分支。用计算机科学技术来阐释语言学和语音学问题。可以应用于自然语言理解和生成、语音识别与合成、机器翻译、文本检索和考释、语言统计、计算机辅助语言教学和词典编纂等。 | ||
计算语义学 | computational semantics | 借助数学方法(主要是数理逻辑方法)构建语义模型,把语义分析作为一个计算过程来研究的理论。 | ||
计算词汇学 | computational lexicology | 计算语言学的一个分支。用计算技术从意义、形态、结构等方面研究自然语言的词汇系统,建立面向各种应用目标的机器词典和语料库。 | ||
数理语言学 | mathematical linguistics | 语言学的一个分支。用数学方法研究语言现象,通常采用统计学、代数、概率论、信息论和计算分析等方法。 | ||
代数语言学 | algebraic linguistics | 数理语言学的主要内容之一。把语言学作为现代科学的演绎系统来研究,用一般的符号系统建立语言模型,对语言事实进行抽象的数学描述和理论上的精确分析。 | ||
统计语言学 | statistical linguistics | 语言学的一个分支。研究统计方法、概率方法和信息论方法在语言学理论和描写中的应用,包括分析语言单位在篇章中出现的频率和分布,确立某些关于语言统计特点的一般规律等。 | ||
计量语言学 | quantitative linguistics | 语言学的一个分支,也称数量语言学。用统计技术研究语言单位的频率和分布,研究这些语言单位在使用方式上的统计规律,并应用这些处理风格区别、作者鉴定等实际问题。 | ||
语料库语言学 | corpus linguistics | 语言学的一个分支。把大规模的自然语言数据(书面文本或言语录音的转写)作为语言学描写、验证语言假说、或建立语言学统计模型的依据。 | ||
自动机 | automaton | 离散数字动态系统的数学模型。按照存储量是否有限分为有限自动机和无限自动机两类。 | ||
图灵机 | Turing machine | 由一个控制部件、一条存储带和一个读写头构成的抽象机器。在理论上能够模拟现代数字计算机的一切运算,可以看作现代数字计算机的一种数学模型。通过对这种模型的研究,可以揭示数字计算机的性质。 | ||
乔姆斯基层级 | Chomskian hierarchy | 指生成形式语言的能力逐次增加的一系列形式语法,相互之间的包含关系是:3型文法 2型文法 1型文法 0型文法。由它们生成的语言也具有相应的包含关系。 | 乔姆斯基等级 | |
语言串理论 | linguistic string theory | 用结构主义观点描述语言的自动句法分析方法。在语言串分析法中,每一个句子都可以看作由若干个基本串通过附加、连接和替换等方式组合而成。在组成句子的这些基本串中至少有一个是中心串(center string),中心串代表句子的基干。每一个句子都由一个中心串加上零个或多个基本附加成分(elementary adjuncts) 组成,从中心串出发,通过逐渐扩展的方式,可以生成语言中无限多的、任意复杂的句子。 | ||
基于合一的语法 | unification-based grammar | 在语言描写、分析机制和操作原则上以合一的思想为基础的语法理论,广泛应用在自然语言处理领域。例如,广义短语结构语法、词汇功能语法、功能合一语法、范畴合一语法等。它们的共同特点是:语句分析的过程是一个对递归定义的特征结构进行合一运算的过程。 | ||
语料库 | corpus | 大量机器可读的自然语言连续素材的集合,这些素材是书面文本或言语录音的转写。可以为自然语言信息处理的研究提供语言数据,也可以应用于语言教学、词典编纂等。 | ||
汉语分词 | ①Chinese word segmentation ②Chinese word tokenization | 在以连续字串的形式表达的汉语书面语语句中,把词逐个自动识别出来的过程。特定情况下分词的结果也包括一些词组和语素。 | 汉语自动分词、汉语切词、汉语自动切词 | |
句法范畴 | syntactic category | 在句法结构中,表示各个语言单位之间的结构关系的类别。如,主语、谓语、宾语、补语等。 | ||
依存语法 | dependency grammar | 在句子的各个成分之间建立各种类型的依存关系,用来解释各种语法关系的一种形式语法理论。又称从属关系语法。依存关系由支配词语和从属词语联结而成,例如在一个小句中,动词是支配词语,从属词语是名词短语,它们由属于动词的配价指派。 | ||
链语法 | link grammar | 用链的方式描写句子中相邻成分中心词之间的连接关系的语言自动分析方法,其生成能力等价于上下文无关语法。 | ||
优选语义学 | preference semantics | 用语义公式表示词义、用语义模式表示短语或句子、用语义优先选择的方式表示词语之间的语义限制的语言自动分 |