您好,欢迎来到欧得旅游网。
搜索
您的当前位置:首页基于大规模语料库的现代汉语集合名词搭配研究

基于大规模语料库的现代汉语集合名词搭配研究

来源:欧得旅游网
基于大规模语料库的现代汉语集合名词搭配研究

摘? 要 词语搭配是语言学领域里的一个重要概念。对词语搭配的研究,不论是对本体研究,

揭示搭配规律,还是对应用研究,指导语言教学和词典编纂,都具有非常重要的意义。类

联接是基于语料库数据驱动方法研究中的一个重要概念,是指词语搭配发生于其间的句法

结构或框架,一个类联接代表了一类搭配。研究搭配类联接和语义类别,对汉语本体研究意义重大。在二语教学中,语言学习者之所

以不能地道地掌握习得语,很重要的原因在于没有掌握习得语言的地道搭配。因此,词语

搭配研究对于第二语言教学也具有重大意义。 首先,结合前人研究,指出选题缘由,以及本文涉及的相关理论,做出方案设想。

其次,通过频次过滤,语法过滤,人工干预三个步骤处理 104 个集合名词的原始数据。再

次,对昀终数据进行分析,包括对集合名词的左右类联接和语义类别分别进行研究,总结

集合名词左右类联接和语义类别特点与规律。昀后,重点分析名名,名动,名形三大类搭

配词的语义分类。建立搭配词表是对外汉语教学的重要部分。对现代汉语集合名词的研究,

对名词研究的细致研究、汉语教学以及词典编纂具有一定的参考价值。 关键词:集合名词 词语搭配 类联接 语义分类 词汇教学 I Abstract

Collocation is an important concept of linguistics .It plays a very important role in revealing

the nature of language in both basic theoretical research and practical application in language

teaching and lexicology .Colligation is an important concept based on corpus data-driven

method,it occurs in the syntactic structure or framdwork of the collocation that represents a class

of collocation with It is of great significance in research of Chinese language to study collocation and

colligation .Beacause one of the reasons why second language learners cannot produce fluent

and idionmatic language is that they do not have a good command of collocations in the target

language ,it is also of pedagogical value to explore collocation and colligation in teaching

Chinese as a second language This paper based on the large corpus of contemporary Chinese , the paper discussed the

issue of noun collocation related to 100 collective noun collocation in discuss. In light of the

above analysis, the paper further proposes a vocabulary with reference value, which hopefully

can be a much needed tool in the TCFLFirst, I will introduce the former research in this field and account for my targeting

collective nouns in this study. Relevant theories and program ideas will be also illustrated in this

part,and describe the overall design of this research program, including the scope of the study,

the selected database, research methods as well as the research process. Second , according to

three steps that is thefrequency filtering, grammar filtering and manual intervention to deal

with the raw data of the 100 collective nouns .Third , I summarizes the colligation and semantic

distribution of the collective nouns in the Modern Chinese. After respectively analyzing the left

colligation and right colligation of the processed data, the paper comes to conclude some rules

and characteristics of such collocation .Finally,I focus of this study is laid on noun-noun

collocation, noun-verb collocation and noun-adjective collocation. Built a vocabulary of modern

Chinese has its own value: the vocabulary that built on this ground, can promote the TCFL

works??especially the vocabulary can used directly by teachers and studentsIn addition to

II

the summary of the above chapters, this part will also point out the limitation of this study

program, and come up with some possible methods to make improvementIt is expected that this study has reference value in the future research of collective nouns,

TCFL, as well as the compilation of dictionariesKeywords: Collective nouns; noun collocation; Semantic category; Colligation; vocabulary

teachingIII 目? 录? 摘 要. I Abstract II 目 录 IV 图表目录 VI

1 绪论 1 1.1 选题缘由 1 1.2 研究范围的界定 2 1.3 研究目的和意义 5 1.4 研究方法 5 1.5 理论基础 6 1.6 研究综述 7 1.7 小结. 9

2 现代汉语集合名词搭配的提取与数据整理 10 2.1 搭配提取10 2.2 数据整理11

2.3 现代汉语集合名词的数据概貌13 2.4 小结 14

3 现代汉语集合名词搭配类联接和语义类别 15 3.1“属性关系”类集合名词类联接和语义类别 17

3.2 现代汉语“群体关系”类集合名词类联接和语义类别 38 3.3 “合并关系”类集合名词类联接和语义类别45 3.4 “缩并关系”类集合名词类联接和语义类别52 3.5 “对称关系”类集合名词类联接和语义类别62 3.6 “逆向关系”类集合名词类联接和语义类别69 3.7 小结 76

4 现代汉语集合名词词表的构建. 77

5 结 语. 83 IV 注 释 84 参考文献 85

附 录(现代汉语集合名词节点词类联接) 88 在校期间发表论文情况 91 致 谢 92V 图表目录

表 1-1 集合名词 104 个节点词 5 表2-1 集合名词搭配词数据概貌 14 表3-1 名+量 类集合名词左搭配类联接. 18 表 3-2 “N+ N ”的语义分类 18 11

表3-3 V+ N11 语义分布 19

表3-4 N 的左搭配词 A的语义分布 20 11

表 3-5 光线 类联接 20

表3-6 V+光线 左搭配语义类别21 表3-7 N+光线 语义类别. 21 表 3-8 S+光线 语义类别. 22 表3-9 B+光线 语义类别. 22 表3-10 NUM+光线 语义类别. 22

表 3-11 A+光线 语义类别 22

表3-12 名+名 类集合名词左搭配类联接23 表3-13 N+ N 的语义类别 24 12V+ N 的语义类别. 26 表3-14 12

表3-15 A+ N12 的语义类别. 27 表3-16 海洋 左搭配类联接 28 表3-17 N+海洋 语义类别28 表3-18V+海洋 语义类别. 28 表3-19 名+量 类右搭配类联接 29 表3-20 N +V 语义类别. 30 11

表3-21 N +N 语义类别. 30 11

表3-22 光线 的类联接. 31 表3-23 光线+A 语义类别31 表3-24光线+V 语义类别. 31 表3-25 光线+VN 语义类别. 31 表3-26 光线+N 语义类别32 表3-27 名+名 类右搭配类联接 32 表3-28N +N 语义类别 33 12

表3-29N12+V 的语义类别. 34 VI表3-30 海洋 右搭配类联接 35 表3-31 海洋+F 语义类别36 表3-32 海洋+N 语义类别36 表3-33 海洋+VN 语义类别. 37 表3-34 海洋+V 语义类别. 37

表3-35 海洋+A 语义类别. 37 N 左搭配类联接 38 表3-36 2

表3-37 N+ N2 语义类别. 39 表3-38 V+ N 语义类别. 39 2

表3-39 集团左搭配 类联接. 39 表3-40N+集团 语义类别. 40 表3-41 V+集团 语义类别40 表3-42 PER+集团 语义类别 41 表3-43 NZ+集团 语义类别. 41 表3-44A+集团 语义类别. 41 表3-45 B+集团 语义类别 41 表3-46 N2 左搭配类联接. 42 表3-47 N +N 语义类别43 2

表3-48 N2+V 语义类别43

表3-49 集团 右搭配类联接 44 表3-50 集团+N 语义类别44 表3-51 集团+F 语义类别44 表 3-52 集团+VN 语义类别. 45 表3-53 N3左搭配类联接45 表3-54 N+ N语义类别 46 3

表3-55 V+ N3 语义类别. 47 表3-56 两岸 左搭配类联接 47 表3-57 N+两岸 语义类别47 表3-58 LOC+两岸 语义类别 48 表3-59 V+两岸 语义类别 1 48 表3-60 F+两岸 语义类别48 表3-61 N 右搭配类联接49 3

VII表3-62 N3+V 语义类别50 表3-63 N3+N 语义类别. 50 表3-64 两岸 右搭配类联接 51 表3-65 两岸+N 语义类别51 表3-66 两岸+VN 语义类别52

表3-67 两岸+V 语义类别52 加并而成表3-68

左搭配类联接53 表3-69 N+ N42 语义类别 53 表3-70 V+ N 语义类别. 54 42

表3-71 A+ N42 语义类别 54 表3-72 报刊 左搭配类联接 55 表3-73V+报刊 语义类别. 55 表3-74 N+报刊 语义类别55 表3-75 NUM+报刊 语义类别 56 表3-76 S+报刊 语义类别56

表3-77 B+报刊 、 A+报刊 语义类别 56 表3-78 N42 右搭配类联接57 表3-79 N + N 语义类别 57 42

表3-80 N42+ V 语义类别 58 表3-81 报刊 右搭配类联接 59 表3-82 报刊+N 语义类别59 表3-83 报刊+V 语义类别60 表3-84报刊+VN 语义类别. 60 表3-85 暴风雨 左搭配类联接. 60 表3-86 V+暴风雨 语义类别 61

表 3-87N+暴风雨 、A+暴风雨 语义类别 61 表3-88 暴风雨 右搭配类联接. 61

表3-89 暴风雨+V、暴风雨+TIM、暴风雨+F、暴风雨+N 语义类别62 表3-90 N5 左搭配类联接63 表3-91 V+ N 语义类别. 63 5

表3-92 N+ N5 语义类别. 64 表3-93 A+ N 语义类别. 64 5

VIII表3-94 战友 左搭配类联接 65 表3-95 A+战友 语义类别65 表3-96V+战友 语义类别. 65 表 3-97NUM+战友 语义类别66 表3-98 N+战友 语义类别66

表 3-99TIM+战友 语义类别66 N 右搭配类联接. 67 表 3-100 5

表 3-101 N5+N 语义类别. 67 表 3-102 N +V 语义类别. 68 5

表 3-103 战友 右搭配类联接68 表 3-104 战友+V 语义类别. 69 表 3-105 战友+PER 语义类别69 表 3-106 战友+N 语义类别. 69 表 3-107 N 左搭配类联接. 70

6

表 3-108 N+ N6 语义类别 70 表 3-109 A+ N 语义类别 71 6

表 3-110 V+ N6 语义类别 71 表 3-111 夫妻 左搭配类联接71 表 3-112 A+夫妻 语义类别. 72 表 3-113 V+夫妻 语义类别. 72 表 3-114 N+夫妻 语义类别. 72 表 3-115 NUM+夫妻 语义类别73 表 3-116 N 右搭配类联接. 73 6

表 3-117 N6+N 语义类别. 74 表 3-118 N +V 语义类别. 74 6

表 3-119 夫妻 右搭配类联接 74 表 3-120 夫妻+N 语义类别75 表 3-121 夫妻+V 语义类别75 表 3-122夫妻+NUM 语义类别75 表 3.123 夫妻+A 语义类别75 表4-1 光线 高频搭配词表77 表 4-2 海洋 高频搭配词表. 78

IX表 4-3 集团 高频搭配词表79 表 4-4 战友 高频搭配词表79 表 4-5 两岸 高频搭配词表80 表 4-6 词语 高频搭配词表81 表 4-7 暴风雨 搭配词情况81

表 4-8 夫妻 高频搭配词表812-1 集合名词数据整理 81 图

图2-2 语料库在线检索12 图 2-3 右搭配数据整理13

图 3-1 名+量 类集合名词前四类类联接 18 图3-2 名+名 类集合名词左搭配前 4类类联接. 23 图3-3 群体关系类左搭配前 3 类类联接 38 图3-4 群体关系类右搭配前 2 类类联接 42 图3-5 合并关系 类左搭配前 2 类类联接45 图3-6 合并关系 类右搭配前 2 类类联接49 图3-7 加并而成 类左搭配前 5 类类联接53 图3-8 加并而成 类右搭配前 4 类类联接. 57 图3-9 对称关系 类左搭配前 5 类类联接. 63 图3-10 对称关系类右搭配前 2 类类联接67 图3-11 逆向关系前 5 类类联接. 70 图 3-12 逆向关系类左搭配前 4 类类联接 70

X 暨南大学硕士学位论文 基于大规模语料库的现代汉语集合名词搭配研

1.绪论 1.1 选题缘由 1

卫乃兴指出,词语搭配是组合轴上多种组合之一。词语搭配研究属于词语的组合研究。

国内有关词语搭配的研究多是从义位组合角度进行研究和探讨,属于语义学范畴。真正专

门系统的讨论词语搭配、对词语搭配进行分类和典型性的研究比较少。 基于语料库的词语搭配研究在国外研究很早,在Firth提出词语搭配概念之时就出现

了相关研究。语料库兴起后,neo-Firth 学派开始把语料库和词语搭配相结合,运用语料

库中定量分析的方法来研究词语搭配语。以卫乃兴为代表的国内研究英语词语搭配的研究

者借鉴了这种结合语料库的词语搭配研究方法。近年来,基于语料库和语料库驱动方法来

研究词语搭配在国内逐渐兴起。这方面的研究主要有,田宏梅(2006),姚双云(2006),

张文贤,邱立坤(2007),刘凤芹(2008),雷立娜(2008) ,王茹(2009),步延新(2009),

肖升,胡金柱,姚双云,吴锋文(2009)。本文认为基于语料库中大量数据对词

语搭配进

行实证性研究,发挥其定量研究之长处,可以昀大限度的反映出现代汉语中词语搭配的真

实情况,总结出现代汉语的词语搭配规律。

在实践层面,词语搭配的研究一方面能使我们的日常交流更为流畅、顺达,用昀好的

搭配来达到昀优的交际效果,提高交际的效率;另一方面,目前对外汉语中针对性的讨论

词语搭配的研究并以此来指导对外汉语教学的比较少。因此,对此进行探讨和研究也是意

义重大。现代语言学研究表明,名词和动词是人类语言中昀基本的词类范畴,是构成句子

昀基本的要素。在现代汉语各个词类中,名词是个开放的类,词典里大部分是名词。集合

名词是指“语义所指多于一个人或事物的名词,具有[+互相关系]特征,内部构成彼此衬托、

2

相互依存、互为参照等关系”。 集合名词是汉语名词中较为特殊的一类,基于大规模语料

库的现代汉语集合名词的搭配研究目前还是一片空白。本文选题初衷在于通过对现代汉语

集合名词基于大规模语料库的搭配研究,探讨现代汉语名词在规模语料库基

础上的搭配、

语义、语法特征,形成一个名词搭配的资源库。 1

暨南大学硕士学位论文 基于大规模语料库的现代汉语集合名词搭配研究 1.2 研究范围的界定 1.2.1 词语搭配 1 词语搭配的定义

词语搭配是语言研究中一个重要概念,早期国内对词语搭配并没有严密的界定,后来

随着英语语言学研究的深入,国内学者借鉴了国外对词语搭配的界定,并结合汉语特点进

行总结,总的来说有三种:(1)从语法、语义角度进行了界定,也称为狭义的词语搭配。

以白妙青、郑家恒(2004)为代表,认为搭配就是词语组合,是两个或两个以上有一定语

3

义语法联系的词相组合,并且具有复现性。 (2)以 Halliday & Hassan为代表指出,在上

4

下文中同时出现,并且在句法和词汇上有关联的词汇的共现就是搭配。 (3)词语搭配研

究的工作定义,即“词语搭配是在文本中实现一定的非成语意义并以一定的

语法形式因循

5

组合使用的一个词语序列,构成序列的词语相互预期,以大于偶然的几率共现。”

本文选取卫乃兴(2002)对词语搭配的定义。 2 词语搭配的性质

关于词语搭配的性质,迄今汉语研究学界共有 4种观点: (1)语法性质(邢公畹, 1978);

(2)语义性质(常敬宇,1990); (3)词语搭配是理据与任意的统一(宋玉柱,1990); (4)

语法语义综合性质(张寿康和林杏光)。

本研究支持综合说,一定的语法形式蕴含一定的语义理据,表面上任意的的搭配包含

着意义和理据,各种搭配内在的联系和各种性质,只是强弱多寡的区别,并非有无的本质

区别。

1.2.2 节点词、搭配词和词语索引 1 节点词

节点词就是研究人员在语料库中检查其搭配行为的词项,语料库的每个词都可以是节

6

点词,选取哪些节点词由研究者根据其研究内容和研究目的而定(卫乃兴

2002)。

2 搭配词。在一般的语料库研究活动中,所有落入跨距内的词都被视作节点词的搭配词,

或更准确地称为共现词,并不是所有的共现词都是严格意义上的搭配词,必须具有语法限

制关系的共现词才是研究所需要的搭配词。按照所处的位置,搭配词可以分为左搭配词和

右搭配词。在提取搭配时要进行过滤筛选,具有语法语义限制关系的共现词才是本研究所

2

暨南大学硕士学位论文 基于大规模语料库的现代汉语集合名词搭配研究 需要的搭配词。 3 词语索引

词语索引是语料库中含有所研究节点词的句子片段。词语搭配研究所用的词语索引一

般是 KWIC(key word in context)索引,它已成为语料库研究人员的昀基本工具之一。

1.2.3 类联接

类联接是基于语料库数据驱动方法研究中的一个重要概念,是指语法范畴间的结合,

是关于句法结构的表述。搭配则是类联接在词语层面上的具体实现,类联接是指词语搭配

发生于其间的句法结构或框架,它不是与搭配平行的抽象,而是高一级的抽象。一个类联

接代表了一类搭配,将类联接界定在词类的层次上,用常用词类来概括搭配成分间的句法

关系。例如“采访官员”、“取消航班”,就是“V+N”的搭配,这里的“V+N”就是一个

类联接,代表了一类搭配。 1.2.4 现代汉语集合名词 1 现代汉语名词的定义

现代汉语名词主要是从意义的角度进行定义。马建忠首先从虚、实两方面对名词进行

了界定: “凡实字以名一切事物者,曰名字,省曰名” 。黎锦熙在《新著国语文法》里将名

词定义为“事物中的名称,用来表示观念中的实体”。吕叔湘在《中国文法要略》中把名

词分到实词大类里,并细分为四个小类:人物、物件、物质和无形。综合上述观点,本研

究将名词定义为,表示客观世界名物、人们认识客观世界所产生的结果名称、反应客观世

界的思想、观点等的词语统称为名词。 2 现代汉语名词的分类

目前学术界按照语义、语法功能、名量搭配等角度给名词分类。

(1) 依据意义为名词分类。马建忠按照意义标准把名词分为“公名”和“本名”,

7

公名又分为“群名”和“通名”。王力在《中国现代语法》中将名词分为三类:1)泛指一

切同类事物名称的称为“通名” ;2)指称人名、地名的称为“专名” ;3)表示人或事物的

8

单位的称为“单位名词”。 王珏在《现代汉语名词研究》中按照语义类别将名词划分为八

大类:1)称谓名词;2)身体器官名词;3)植物名词;4)抽象名词;5)集合名词;6)

生命义名词;7)歧义名词;8)同义名词。(2)依据名词与量词的搭配关系为名词分类。

3

暨南大学硕士学位论文 基于大规模语料库的现代汉语集合名词搭配研究 朱德熙在《语法讲义》分为五个小类:1)可数名词;2)不可数名词;3)集合名词;4)

9

抽象名词;5)专有名词。 彭睿在《名词和名词的再分类》中把名词和量词搭配看作名词

的区别特征,据此分为五个小类:1)个体名词;2)抽象名词;3)集合名词;4)物

质名

10

词;5)专有名词。

本研究赞同从语义角度对名词进行分类,参考王珏(2000)的分类,把名词分为8类:

称谓、身体器官、指物、抽象、集合、生命义、歧义、同义。 3 研究范围的界定

本文研究范围确定为基于国家汉办教育部社科司主编的《汉语国际教育用音节汉字词

汇等级划分》中词汇等级划分中级词汇中的集合名词,共104个节点词。 词语搭配的研究除了本体的应用价值外,还能将词语搭配研究的成果应用于对外汉语

教学,利用基于语料库的数量统计方法得出搭配度紧密的词语搭配,在对外汉语教学中以

类似于“语块”的形式向学生教授,提高学习的效率,本文选取了 104 个节点词。本文选

取节点词标准参照王珏先生的标准,即一般不能接受个体量词修饰,但可以接受不定量词

修饰,语义所指多于一个人或事物的名词。像“战友”是表达了多于一个人的相互称谓才

算是“战友” , “暴风雨”是“暴雨”和“风雨”的合并,本文均收为节点词研究范围。本

文按照王珏先生对集合名词的分类,共分为六大类: (1)属性关系集合名词:每种事物都

有自己的一定属性,属性关系名词中的每一个元素本身都具有该集合的特定的属性。当它

与标示该集合元素的词语构成判断句时,元素词语标示的人或事物的个数可以为一也可以

为二,或更多的数目,分为两类,一是,名+量,如车辆、人口、款项、星座等;二是,

名+名,如学生、工人、河流等。(2)群体关系名词:所指的人或事物由多个同类构成的

整体,它们有时可以作为一个整体而被计数。在结构上它们往往是“群、众、全、多、+

名”的形式。(3)合并关系名词:所指往往是有限可数的、具有某种相同点的人或事物,

为了称说的方便而将其合并或概括在一起说,在形式上它们往往是“数+名”式,如双边、

二老、四方等。 (4)缩并关系名词:所指与合并关系名词相同,是由省略而来。有两个小

类,一是,省略其中的一个类名而成,即 AX+BXABX,如指战员、暴风雨等;二是,加并

而成,即有近似、类同、对立等关系的名词并列在一起,如风雨,邮电等。 (5)对称关系

名词:在一元素组中,元素 A 对元素 B 有关系 R,元素 B 也对元素 A 具有这种关系,如同

乡,老乡,战友等。(6)逆向关系名词:在这一关系元素中,元素A对元素B有关系R1,

11

而元素B则对元素A有关系R2,如父子,官兵,两口等 。具体的节点词如下表1-1:

4

暨南大学硕士学位论文 基于大规模语料库的现代汉语集合名词搭配研究 表 1-1 集合名词104个节点词

对称关系 隔壁 好友 伙伴 邻居 亲属 同胞 同行 兄弟 战友 合并关系 百货 两岸 两边 两侧 两手 双打 四处 四周 逆向关系 恩人 夫妇 夫妻 父女 父子 姐妹 群体关系 峰会 集团 联盟 联赛省一类名 暴风雨

缩并 加并而成 班级 报刊 餐饮 城镇 词语 村庄 儿女 母女 母子 男女 南北

关系

桥梁 日夜 伤亡 诗歌 文艺 文娱 中外名+量 船只 窗口 港口 官员 光线 航班 金额 剧本 名额 球员 网页 学科 学时 学位 邮件 职位

属性

名+名 毕业生 表格 病毒 波浪 材料 乘客 厨师 搭档 等级 海洋 家 关系 园 教材 街道 金钱 律师 民工 民警 民众 频道 清洁工 群体

人群 设计师 摄影师 诗人 市民 宿舍 物品 物资 线路 乡村 研究生 药品 药物 医药 仪器 移民 艺人 饮料 用品 园林 主 持人

1.3 研究目的和意义

研究集合名词搭配有两个目的。一是,为中文信息处理提供语言学的支持。研究集合

名词基于语法语义系统内部各个搭配成员之间的搭配关系,可为计算机识别和切分提供支

持和依据。通过描写集合名词的语义属性和语义关系,为建立名词搭配词典提供一个参考

二是,为对外汉语教学提供一个搭配词表,提高习得汉语集合名词搭配的效率。在汉语习

得过程中,有相当多的偏误是名词误用产生的。为了使外国学生更快更好地学好汉语,我

们要抓住对外汉语教学的关键?词汇及其意义的研究和教学,拿出一部分精力放到名词的

研究和教学中来。 1.4 研究方法

1 文献资料法:借助暨南大学图书馆、CNKI、超星数字图书馆及网络搜索引擎等资源媒

5

暨南大学硕士学位论文 基于大规模语料库的现代汉语集合名词搭配研究

介进行对有关本课题研究的文献进行搜集、整理,全面的了解国内外有关名词研究的现状,

存在的问题,作为本研究的理论支撑和研究背景。

2 定量和定性研究法。本文研究是基于3亿字语料库,选取《汉语国际教育用音节汉字

词汇等级划分》中的中级词汇里 104 个集合名词,对这 104 个节点词进行人工干预式过滤

和综合“海外华语语料库”搜索进行人工过滤,提取保留的类联接及语义规律,进行定性

分析研究。

3 统计研究方法:对人工过滤后的资源库进行定量的统计,得出类联接、语义类别等统

计数据,为本文研究提供数据支撑。 1.5 理论基础 1.5.1 词语学理论

词语搭配昀初是由Firth提出,Sinclair、Halliday继承了Firth的研究,建立了词

语学,确立了实证主义的方法研究词语搭配。新弗斯学派的代表alliday(1966)和Sinclair

(1966)将其付诸实践,并提出了词语学(lexis)的概念并且提出了3个密切相关的术

语,词项(lexical item)、搭配(collocation)和词语集(lexical set)。 “词

语学

主要是对词形的组合行为进行研究。横轴上出现的词语组合体涵盖多种情况,包括复合词、

12

搭配、类联接或句法结构、短语、词语块、成语等等” 。

本研究中,关涉到词语学的相关理论,体现在词语的搭配组合行为、类联接方面。

词汇学是语义学的一个分支。前期词汇学注重分类??历时的词义变异的分类和共时

的功能的分类。现代词汇学着重理论模式的建立,力求把前期词汇学已有的分类放在符号

与公式的基础上,提高它的精密性和可验证性,同时也探索前期未曾探索的领域。

1.5.2 语义学理论

本研究选取的描写词语搭配的角度之一??语义类别,与语义学中的语义交互作用理

论有关。语义交互作用之一是词项由于其语义属性对组合伙伴所具有的语义限制;另一种

交互作用即搭配成分之间在意义上的互相限定和相互界定关系。语义学是一个涉及到语言

学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。语

义学的研究对象是自然语言的意义,这里的自然语言可以是词,短语,句子,篇章等等不

同级别的语言单位,在本次词语搭配中涉及语义的讨论。6

暨南大学硕士学位论文 基于大规模语料库的现代汉语集合名词搭配研究 搭配是组合轴上的线性共现,新弗斯代表人物 Halliday将搭配界定为“体现词项在某

13

种显著的临近范围内组合关系的线性共现。” 词语搭配不仅受句法的影响,还受语义的影

响。

1.5.3 语料库语言学

语料库语言学是一种以语料库为基础的语言研究方法,实际包括两方面的内容:一是

对自然语料进行加工、标注,二是用已经标注好的语料进行语言研究和应用开发(黄昌宁、

李涓子,2002)。本研究建立在大规模语料基础之上,利用语料库语言学的加工、标注、

分析与描写的方法进行研究。语料库语言学研究机读文本的处理,基于语料库的文本储存、

检索、词类标注、句法语义分析、软件开发等,其研究成果可用于词典编撰、词汇研究、

外语教学、文体学研究、法律语言学研究等,尤其与语言教学有密切想关性。

1.6 研究综述

名词是汉语中数量昀多,占据句法位置昀全的词类。现代语言学研究表明,名词和动

词是人类语言中昀基本的词类范畴,是构成句子昀基本的要素。运用基于大规模语料库的

研究方法对名词开展研究具有重要意义。近年来,汉语学界和英语学界基于语料库的名词

搭配研究,也日趋繁荣。通过对《中国知网》中基于语料库的名词搭配研究进行穷尽式搜

索,共找出相关研究论文 32篇,其中硕士论文 11篇。

基于语料库的名词搭配研究对象,以英语研究为主:邓腾(2008)以中国英语学习者

语料库为基础,以本族语者语料库为参照语料库,对中国大学英语学习者使用形名搭配的

特征进行研究。原斌华(2007)探讨了基于赋错误码CLEC,中国英语学习者名名搭配失

误的类型,从迁移的角度对不同类型的失误进行解释。王晓凤(2010)研究了中国大学生

英语笔头作文中动名词搭配使用情况,认为中国大学生对有些固定动名词搭配短语掌握得

很好,对有的动词有使用过度倾向。张元元(2008)也是对比了CLEC和LOB中动名搭配

的使用,发现非英语专业和英语专业在动名搭配上的差异。邓文英(2005)从CLEC中提

取搭配数据,从Brown和LOB中提取对照数据,对中国大学生的动词+名词的搭配使用进行

考察,认为中国学习者的搭配词选择很大程度上受到该词在汉语中的搭配词的影响。高建

忠(2000)对只带一个体词性宾语的动词和一个体词性名词构成的动宾搭配进行了研究,

以受限名词集合所定义的动宾搭配为识别范围。王萌、俞士汉、段慧明和孙薇薇(2008)

7

暨南大学硕士学位论文 基于大规模语料库的现代汉语集合名词搭配研究 基于语料统计方法对现代汉语名量搭配进行定量搭配,统计了量词修饰名词的情况,在统

计分析的基础上,制定了名量搭配词典。王治敏(2008)利用计算机识别探讨了汉语名词

的隐喻情况,利用规则约束和机器学习等方法,探讨了汉语名词性隐喻的理解和识别。秦

平新(2007)、刘兴华(2008)基于语料库研究方法,对个案名词进行了搭配研究。方芳、

李斌(2010)利用语料库和计算机后退算法考察了数量名词短语进行自动识别。

基于语料库的搭配研究观察窗口:孙宏林1998在大规模汉语语料中统计了名词“能

力”、动词“培训”、形容词“广泛”的搭配词语的分布情况,得出抽取这三类词

搭配词语的昀佳观察窗口是:名词一2,+1。

基于语料库的汉语名词搭配提取方法:原斌华使用 Wordsmith 检索软件,利用卡方算

法提取。赵军、黄昌宁(1999)提出了对复杂特征和昀小描述长度的 VN模板的获取模型,

此模型具有较高的精确率和召回率,但没有考虑到语境中的 VN 的识别。高建忠(2000)

提供了“匹配+语义限制”和“匹配+词语相似度”的模型。程月、陈小荷(2008、2009)提

出了基于机器自动学习的复杂统计模型条件随机场 CRFs 对动宾搭配进行自动识别。贾晓

东(2008)用词性语义约束与统计结合的方法和条件随机场模型对动宾搭配进行识别研究。

基于语料库的名词搭配的搭配算法单独指出的非常少,这里参考一下动词或者动名搭

配中的算法,对名词研究具有直接的借鉴意义。主要有三种。第一种是利用统计的算法基

于规则的算法,如张昱琪、周强(2001)提出规则匹配的方法。第二种是基于

统计的方法,

如孙茂松(1997)提出了包括强度、离散度及尖峰在内的搭配定量评估体系,并构造了相

应的搭配判断算法。陈小荷(2001)用互信息和同现次数两种方法计算关联程度,并将搭

配数据用于动宾结构的自动标注,把互信息作为处理动宾组合竞争的依据。车万翔等

(2001)基于出现的词对个数、距离及方差,并用 t 检验的改进方法,得到了词对之间的

搭配强度系数值 R,衡量词对间搭配关系的强弱。王霞(2005)综合考虑 VN 结构概率、

语义搭配概率、音节搭配概率和跨度搭配概率,并分别赋予适当的权重,提出了一个基于

统计的动宾搭配自动识别的算法。彭奇伟、王素格(2006)利用统计方法计算动词和出现

在其后的动词之间的关联程度,以自动获取动词与动词搭配。王茹(2009)采用 T值结合

MI 值共同测量的方法计算搭配强度。第三种是基于规则和统计相结合的方法,孙宏林

(1997)基于内省和语料库归纳出 14 条规则,并结合统计的方法对动词相关搭配进行研

究。王素格、由丽萍、刘开瑛(2003)利用统计搭配算法中的搭配强度、离散

度以及尖峰

三个搭配定量评估体系,并归纳出了上下文有关规则与上下文无关规则进行研究。由丽萍

8

暨南大学硕士学位论文 基于大规模语料库的现代汉语集合名词搭配研究 2003提出了统计和规则相结合的搭配自动获取办法。白妙青、郑家恒(2004、2005)利

用规则和统计相结合的方法。郑旭玲等(2007)提出了一种将基于规则和基于语料库相结

合的语义搭配规则获取方法。

总得来说,基于语料库的名词搭配研究还比较少,主要集中在英汉对比和学习者使用

偏误分析上,本体的基于语料库的名词搭配研究还非常少,不如动词的研究充分和火热。

综上所述,基于大型语料库中的动名搭配研究和英汉对照研究在名词搭配中占据了绝

对优势,从语料库的选取、提取、检验方法也逐渐多样化。接下来的名词研究可以更多的

从汉语名词本体切入,结合语料库和计算机信息技术,运用词频、MI 值、Z值,同时结合

语义语用因素来系统研究。基于大规模语料库的汉语名词研究的日趋成熟,对汉语语法、

词汇、语义体系的构建也会越来越完善,同时对中文信息处理,搜索引擎、中外文对译、

二语习得教学等具体应用的全面系统的完善也提供支撑。 除此之外,名词搭配专书和词典的取得一定成果:

近年来,《现代汉语词典》和《现代汉语辞海》不断修订和补充外,各种学习词典不

断推出,在一定程度上可以给我们的名词搭配提取、研究提供参考。 如王珏《现代汉语名词研究》(2001)、宋春阳《面向信息处理的现代汉语“名词+名

词”逻辑语义研究》 (2005) 、刘顺《现代汉语名词的多视角研究》 (2003) ;此外,张寿康

和林杏光主编的《现代汉语实词搭配词典》(1992)、梅家驹主编的《现代汉语搭配词典》

(1999)、赵培庠编著的《常用词语搭配词典》 (1999)、邵敬敏《汉语水平考试词典》 (2000),

李晓琪《汉语常用词用法词典》(2000),黄南松、孙德金《HSK词语用法详解》(2000),

商务印书馆辞书研究中心编《应用汉语词典》(2000),郭曙纶《基于语料库的 HSK 多功

能例解字典》,徐玉敏《当代汉语学习词典》(2005),鲁健骥、吕文华《商务馆学汉语词

典》(2006),这些学习词典中对于名词的搭配研究也是比较全面的

1.7 小结运用语料库对词语进行实证性研究,是目前计算语言学和语料库语言学研究的热点。

对于现代汉语名词的进行基于语料库的实证性研究是目前一个不容忽视的趋势。集合名词

是名词中的一个特殊而又重要的小类,对其进行基于大规模语料库的实证性研究,观察其

搭配情况,总结搭配规律,具有重要意义。本章详细阐述了本研究的选题缘由,阐述了本

文研究涉及的理论依据,总结了前人的研究成果,严格界定了本文研究所用到的术语。

9

暨南大学硕士学位论文 基于大规模语料库的现代汉语集合名词搭配研究 2.现代汉语集合名词搭配的提取与数据整理 2.1 搭配提取 2.1.1 确定数据

本研究基于的语料库包括国家语委平衡语料库(1919年-2006年,9千万字),报纸、

网络新闻语料库(2007年-2010年,补充语委语料库的07-10年语料,3千万字),小学

生优秀作文语料库(2000年-2010年,1.2亿字),现当代文学作品语料库(1919年-2006

年,6千万字),总共3亿字语料库。

本研究词表的来源:考虑到词语的常用度以及教学的通用性,本研究选取了国家汉办

教育部社科司主编的《汉语国际教育用音节汉字词汇等级划分》11092个词,其中普及化

等级词汇 2245 个,中级词汇 3211 个,高级词汇 5636 个(高级词汇 4175 个+高级“附录”

词汇1461个)。本研究的节点词均来源于这个词表。本文选取了以《汉语国际教育用音

节汉字词汇等级》中级词汇中的集合名词,共104个。 本研究的词性标注说明:

词性标准采用中科院赵军的词性标注标准。具体标注是:n(名词)、v(动词)、a

(形容词)、d(副词)、NUM(数量短语)、q(量词)、r(代词)、p(介词)、c(连 词)、e(叹词)、u(助词)、o(拟声词)、b(区别词)、f(方位词)、s(处所词)、 y(语气词)、z(状态词)、ad(副形词)、an(名形词)、va(动形词)、vd(副动词)、

vn(动名词)、rn(名代词)、rd(副词性代词)、md(数副词)、nq(名量词)、Ag(形 语素)、ALOC(专有地名)、an(名形词)、APER(姓)、i(成语)、j(缩略语)、k (后接成分)、l(习用语)、LOC(地名)、Ng(名语素)、nx(非汉语字串)、nz(普 通专有名词)、ORG(组织名称)、PER(名称)、Tg(时语素)、TIM(时间短语)、Vg

(动词性语素)、x(非语素字)。

2.1.2 选取统计量

首先是选取《汉语国际教育用音节汉字词汇等级划分》中的集合名词共699个,出于

典型性和常用程度的考虑,选取了《汉语国际教育用音节汉字词汇等级划分》的二级集合

10

暨南大学硕士学位论文 基于大规模语料库的现代汉语集合名词搭配研究 名词共104个。确定跨距就是确定词语搭配的观察窗口,跨距的选取依语言的不同也有所

14

不同。前文总结了国内学者关于汉语词跨距选取的结论,本文采用孙宏林1998[601] 的

结论,将跨距确定在(-2,+1),在跨距的基础上产生了距位的概念,L1表示节点词左边

第一个搭配词,R1 表示节点词右边的第一个搭配词,L2 表示节点词左边的第二个搭配词。

在实际过滤工作中发现这个跨距是可取的,名词作定语可以加“的”,也可以不加“的”。

词语搭配软件提供了词频,我们把频次作为常用度的一个主要考量标准,以辨别出典型的

搭配项。跨距之外的搭配词所占比例不大,本文暂不讨论,只探讨落入跨距之内的典型搭

配情况。 2.2 数据整理

2.2.1 数据整理的原则

本研究是从词汇层面研究集合名词与其它词之间的搭配即非递归的词语搭配,包括自

由组合和有限组合,根据对词语搭配的界定,确定词语左右搭配的过滤原则如下:

(1)频率原则。以词频为依据,把≤2的词频全部过滤掉。词语搭配大于偶然几率共现,

因此在第一遍过滤时把搭配频率为 1、2的搭配作删除处理。词语搭配搭配频率为1、2的

搭配,很大程度上是偶然搭配,不具有搭配的凝固性,搭配的强度也弱,故而在本研究进

行数据整理的第一步就是删除过滤掉词频为1、2的搭配。

(2)语法原则。词语搭配有一定的语法形式,词语搭配首先要满足搭配的语法规则,

也就是首先要满足搭配的合法性。

(3)语义原则。词语搭配是语义的聚合,搭配词和节点词之间必须具有直接的语义联

系。采用人工干预和词典、语料库相结合的语义过滤,删除没有语义联系的搭配,保留具

有语义联系的搭配。

2.2.2 操作步骤

首先,提取出节点词及其搭配词形成一个原始文件资源库,利用搭配软件,输入限定

条件,频次≤2,删除掉不符合频次原则的词语;其次,根据语法原则,删除不合语法规

则的搭配,保留合法的搭配。集合名词左搭配中,不合语法规则的词类有 u、q、p、c、k、

e、y、o,右搭配不合语法规则的词类有 p、

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- ovod.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务