语料库技术及其应用

2024-09-30

语料库技术及其应用(精选6篇)

1.语料库技术及其应用 篇一

语料库技术的发展与现代英语词典的编纂

语料库技术经历了人工采集语料、计算机语料库的建立和KWIC检索、Word Sketch En-gine检索、FrameNet检索等四个阶段.KWIC检索方便了词典编纂者观察词的用法;WSE检索利用统计数据直接归纳词语的用法;而FrameNet检索则更进一步,对语义敏感.语料库技术的发展预示着词典编纂工具已逐步实现半自动化,应得到辞书界的.重视.

作 者:徐海  作者单位:广东外语外贸大学外国语言学及应用语言学研究中心,广州,510420 刊 名:辞书研究  PKU英文刊名:LEXICOGRAPHICAL STUDIES 年,卷(期):2007 “”(3) 分类号:H1 关键词:语料库技术   词典编纂   半自动化  

2.语料库技术及其应用 篇二

1 语料库的发展状况

1.1 国外语料库的发展状况

近年来, 语料库的发展越来越趋于大型化, 同时, 一些新的、更好的统计语言模型也开始出现。国外语料库的建设和发展基本可分为三个阶段。

第一阶段是手工语料库阶段, 这一阶段主要指的是十九世纪五十年代之前。这一阶段语料库的建设主要包括以词典编纂, 语法研究为目的的语料库、以教学为目的书面语料库与词表和以语言调查为目的方言库。

第二阶段是计算机化的语料库阶段。这一阶段主要指的是十九世纪五十年代到八十年代左右。标志着语料库从计算机时代之前到计算机化之后的过渡的里程碑是Quirk在1959年宣布建立的Survey of English Usage (SEU) 语料库, 该项目旨在收集大量的风格题材各异的语料作为对英国英语口语和书面语进行系统描写的基础。在这一阶段建立的SEU Corpus, Brown Corpus, London-Lund Corpus三大电脑语料库的建立, 结束了个人费时费力收集语言材料的历史, 确立了语料库语言学无可争议的地位, 同时也给语料库赋予了新的含义。当然三大语料库的建立仅仅是一个开端, 尚有许多需要完善的地方, 例如, 库容量不够, 利用电脑检索、查阅、统计等功能还不够强大, 当时的SEU还无法用计算机程序获取所需资料等等。

1980年以来, 语料库建设迎来了一个新的阶段, 被成为新一代语料库阶段。这一阶段以COBUILD Corpus为代表, 无论是库容量还是检索统计手段都有了明显的提高, 大多采用了较新的KDEM (Kurzweil Data Entry Machine) 光电符号识别技术, 使语料的编码和编辑得以从繁重的人工输入中解脱出来, 大大加快了语料的标注处理这一语料库是由Sinclair (1987) 主持完成, 包含5亿词, 其中含1500万词的口语语料, 是迄今最大的语料库之一。之后建立的BCET (Birmingham Collec-tion of English Texts) 语料库, 容量达到730万词次, 到1987年, 已达2000万词次。20世纪90年代, 语料库规模进入了飞速增长的时期。1994年完成的英国国立语料库BNC (British National Corpus) 收录的语料已多达1亿词次, 是迄今最有代表性的当代英语信息库。这一时期语料库规模以如此迅猛的速度增长, 计算机的发展, 机读语料库的出现, 是其根本性原因。

1.2 国内语料库的发展状况

在我国, 英语语料库语言学的研究是从20世纪70年代末至20世纪80年代初兴起的, 到目前为止建立起来的英语语料库均属于专门用途语料库。20世纪90年代后, 我国广泛开展了语料库建设, 建立了不同规模的语料库, 但主要以汉语语料库为主之后, 随着国内语料库语言学研究的深入, 先后建立了一系列英语学习者语料库, 包括中国学习者英语语料库 (Chinese Learners English Corpus, 简称CLEC, 100万词) 、中国学习者英语口语语料库 (College Learners Spoken English Corpus COL-SEC, 5万) 、中国学生英语口笔语语料库 (Spoken and Written English Corpus of Chinese Learners, SWECCL, 200万) 、香港科技大学学习者语料库 (HKUST Learner Corpus, 360万中国英语专业语料库 (CEME, 148万) 、硕士写作语料库 (MWC12万) 等等。学习者语料库作为一种专用语料库, 其发展也只是近十几年的事情。1999年, 桂诗春和杨惠中编著了中国学习者英语语料库 (CLEC) 。另一重要的语料库成果是2005年由杨惠中等 (2005) 主编的中国学习者英语口语语料库 (College Learners Spoken English Corpus, 简称COLSEC) 同年出版的还有文秋芳 (2005) 主编的中国学生英语口笔语语料库 (Spoken and Written English Corpus of Chinese Learners, 简称SWEC-CL) .

近年来, 尽管我国的语料库得到了发展, 但在世界范围内, 规模尚不及欧洲的一些发达国家, 特别是英国。然而, 在语料库语言学的研究上, 以及语料库的实际运用上, 我国已经取得了一定进展。随着我国英语语言教学理论的不断发展, 语料库语言学也将受到越来越多的研究者的重视, 取得更丰硕的成果。

2 语料库在外语教学中的应用

2.1 语料库在语法教学中的作用

语法教学在外语教学中起着基础作用, 各项调查都表明语法习得的熟悉程度直接影响到外语习得的速度和质量。过去的语法教学主要依靠死记硬背, 这种教学方法教出来的学生往往只会背出一堆语法规则, 而不会灵活的运用到语言应用中去。这种填鸭式的教学方法的一大缺陷就是语法教学中忽略了语言的的发展带来的一系列的语法现象的出现和消逝。因为被公认为有权威一套语法书可能十年二十年之前就已经开始在使用了, 而这一套语法书的也不可能经常修改的。但是语言动态的, 是随着社会的发展不断发展的, 在发展过程中不可避免的会出现新的语法现象, 同时很多语法现象会逐渐退出使用。这种传统的语法教学的另一大缺陷就是所有的语法规则都会被“一视同仁”的背诵下来, 学生们往往会忽略语法中的重点难点, 这主要是因为缺乏一个真实的语言环境。传统语法教学是很难解决这一难题的, 而语料库教学的出现很好的解决了这一难题。语料库收集的都是大量真实的语言资料, 同时与语言的发展紧密相联系。语料库辅助语法教学可以为一些已被公认但存在缺陷的语法规则提出反例。例如, 当学习定语从句时, 有一条确认的规则即定语从句的先行词前有限定词all, every, only, very或序数词, 形容词最高级修饰时, 其后的关系代词要用that而不用which.但是从COBUILD语料库中检索的结果却表明, 英美本族人在其口语和书面言语中却没有完全“遵守”这条规则, 下面是从这个语料库中引用的反例。

1) and they ascertained that all which the devil had revealed

him was……

2) We discussed in detail beforehand everything whichtomight

cause conflict in the……

其次语料库有助于外语教师把握及确定语法教学的内容和重点。例如, Grabowski和Mindt在分析Brown和LOB语料库中160个不规则动词后发现, 书面英语中出现频率最高的20个不规则动词be, have, do, say, make, go, take, come, see know, get, give, find, think, tell, become, show, leave, feel, put的不规则形态占出现的所有不规则动词形态的83.6%, 所以在教授动词不规则变化时, 教师应首先教授这些单词的变化形式, 并要求学生强化记忆, 以使学生能更好地将其运用于实际交往中。

2.2 语料库在英语词汇教学中的作用

语法犹如语言的骨骼, 词汇犹如语言的血肉, 与语法教学同样重要的是词汇教学。词汇学习是英语教学中一个非常重要的方面。词汇教学是语料库资源和研究手段应用与外语教学时间最早和成果最多的一个领域。在词汇教学中语料库的作用也是巨大的。首先, 语料库可以帮学生检索出一些过时的词语搭配。例如大家都知道rain cats and dogs是倾盆大雨之意, 因为几乎在所有的英语词典里都列举了这一搭配, 并且教师在教学中大多会提到它。Rundell (1992) 曾在BNC的1000万词的口语材料中检索过该用法, 发现这个短语一次也没有出现过;在9000万词的书面语材料中也仅出现过一次。所以, 学习此类过时的搭配已不具备实际使用意义。Firth (1957) 认为词语的搭配就是“习惯性共现的词语”, 它们不仅仅指las week, another one这样的词组, 还应包括诸如although the或and the这样的组合。这就是说, 在谈到词语搭配问题时, 我们要充分考虑“习惯性共现”的各种可能的情况, 不仅仅局限于约定俗成的词组。所以说通过基于语料库的词语搭配研究, 可以减少词汇教学中呈现词语搭配的随意性与局限性, 加速学习者对词语搭配知识信息较为全面的掌握与活化, 提高词汇学习的质量和效率。此外, 语料库在辨析近义词的学习方面也是有一定作用的。现以empty和vacant两个词为例, 说明如何通过语料库索引, 让学习者分析它们在词义, 搭配上的区别。

1) It was not the case when the job was vacant 12 monthsago.

2) Boss declared he does not want the vacant PremierLeague position.

3) Bottle in his land, he looked at the empty bottle, cursedangrily.

4) Box forgets about searching for empty boxes or strugglingwith.

(COBUILD部分检索项)

从这两个词各自出现的语境中, 学习者不难发现empty和vacant的主要区别在于二者的搭配不同, 与vacant搭配频率最高的词分别是position, job等词;而与empty搭配频率最高的词分别是bottle, space等表示空间的词汇。

3 结束语

英语语料库研究的当务之急, 是建立一个大规模的、经过多级加工处理的语料库。这样的语料库至少应包含数百万, 直至上千万词的覆盖各种题材的原始文本语料, 然后经过自动切词、词性标注、句法结构分析和标注、语义标注等阶段的处理, 形成一个具有不同处理层次、包含各种标注信息的语言知识库, 从中可以提取大量有用的统计信息。语料库不仅可以应用于语法教学和词汇教学, 还可以应用于语言测试、大纲编写、教材评估、语篇分析, 中介语研究等许多教学领域, 语料库以其系统化, 科学化, 合理化的特点越来越受到广大外语教师的青睐, 并逐步显示出它在外语教学中的重要作用但是, 我们也要看到基于语料库的教学也存在一些问题, 如语料库的选择问题, 资金问题等等。解决这些问题仍需要广大英语教育工作者的不断努力, 将语料库这一先进教学工具早日全面应用到英语教学中来。

参考文献

[1]Chomsky N.Syntactic Structure[M].Mouton, 1957.

[2]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社, 2002.

[3]桂诗春, 杨惠中.中国学习者英语语料库[M].上海:上海外语教育出版社, 2003.

3.浅谈中医英语语料库及其教学意义 篇三

关键词:语料库 英语 中医

前言:众所周知,中医英语作为一门特殊学科,在现在这样一个文化多元的社会中有着非常重要的意义,中西医学在英语的辅助译介下可以通畅交流、互通有无。但是,中医英语由于其特殊性和专业性,因此在建库以及普及中医英语语料库的过程中存在着非常大的困难,本文将从中医英语语料库概述、建库基本原则、建库意义等方面具体展开论述。

1.中医英语语料库概述

1.1什么是中医英语语料库

语料库自从上世纪60年代发展至今已经取得了长足的发展并已应用到语言学领域的各个方面。语料库就是用科学的方法,系统收集的语言文集。简单地说就是对于现阶段的一些专有词汇进行整理的一个比较权威的文集。对于中医英语语料库的简单解释,就是将现阶段的一些中医专有名词进行英语翻译,将现有的一些比较权威的中医英语语料库进行扩充,在中医英语语料库的基础上使得中西方可以进行医学上的无阻交流,对于现阶段的一些核心词汇,进行系统、全面的介绍,通过这个中医英语语料库进行识别,将目前的一些中医词汇,以一个比较容易让大家理解的原则进行输入,更好的将中医的文化特征进行传播,也为中医英语的教学与研究提供了一个平台。为现阶段的英语语料库注入了新能量,形成了一个良性的循环。

1.2中医英语语料库的现状

中医英语语料库的现状还是比较乐观的。但是在很多的问题还需亟待解决的。就现阶段的语料库词汇的扩充原则来看,中医英语语料库主要应用于中医英语的教学研究、英语翻译研究、语言学研究、中医英语自动翻译研究等四个方面,而对于现阶段的中西方频繁的学术交流,如何更好的将某些词汇进行吸纳,怎样更好的让学习者更好地理解某些专有名词,这是至关重要的。怎样翻译才能既不失真又能让大家更好的理解,这是学者同仁们应该着重关注的问题。

1.3中医英语语料库的建设困难

语料库的建设一直是一个非常巨大并且困难的一个系统工程,需要一步一步的建立,其中的一些语料的建设,语料的搜集以及对于语料的分析等,都是重要环节,需要非常认真的态度,稍有疏忽,便会造成一种潜在的隐患。当然,就现阶段而言,中医英语语料库建设还有很长的路要走,还有许多棘手的问题有待解决。

1.4中医英语语料库的认识误区

中医英语语料库的认识误区有很多,下面笔者就两种代表性的误区进行详细的介绍。

一种认为中医是中国特有的文化,不该随便的传播到国外,这样中国将会失去特色。不应该将先辈们留下的宝贵遗产随便地拿给别人去学习,国人自己继承就好,因此不支持中医英语语料库的建设。

这种认识是非常错误的。中国的就是世界的。很显然,现在的趋势是文化多元化、经济全球化。只有更好的融入世界,才能更好地将先辈留下的宝贵遗产发扬光大。

还有一种认为博大精深的中医,不是随便就能翻译成英语的。并且各地的医术有细微的差别,如何将这种差别缩小,或者是统一,都是非常困难的。因此应该保持中立,这样才不会把专业性质很强的中医专有术语译介成错误语言。

这种观点大可不必担心。因为中医英语语料库的建库人员都是非常专业的、有着资深的工作经验。他们会尽可能的减少语言的障碍以及翻译过程中的失真,最大范围内对中医英译进行统一。弘扬中医的精髓。

2.中医英语语料库建设应遵循的基本原则 中医英语语料库建设需要遵守一定的原则

众所周知,中医英语翻译,看似简单,实则容易出现一些问题,首先,如果翻译的简单易懂,很可能就失去了中医术语原有的内涵;如果翻译的太困难,对于学习者来说无异于“天书”。这是一个独特的学术领域,但中医英语语料库的建设与其他专业语料库的建设是一样,必须要按照明确建库目的,选取有代表性的语料,兼顾深度以及广度的平衡,尽可能多的构建语料库。下面笔者就针对现阶段中医英语语料库的建库原则进行一个简单的介绍。

2.1建立语料库的目的

建立中医英语语料库的目的其实是非常明确的,最显而易见的就是,为了更好地研究中医英语的文化、语义以及相关的的文法特点,以便能更好的进行中西方的交流;對于现阶段的一些中医英语的表达特点进行进一步的完善;比较系统地表现出中医英语语料库的特点;对于中国的医术以及专业的术语进行一个系统的规范;进一步的完善出英语的理论体系,为中外的交流奠定了一定的基础。

就中医英语而言,不单单是为了简单的交流,更多的是为了一些现实的意义,对于一些专门用途的语言进行更好的规范,对于现阶段的特点进行归纳,有了一个明确的目的之后,就能够很好的将中医推广出去,对于现阶段的一些中医的释义以及相关的查询就会非常方便。在现在这个多元化的社会中,更好的向世界展示出中国的中医特色,更好的让中医为世界所接受,也更好的将中国的传统中医进行完善。

相关的中医英语语料库研究者,可以有效的利用语料库,通过大量的语言实例,更客观、更全面地显示中医英语的特点以及内在规律,尽可能的对现阶段的研究领域进行系统概括。

2.2语料的代表性和均衡性 语料的代表性和均衡性的意思就是概括地将现阶段的语料进行归纳,对于一个主题进行完善,尽可能的将其中的问题进行归纳解决,更好的将其中的内涵进行突出,基于某方面特征将中医英语语料库进行重组,多方面的提取这样或者那样的素材,更好的对其进行整理,不要单独的一个方面,而是选取有代表性的几个,哪怕其意思相距甚远,这样才能更好地达到一种均衡。能够充分的代表现阶段的中医英语语料库的全面性。大量各类样本组成的、有一定语言规模的、充分吸收各方意见的中医英语语料库,一定可以成为非常有利的说服工具,可以成为一种语言的代表。在建设中医英语语料库的过程中,我们收集的语料,也应该是最大限度地涵盖与建库用途相关的内容,对于其中的用途以及其中的代表意义,要尽可能全面的展现中医的内涵,尽最大可能代表中医英语语料库中语料的完整性、全面性以及独特的设计性,对于其中的设计而言,设计时需要反应总体,要充分考虑所收集的语料是否能够真正代表中医英语,是否能够全面地将各种意见收纳,是否可以涵盖整个的中医文明等。

2.3语料的结构合理性和取样随机性

中医英语语料库中需要有一个合理的结构,这样才能更好地将中医英语进行特定的研究,很显然,当下的研究还是比较肤浅的,并没有一个非常明确的态度,没有合理的结构流程,没有可以说服他人的先天性因素。其实中医英语语料库需要有一个比较合理的结构,更好的对现阶段的中医英语语料进行统一的收集,很显然,现在可以通过随机取样的形式,对中医英语语料库进行查找,看是否涵盖了所有的内容,对于现阶段的这一特定的研究领域,决定了其语料库中的语料很大一部分是来自于翻译的资料,尽可能保持这些资料的均衡,最大限度的将其中的数量达到一个均衡,结构上尽量达到一个动态的平衡,这样才能算得上是合理的。就理论上来说,尽可能的将其中的各个方面进行收集,无法在数量上达到平衡的时候,一样要进行一个相对的平衡。范围以及相关的领域的涉及一定要对应。中医英语语料库的建设其实是一个动态的建设过程,随着现阶段的英语的发展,尽可能的将中医英语语料库中的词汇进行推广,逐渐扩充到各个方面。

3.中医英语语料库的教学意义

中医英语语料库有着自己实际的教学意义,很显然,传统的英语课堂词汇的教学,无论是从方法上,还是从实际的意义上,都是非常简单原始的,最终的效果往往是非常简单,并且非常低效的。根本就没有办法实现现阶段的中医英语语料库需要达到的要求。而现阶段的中医英语语料库的建立,为相关英语的学习注入了新的内涵。

近些年来,随着语料库语言学的蓬勃发展,很多专业的研究者投身于中医英语语料库的研究中,中医英语语料库的建库对于中医英语教学的意义是非常大的。很显然,现阶段的以语料库作为教学辅助手段的研究,甚至是作为一个实践交流的平台,在中西方的医术交流中,逐渐形成了自己的体系,更好的流行开来。很多国内的学者,以及相关的专家都紧随国外同行的脚步,开展了一系列的相关研究。基于中医英语语料库的英语教学可以更好地利用这些有效的素材,将资源进行共享。中医英语语料库作为一种学习英语的辅助工具,对于中医英语教学有着非常显著的意义。学习者可以通过中医英语语料库更好的进行中医英语的学习。将语言学、认知心理学、现代教育学等理论知识充分地融合在一起,更好地为英语的学习奠定了一定的基础

3.1基于中医英语语料库的英语教学和传统英语教学的区别

传统的英语教学,就是在课堂上对于一些英语词汇、语法的教授,教师授课素材有限、学生们的接受能力因而有限;基于中医英语语料库的英语教学,可以直接利用已有的语料库中的素材,根据实际教学情况对所选取的知识进行整合,可以更好的提升学习者的自主学习能力,拓宽学习者接受英语词汇的渠道,从而优化英语教学。语料库中的相关素材具有全面性、新鲜性、及时性等特点,能够更好的激发学生的兴趣,提高课堂的效率,也便于学习者在课堂外自主利用语料库进行英语学习。

3.2中医英语语料库的未来发展趋势

中医英语语料库的发展是非常可观的,主要的原因是现阶段的中医英语语料库的建库目的非常明确,即致力于中西方文化的更好交流。随着文化多元化的进程,现在是将中医英译进行统一与通广的最佳时机,再加之国内外有众多的专业人士致力于中医英语语料库方面的研究,中医英语语料库研究前景可观。

4.结束语

综上所述,现阶段的中医英语语料库的建设是有着非常重要的意义的,尤其在中医英语教学研究,英语翻译研究,语言学研究以及中医英语自动翻译研究等方面。这也更加强化了中医英语语料库的教学意义,又因为中医药对外翻译工作的深入开展,以及中医英语名词术语、英语翻译、国际标准化研究,等方面的稳步推进,中医英语语料库的建设已经被提到了重要的议事日程。

参考文献:

[1]倪传斌.中医英语语料库的建库原则[J].上海中医药大学学报,2005,(3).

[2]何婷婷.语料库研究[D].华中师范大学,2003.

[3]陳滟,施蕴中.语料库语言学和中医汉英口语语料库[J].江西中医学院学报,2005,(5).

项目信息:本文系黑龙江省教育厅2012年度人文社会科学项目“中医英语翻译语料库研究”阶段性成果,项目编号:12522276

4.语料库技术及其应用 篇四

但是,目前我们对汉语本体语言资源的利用还远远不够。正如邢富坤(2011)所说,现有语言资源的现状,“使得语言资源的自身价值和服务教学的效益受到制约”,并倡导“提高语言资源的使用效益”。

(二)语料库技术应用于汉语教学研究的视角拓宽

语料库语言学对汉语二语教学产生了直接的影响,在教学中得到越来越广泛的应用。

3.利用汉语母语语料库开展的汉语教学工具书编纂研究

现代词典的编纂离不开语料库技术,词典编纂是语料库语言学研究的一项重要内容。如今,著名词典的编纂都以大型语料库为技术支撑。

近些年,汉语学习词典的编纂日益受到关注,研究方法和手段也开始关注到语料库技术的应用方面。季瑾(2007)利用语料库理论和信息处理技术,整理、确立了一份分等级的商务汉语词语表,进而建立了“商务汉语教材语料库”,并在此基础上提出了编写基于语料库的商务汉语学习词典的理论依据和操作设想。

(三)针对汉语教学的语料加工技术取得进展

对汉语中介语的加工水平将直接影响汉语中介语语料库的检索能力和检索结果,进而决定研究者对汉语中介语的利用程度。这是一类特色加工。近年来开展的面向汉语教学的语料库(数据库、资源库)的加工或标注研究,取得了可喜的进展。

1.外国人错字别字及语音语料标注技术

外国学生错字别字数据库的标注设计比较充分地反映了留学生在汉语学习中出现的错字别字现象,为相关的研究提供了大量真实的文本和原始字形。该数据包含了4个子数据库,分别为语料属性库、作者属性库、汉字信息库和错字别字信息库。其中,错字别字信息库是主数据库,有7个主要字段:错字别字序号、正字、错字别字原形、别字上下文、二次标注字段、语料编号、错字别字文中位置等,可以为具体开展外国人汉字偏误分析及汉字习得研究提供数据和材料支持。

汉语语音教学有其特殊性,如声调问题、儿化、轻声和舌尖前、后音的辨别问题等。这些既是汉语语音教学的重点,也是教学中的难点。汉语中介语语音语料库的建立,可以为本体及教学研究提供丰富、真实的音频资料,而其具有汉语特点的语音属性标注(如拼音、声调等)无疑在现阶段汉语中介语语料库研究中又填补了一项空白,可以为语音偏误分析提供翔实的第一手材料。

2.汉语中介语语法偏误自动识别技术

汉语语法偏误是汉语偏误研究的重要内容,对偏误规律的把握是开展偏误研究的基础。以往的偏误筛选都是依靠人工的方法,由于数据量大,容易出现效率低和标注结果不一致等问题。而计算机自动识别语法偏误,不仅可以提高工作效率,还可以解决人工标注不一致的问题。王洁(2011)虽然仅针对汉语三个特殊句式进行了实验研究,但这已让我们看到了汉语中介语偏误自动识别技术的曙光。正像当年计算机分词技术以百分比中的个位数字不断提升一样,我们完全有理由相信,这一技术终将得到改进,识别率会逐步提高。这是对汉语中介语加工研究的一大突破,应予重视。这项技术还将应用于计算机辅助教学中学生作业自动批改系统和答疑系统的设计等。

二有待深化的研究问题及有待拓展的研究领域

(一)有待深化的研究问题

针对目前的研究状况,我们认为以下问题有待深化。

1.进一步运用科学的统计方法判定语料库结果

我们注意到,张宝林(2010b)指出了一个现象,即不同语料库对同一问题的研究结果不同,并认为“语料规模较大的数据结果相对可靠”。但实际上,数据规模是无法决定数据结果的可靠性的。数据规模对研究结果可信程度的贡献主要体现在估计的显著程度上。因此,只要说明分析结果所依据的数据库的数据来源、语料特征以及数据规模即可。不同数据库分析结论的比较必须建立在数据来源有相似特征的基础上,否则比较是无意义的。

2.推进语料库的流通和基础统计结果的共享

人们不仅期待科学的、标注完备的语料库,更期待它成为共享资源。国内外不乏通过出版社出版发行的方式,或者网络下载单机版、在线使用网络版(包括免费和收费)的方式,来促进语料库的推广和应用郑艳群,2012)

(4)有待从深度和广度拓展的语料加工技术。

目前面向对外汉语教学信息处理的词表和词类标记规则尚未形成。⑨在标注方面,我们应更加重视对语料进行不同层次的标注(如语义、语用、语篇等)。

6.开启语料库网的教学应用

朗文语料库(Longman Corpus)于20世纪80年代建立,由朗文—兰开斯特英语语料库、朗文口语语料库、朗文英语学习语料库组成,因此也有人称其为朗文语料库网。其主要目的是编纂英语学习词典。目前,在此基础上已有系列工具书陆续出版。

面向外语教学的应用研究,单纯从一个方面观察语料结果显然是不够的,汉语教学中教材编写和词典编纂等教学研究都应该吸纳这一思想。

7.加强汉语中介语语料处理工具的研究

二十多年来,语料库语言学的长足发展,有力地推进了汉语教学的探索进程,主要表现在语料库的建设和应用两个方面。

但是,对汉语中介语语料处理工具的研究还远远不能满足现实的需要。例如,应在中介语词汇和句法分析研究的基础上,设计和研制汉语中介语分词和词性标记工具、双语对齐工具,以及常见偏误搭配自动标记、常见偏误句式自动标注工具等。

8.重视基于语料库的外语学习理论在汉语教学中的实际应用

语料库的应用不仅可以提高语言教学质量,还可以丰富语言教学形式。

Tim Johns在1991年提出“数据驱动学习(Data-driven Learning,简称DDL)”,实际上是一种语料(库)驱动。该理论是一种基于语料库检索语言材料学习语言的方法。一系列的实验已经证明,这是一种行之有效的外语教学方法。然而,这种教学方法目前在汉语作为第二语言教学中的研究和应用仍未形成体系。

5.英语口语教学语料库的建设与应用 篇五

关键词:英语口语教学;语料库;语料库语言学

语料库语言学(corpus linguistics)是20世纪的新兴学科,是兼顾结构主义和功能主义研究的中间形态。目前国外已经建成了数以亿计的大型语料库,从类型上分为单语和双语,从领域上分为报刊、文学、军事、经济等专门语料库。我们逐渐达成了共识,那就是“以计算机存储的语料为基础的语言研究方法,是当今语言学任何分支学科研究的一种自然的、现代化的甚至是不可或缺的辅助手段”。虽然自从有外语教学以来就一直强调口语教学,也不断有文章论述口语课堂的教学法,诸如自主学习、师生互动到学生是课堂的主体、多媒体辅助教学等,但实际收到的效果各有不同,一方面与教师的水平和教学设备有直接关系,另一方面则归因于学生自身的积极性和素质的高低。授之以鱼不如授之以渔,我们秉承教学之中以培养能力為首要目标,在脱离教师的情况下,学生可以自己建立学习目标、寻找学习资料、循序渐进地自我训练,从而实现时时学习、终身不断完善自己的目的。

在此只是指出我们在当前英语口语教学实践中的一种状况,在分析了现存的一些问题之后,发现语料库自身的一些优势似乎正是口语教学的症结所在,正如M.Mc-Carthy(2006:48)所认为的,“语言是在社会语境中习得的,语言习得是社会化和文化适应的过程”。我们尝试自建语料库并用于英语口语教学,正如McCarthy(2004:1—2)指出的语料库可以解决的一些问题:

What are the most frequent words and phrases in English?

What are the differences between spoken and written English?

What tenses do people use most frequently?

What prepositions ibllow particular verbs?

随着以上问题的指引,我们接下来进一步深入语料库与语料库语言学的一些研究现状,我们的重点不是介绍具体的理论问题,而是通过对目前语料库研究内容的了解指导我们去自建口语教学语料库,从而把语料库应用到课堂教学,在丰富教学手段的同时达到提高教学效果的目的,最终实现学生有意识地自主学习。正如D.Biber等(2000:233)所言:“把语料库的方法用于教学为语言使用提供了一个新的研究视角。”

一、语料库与语料库语言学

语料库是语言材料的仓库,是大量真实语境中使用的语言数据的集合,“如果以在真实语境中使用的语言为分析的基础,那么势必会对语言学研究有益”。未经过加工的语料库为生语料库,而经过词汇标注、句法标注、语义标注等加工之后的语料库则成为熟语料库,相对于生语料库来讲,熟语料库在相关软件工具的辅助之下就具有了广泛的用武之地,成为语料库语言学的操作对象,可用于词典编撰、语言教学、传统语言研究、基于统计或基于实例的自然语言研究等。基于语料库的方法是现代语言学研究中继内省法、诱导法之后的第三种方法,Gena.R.Ben-net(2010:7—8)指出了语料库方法的特征:一是一种分析自然语言实际应用中的真实模式的经验方法;二是把按照一定原则采集的自然文本作为分析的对象和基础资源;三是借助计算机程序实现扩展性的分析;四是一种兼顾质的原则和量的原则的分析技术。

世界上第一个大规模的英语语料库是建于1961年的BROWN CORPUS,达到了100万词。时至今日,语料库的规模和数量急剧增长(如The Cambridge International Cor-pus达到了10亿词汇),语料库语言学在二语教学和研究中作出了突出的贡献,许多著名的学者都曾经或正在致力于语料库语言学研究,如Leech,Biber,等。我国国内出现了大规模的语料库建设并且伴随着利用语料库进行的研究,英语界如桂诗春教授的“中国英语学习者语料库”就是关于中国英语学习者的作文语料,共100多万词,并标注了学生在作文中常见的62类错误,错误类型包括了拼写错误、词语搭配错误、词语用法错误以及语法结构错误等,这对于指导中国学生学习英语起到了积极的作用。

限于篇幅,我们不再赘述语料库的理论问题,重点是个人小型口语教学语料库的建设和应用方面,希望能通过拙文起到抛砖引玉的作用,使语料库能在口语教学中发挥应有的效果。

二、个人口语教学语料库的建设

语料库是按照特定目的收集起来的真实文本的集合,用于定量分析语言的使用信息,从而辅助直觉判断,所以根据建库的目的我们就区分出了不同的语料库类型,如一般语料库、专业语料库、学习者语料库、历史语料库、平行语料库、对比语料库、教学语料库(pedagogic corpora)等。一般语料库包含各种语言变体,可以在一定程度上代表语言的全貌,如BNC(the British National Cor-pus),学习者语料库如ICLE(the International Corpus ofLearner English),专业语料库如MICASE(the Michigan Cor-pus of Academic Spoken English)等。

在此,我们需要区分两个概念,即口语语料库和我们所指的个人口语教学语料库。在学术传统意义上,口语语料库指的是对口语特征进行深度研究的专门语料库,如语音语调的规律、语音合成等,以真实口语对话的采集和语音转录为内容。个人口语教学语料库则以教学为首要目标,意在为口语课堂教学提供学习的语料,同时培养学生的学习敏感性和对学习材料的把握能力,根据自身学习的状况建立个人语料库,成为所能收集到的有关主题的文本总集。虽然在规模上远未达到一般研究性语料库的要求,但是对个人学习却有着超出一般参考书的价值。下面我们介绍个人小型语料库建设的一些情况。

首先,语料库建设中涉及的主要问题包括:设计和规划;语料的采集;语料的加工;语料管理系统的建设;语料库的应用。

现在我们接触到的语料库都是具有一定词汇数量的电子文本集,如果达不到一定的规模,那么语料库就没有多大的说服力,因此,一个成功的语料库除了大量的生文本,还需要进行复杂的标注以及语料库检索和软件工具的设计,这除了要求具有语言学知识,还需要编程和软件设计等计算机知识和网络知识,这是一个集体性的工作,往往只凭个人的努力很难做到。但是,我们没有必要就此放

弃对语料库的使用,本文所谈的英语口语教学语料库,就是利用现有的硬件,如个人计算机、扫描仪,语料库软件工具,如TextSTAT,WordSmith Tools,MonoConc Pro,CLAWS4等,網络资源、图书、杂志、报纸等,尝试建设个人小型的语料库,把已有的资源整合化处理,实现最优化利用。

根据口语教学语料库的设计目的,我们以主题为基础进行主框架分类,在每一个主题下又进行了话题(sub—ject field)分类,如我们以leisure为一大类主题下又分为food,travel,fashio,sport,household,antiques,hobbies,garden-ing,每一个次话题的文本(sample)可以从教科书、网络、报纸、杂志上经过转写操作以电子文本的形式存储在计算机上。而之后采用国际通用的附码集(tagset)(standard gen—eralized markup language,SGML),如BNC中每个单词的SGML标注,“可以使电子文本重复进行编辑、搜索、分析和排版”。现在网络上存在可以免费使用的语料库,如The linguistic data consortium,http://www.ldc.up-enn.edu,European corpus initiative,http://www.cogsci.ed.ac,uk/elsnet/eci,html.the international computer archive ofmodern English,http://www.hd.uib.no.口语语料库有自身的特点,除了文本头标注外,还应对口语类型(对话、独白、演讲等)、会话角色、话语特征(如语词重复、停顿、口误等)、语法错误等进行标注。

我们可以利用Google alert/设置好我们需要的内容,然后网络会定时地把信息发到我们设置的电子邮箱当中,这样通过人工筛选可以添加到我们自建的语料库当中作为生语料。Google alert的服务界面如下截图所示:

然后,通过以上手段收集到的自然文本,我们要通过一系列的步骤把它们存储到计算机当中,经过标注之后的语料库便具有了丰富的语言学信息,在一些软件的辅助下就可以发挥作用了。我们自建的个人英语口语教学语料库便经过了以下几个步骤:

第一,把收集到的文本形式统一转换为TXT格式,在每一个文本的抬头记录下该文本的来源、采集方式。

第二,校对文本内容。如拼写、标点等内容,对文本中各种非文字符号、标点、大小写问题等进行处理和歧义消除。

第三,标注,这是自然语言处理的基础。形态分析指对文本中的词形进行词性标注和赋码,目前已有成熟的词性赋码软件,可以对每一个词指定一个或多个词性码,就对纯英语文本而言,其赋码准确率一般可以达到98%。而句法分析和语义分析则以词性标注为基础,属于较为深入的研究而且非常复杂,在个人口语教学语料库中可以暂不涉及此部分内容。

第四,语料库应用软件的设计和使用。基于不同的研究目的和检索要求便会有不同的应用软件,使用在语料库中的软件就分为词性标注软件、分词软件、索引软件、句法标注软件、语义标注软件等。

文件夹下分为了不同的内容,通过提取标注后的样本文件,我们可以利用wordsmiths tools进行词频统计,得出在本话题讨论中最常见的词汇列表,去掉常用的如is,are,he,she,do等就剩下核心词汇,如blackberry,smartphone,bis,bes,appworld,desktopmanager,handheld software等,如果讨论blackberry in China的话题,我们还会看到ChinaTelecom和China mobile。学生可先行根据词频列表集中学习自己不熟悉的单词,然后根据主题选择自己的阅读。等学生进行完阅读以后,可就相关话题展开讨论,或自己表述,如:

Do you like blackberry?Why?

Could you say something about the future of blackberry inChina?

Is blackberry only a phone or something more to you?

What could you do with blackberry?

语料库可以为学生提供丰富和直观的语言素材,便于激发言说的欲望,使其有话想说、有话可说,从而达到使学生积极发言的目的。更为重要的是,提供了一种学习的方法,学生就某个自己关心的话题可进行自主查阅资料、积累语料,提高自主学习的能力和主动性。学生在上网的时候除了QQ、游戏、邮箱、娱乐新闻、看电影之外,不再因为不知道做什么而蹉跎光阴。

总之,在现有网络资源和计算机设备以及语料库应用软件的基础上,以丰富英语口语教学语料为出发点,以提

个人语料库属于特殊用途语料库,因此在设计和标注上不同于一般语料库,在样本的选择、语料库的规模上没有硬性的标准,语料库应该是可以及时更新的以便更好地代表一种语言或者语言的某一部分。

三、口语教学语料库的应用举偶

基于语料库的方法被称为现代语言学的三大研究方法之一,其中一个主要原因是语料库“以量化研究为基石,以概率统计为基本手段,以数据驱动为基本理念”传统语料库研究的重点放在了词频统计、语体风格分析、词语搭配(collocation)、固定表达(1exical bundles)、词汇语法(1exicogrammar)、语域(register)、特殊用途英语(Englishfor specific purposes)、语言差别(nuances of language)、教学大纲设计(syllabus design)等。

现就笔者感兴趣的blackberry的话题为例,通过自建小型个人语料库的辅助进行英语口语教学的展示。首先,按照我们语料库话题分类,blackberry属于applied science大类之下的technology and engineering,再次范畴划分为communications,用路径表示为:applied science\technologyand engineering\communications\phone\blackberryo高教学效果为目的,以培养学生自主学习能力为终极目标而开展的个人口语教学语料库的建设和应用研究体现出了其优势所在。需要指出,在肯定语料库在外语习得和教学中的巨大作用的同时,我们不能盲目地声称语料库语言学可以解决传统教学所存在的一切问题,我们需要发挥传统教学内省方法对语言形式研究的优势,同时结合基于语料库的以丰富的语言实例为数据驱动的教学方法,实现现代外语教学既重语言形式又重语言功能的全新理念。

参考文献

[1]范琳.二语习得与外语教学研究[M].青岛:中国海洋大学出版社,2007.

[2]C.F.Meyer.English Corpus Linguistics[M].Cambridge University Press,2004.

[3]S.Hunston.Corpora in appliedlinguistics[M].北京:世界图书出版公司,2006.

[4]傅爱平.语料库研究与应用综述[EB/OL].http://ling.cass.cn/yingyong/courses/corpusbase.htm#mulu.

[5]Graeme Kennedy.An introduction to corpus linguistics[M].北京:外语教学与研究出版社,2000.

[6]文秋芳,王立非,梁茂成.中国学生英语口笔语语料库[M].北京:外语教学与研究出版社,2005.

[7]http://www.googlealert.com[EB/OL].

6.语料库技术及其应用 篇六

关键词:语料库 写作教学 数据驱动学习

语料库是基于大量真实的语言资料,以电子形式收集的真实语言文本数据库。语料库语言学(Corpus Linguistics)已经成为语言学的主流分支。计算机技术建立的语料库,规模大、功能多、检索方便,使语言研究的手段和方法发生了巨大变化,对语言的理论探索也产生了深远的影响。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源, 并且对外语学习、教学和研究有重要的影响和帮助。

写作能力是一个人能力的综合体现,它不仅包括一个人的词汇知识、语法知识、 世界知识、 语体知识、逻辑思维能力,而且还包括人的分析能力、组织能力以及解决问题的能力等。目前由于交际法(Communicative Approach)逐渐成为国内外语教学的主流教学法。一些英语课堂中出现了重表意(meaning)、轻形式(form)的现象,使得一些学生的语言准确性(accuracy)受到了一定的影响。因此,许多专家开始呼吁将基于语言形式(form-based)的教学活动引入以交际法为主的英语课堂中,尤其是英语写作教学中。此外,一些第二语言习得研究(Carroll & Swain 1993:357-366)表明,教师帮助学习者认识到自己语言使用中的错误并改正它们的显性教学方式比一味给学习者提供正确语言输入的隐性教学方式更容易使学生在语言使用方面取得进步。从这一点上说,语料库的兴起对写作具有重要启示,语料库在写作中的作用主要体现在作为参考工具与研究工具等方面。语料库可以帮助教师和学生发现典型的语言使用错误,找出正确的语言使用形式,学习地道的语言使用方法。因此,将语料库引入英语写作教学会对提高学生语言使用的准确性大有裨益。

一、学习者语料库与英语写作教学

目前,国内已经出版的著名的学习者语料库——中国学习者英语语料库(Chinese Learner English Corpus,CLEC)涵盖高中(St2)、大学非英语专业四级(St3)和六级(St4)以及大学英语专业低年级(St5)和高年级(St6)五个子库,分别代表不同阶段的英语学习者,整个语料库容量为100万词。教师在批改学生作文时,针对学生出现的一些语言错误,可以参考中国学习者英语语料库,找到那些出现频率高、中国学习者易犯的值得关注的典型性错误进行课堂讲解,这样可以降低语言形式课堂讲授的盲目性。此外,教师也可以将学生的作文收集起来,自建小型的学习者语料库。这种自建的学习者语料库由于语料来源相对固定(例如,大学一年级学生的作文),因此可以很好地反映某一特殊群体的语言使用情况。例如批改学生作文时发现学生使用这样的句子“The government warned the citizens to stay at home ”,如果此类错误在教师自建的学习者语料库中具有一定的代表性,教师就应该思考学生为什么出现这样的问题。总之,由学习者语料库辅助的英语写作教学不仅可以降低教师语言形式课堂讲授的盲目性,而且还会促使教师对教学内容进行积极的思考,这对提高教学效率很有帮助。

二、本族语语料库与英语写作教学

通过检索学习者语料库,教师可以确定哪些是值得进一步关注的典型性错误。但是要改正这些错误,产出地道的英语,还需要借助本族语语料库。根据教师和学生的不同需要,两类本族语语料库比较适于辅助写作教学:(1) 比较权威的、具有代表性的、容量在100万词左右的本族语语料库,如Brown语料库、LOB语料库等。这类语料库的语料是按照严格的规则在尽可能多的不同体裁文章中随机抽取的自然语言文本,因此,语料库具有一定的代表性,也比较权威。100万词的容量比较适合教师和学生检索和学习一些高频词的使用。(2)与教学内容高度相关的特殊语料库。学生作文中出现的错误常常与写作的体裁有关。例如,学生可能会遇到诸如议论文中组织性词语如何正确使用的问题,如therefore / as a result,however / in contrast等。一个小型的与学生作文体裁高度相关的本族语议论文或学术文章语料库可以起到很大的辅助作用。教师可以自己收集并建立能够满足学生需要的、与教学内容相关的特殊语料库。目前,语料来源很多,获取也十分方便。教师可以查找网络资源并下载自己所需的文本材料,整理后作为语料存入语料库中;也可以扫描已经出版的书籍或期刊制作成电子文本,作为语料存入语料库。[HJ0.9mm]

三、数据驱动学习(Data-driven Learning,DDL)与英语写作教学

数据驱动学习(Data-driven Learning,DDL)(Johns 1991:1-13)是指学生在课堂中利用电子语料库探索目的语语言规律,并利用语料索引进行语言练习及语言活动的学习方式。数据驱动学习具有三个特点——“真实的语言环境、归纳式的学习方式和自主化的学习过程”。数据驱动学习充分利用了网络和语料库资源,改变了以往传统的结论式的单向灌输的教学模式,为学习者营造了真实的语言环境,能够有效激发学习者的学习兴趣,培养他们自主学习和自我解决问题的能力,达到辅助英语教学的最终目的。

本族语语料可以为语言学习者提供真实的、地道的目的语表达方式,而学习者语料库则能够清楚地反映出学习者综合的语言水平和普遍存在的语言使用问题,也可以反映出某一特殊群体(如某大学一年级英语专业本科生)在写作中存在的问题。因此,将本族语语料库和学习者语料库结合起来的数据驱动学习将是一种集对比、分析、探索、发现、总结为一体的学习方式。学生成为了学习活动的中心;而教师在教学活动中组织者、协调者、引导者的作用也集中体现出来。

通过练习,可以培养学生归纳语言规律的技巧,使学习者增强语言意识。简言之,以语料索引为基础的练习方式使学生在发现中学习,对于语法、词汇、语篇、语体的学习不再是死记硬背,而是研究。

四、总结

将本族语语料库和学习者语料库作为工具引入英语写作教学中,能够帮助学习者提高语言使用的准确性和地道程度。此外,将数据驱动学习引入英语写作课堂教学,可以培养学生的语言意识和自主学习能力。采用这种学习方式,可以极大地调动学习者的积极性,使他们积极地参与到探索和发现中去,自己解决自己的语言问题,学习真正地变成了一种需要。笔者还想补充说明,对于语言水平不是很高的学习者(如大学1、2年级学生),采用数据驱动学习方式时,应该在教师的指导下,循序渐进。独立地检索语料库,进行数据驱动学习比较适合于那些语言水平较高,且对语料库和语料索引软件操作较为熟练的学习者。

参考文献

1Carroll,S& Swain,MExplicit and implicit negative feedback:An empirical study of the learning of linguistic generalizations [J]Studies in Second Language Acquisition,199315:357-366

【语料库技术及其应用】推荐阅读:

上一篇:综合考察报告格式与内容如下下一篇:带有处字的词语和成语有哪些

热搜文章

    相关推荐