快捷搜索:

您的位置:金莎娱乐 > 产品 > 国内外23个语料库推荐,构建新型的历时复合语料

国内外23个语料库推荐,构建新型的历时复合语料

发布时间:2019-11-19 11:55编辑:产品浏览(178)

    20世纪语言学研究,从索绪尔开始,获得极大的进展。其中在方法和工具层面的进步,以语料库的研制与应用最具标志性意义。随着现代计算机技术的发展,单语语料库研制从20世纪中叶起步,至今已助力语言学研究取得不少新成果。双语语料库虽然迟至20世纪90年代上路,但势头很强,带动了双语对比、翻译及双语词典研编等一系列研究。

    国内可外用免费语料库下载资源汇总图片 1

     

    (一) 国家语委
    1.国家语委现代汉语语料库
    现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

    2.古代汉语语料库
    网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。
     
     (二) 北京大学计算语言学研究所
    《人民日报》标注语料库
    《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。
     
    (三) 北京语言大学
    汉语国际教育技术研发中心:HSK动态作文语料库
    语言研究所:北京口语语料查询系统(B J K Y)
     
    (四)台湾中央研究院
    中研院语料库WWW版所有功能均开放使用,但为防主机资源耗用过剧及顾及数据传输之实际限制,暂以检索结果为限制的条件:院内检索限两万行数据,院外检索限两千行数据。

    1.现代汉语平衡语料库
    专门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。

    2.古汉语语料库
     古汉语语料库包含以下五个语料库: 上古汉语、中古汉语(含大藏经)、近代汉语、其他、出土文献。部分数据取自史语所汉籍全文数据库,故两者间略有重迭。此语料库之出土文献语料库,全部取自史语所汉简小组所制作的数据库。

    3.近代汉语标记语料库
    为应汉语史研究需求而建构的语料库。目前素语料库所搜集的语料已含盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并己陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供上线检索。

     

    4.树图数据库
    「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中抽取句子,經由電腦剖析成結構樹,並加以人工修正、檢驗後所得的成果。在中文句結構樹中,我們標示了中文句語意和語法的訊息。此一「中文句結構樹資料庫」目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。另有1000個句結構樹開放下載。

     

    5.中英双语知识本体词网
    结合词网,知识本体,与领域标记的词汇知识库。

     

    6.搜文解字
    包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连结到出处,阅读原文。

    7.文国寻宝记
    在搜文解字的基础之上,以华语文学习者为对象,进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合,与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合,提供网络上国语文学习的素材。

     

    8.唐诗三百首
    以国中、小学学生为主要使用对象,提供吟唱、绘画、书法等多媒体数据,文字数据报含作者生平、读音标注、翻译、批注、评注、典故出处等资料;检索点包含作者、诗题、诗句、综合资料、体裁分类等;检索结果可以列出全文,并选择标示相关之文字及多媒体数据。并提供了一套可以自动检查格律、韵脚、批改的「依韵入诗格律自动检测索引教学系统」,协助孩子们依韵作诗,协助教师批改习作。

     

    9.汉籍电子文献
    包含整部25史 整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。

     

    10.红楼梦网络教学研究数据中心
    元智大学中国文学网络系统研究室所开发的「网络展书读—中国文学网络系统」,为研究中心负责人罗凤珠老师主持,红楼梦是其中一个子系统,其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet最大中国文学研究数据库,提供用户最完整的中国文学研究数据。
     
    (五)中国传媒大学
    1.中国传媒大学文本语料库检索系统

    2.在线分词标注系统

    3.新词语研究资源库

    4.音视频语料检索系统

     
    (六)哈尔滨工业大学
    哈工大信息检索研究室对外共享语料库资源
    该语料库为汉英双语语料库,10万对齐双语句对,文本文件格式,同义词词林扩展版,77,343条词语,秉承《同义词词林》的编撰风格,同时采用五级编码体系,多文档自动文摘语料库,40个主题,文本文件格式,同一主题下是同一事件的不同报道,汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,可以图形化查看,问答系统问题集,6264句,已标注问题类型,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到,单文档自动文摘语料库,211篇,分不同体裁,LTML化,文摘句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。
     
    (七)清华大学
    汉语均衡语料库TH-ACorpus:
     
    (八)香港教育学院
    语言资讯科学中心及其语料库实验室
    自1995年开始,以「共时」方式处理了超常的大量汉语语料,通过精密的技术,累积众多精确的统计数据,建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共时语料库。本语料库最大特点是采用「共时性」视窗模式,严谨地定时分别收集来自多地的定量同类语料,可供各种客观的比较研究,方便有关的信息科技发展与应用。此外,语料库又兼顾了「历时性」,方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。
     
    (九)中国科学院计算技术研究所
    跨语言语料库
    目前的双语句对数据库中有约180,000对已对齐的中英文句子。 本数据库支持简单的中英文查询服务。 查询结果包括句对编号、中文句子、英文句子、句对来源。
     
    (十)中文语言资源联盟
    中文语言资源联盟
    (Chinese Linguistic Data Consortium,简称ChineseLDC)的建立。ChineseLDC是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。ChineseLDC 将建设和收集中文信息处理所需要的各种语言资源,包括词典,语料库,数据,工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。(之所以排名这么后,是因为是国家出钱的项目,却没有什么免费资源。)

    国外语料库资源(链接皆可用,内有语料库简介)

    1. 杨百翰大学
       
      杨百翰大学语料库 Davies教授开发的语料库统一检索平台,整合了美国当代英语语料库、美国历史英语语料库、美国时代杂志语料库、BNC、西班牙语料库、葡萄牙语料库等6个语料库的资源。该网站每月有60,000人的使用量,也许是目前最广泛使用的网络语料库。  
    2. 联合国官方资料库
      联合国文件数据库(提供80万份六种语言平行文档)
      本文件系统包括了1993年以来联合国印发的所有正式文件。不过,联合国的早期文件也逐日添加到本系统。本文件系统也提供从1946年以来联合国大会、安全理事会、经济及社会理事会和托管理事会通过的所有决议。本系统不提供新闻稿、联合国出版物、联合国条约汇编或新闻部印发的新闻材料。由日本捐赠的3万多份数字化文件已被增添进正式文件系统。  
    3. 兰开斯特大学
      兰开斯特汉语语料库 (LCMC)
      应学术界对免费对公众开放的平衡的现代汉语语料库的需求的情况下筹建的。 LCMC 语料库是由兰开斯特大学语言学系承担的并得到英国经社研究委员会资助(项目代号:RES-000-220135)的研究项目。 LCMC语料库是与 Freiburg-LOB Corpus of British English (即FLOB)平行对应的汉语语料库,它有助于我们从事汉语的单语和英汉双语的对比研究。通过该网址可以免费索取LCMC预料用于研究之用。  
    4. 语言开放典藏社群(OLAC)
      OLAC(Open Language Archives Community) rate)、许多语言资源并非以文字为基础、不确定是否有建议适当软件,以及所提出的建议是否中肯…等问题。OLAC由此诞生。藉由下列步骤进行创造世界性语言资源的虚拟图书馆:针对语言资源数字典藏发展一致性的实践指引;发展网络上具有互操作性且提供存取相关语言资源的储存器(Repositories)和服务中心。简介可以参看  
    5. SKETCHENGINE多语言语料库
      www.sketchengine.co.uk
      每个邮箱可以注册一次,免费期是一个月,免费期过了就再注册一个邮箱,再注册一次。其中汉语语料库是没有加工的生语料库,使用价值不大。关键是其中的英语语料库实际上是原来要付费才能使用的BNC,可以好好利用。   
    6. COCA———美国当代英语语料库(Corpus of Contemporary A2merican English)

      由美国B righam Young University的M ark Davies教授开发的高达3.6亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。与其它语料库不同的是它是免费在线供大家使用,给全世界英语学习者带来了福音,是不可多得的一个英语学习宝库,也是观察美国英语使用和变化的一个绝佳窗口。

    国内外语料库建设一览

    北京大学语言信息工程系捷译双语语料库Web对齐工具(自动 手动)开放注册
    访问地址在
    文档:
    如果有需要者可以给  yjs@pkucat.com 老师写信申请,说明身份和理由即可。

    已证实可用的英汉平行语料库(部分)

    --TEC

    翻译语料库方面则以英国曼彻斯特大学科技学院(UMIST) 翻译研究中心1995年创建的世界上第一个翻译语料库( Translational EnglishCorpus , TEC) 最为著名。该语料库主要收集从各国语言翻译成英语的文本,目前已有上千万词的语料(目标是5 千万词) ,分小说(约占80 %) 传记、报纸和期刊4 个子库。它并不要求必须双语对齐。
    该库不仅对语料进行了附码标注,还带有许多超语言信息的标注,如对译者情况(包括译者姓名、性别、民族、职业、翻译方向等) 、翻译方式、翻译类型、源语、原书情况、出版社等等均一一予以标注。

    --北大双语语料库
    北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。正在此基础上做汉英对照短语库,预计规模将达数十万条。

    --中英双语在线(CEO)测试开通
    网址为

    --紅樓夢漢英平行語料庫

    -- The Babel English-Chinese Parallel Corpus

    The Babel English-Chinese Parallel Corpus,which was created on our research project Contrasting English and Chinese (ESRC Award Reference RES-000-23-0553),consists of 327 English articles and their translations in Mandarin Chinese. Of these 115 texts (121,493 English tokens plus 135,493 Chinese tokens) were collected from the World of English between October 2000 and February 2001 while the remaining 212 texts (132,140 English tokens plus 151,969 Chinese tokens) were collected from Time from September 2000 to January 2001. The corpus contains a total of 544,095 words (253,633 English words and 287,462 Chinese tokens). Here is a list of the titles of the articles included in the corpus.

    The corpus is tagged for part of speech and aligned at the sentence level. The English texts were tagged using the CLAWS C7 tagset while Chinese texts were tagged using the Peking University tagset. Sentence alignment was done automatically and corrected by hand. The corpus is also marked for paragraph and sentence. But different markup systems were adopted for the two subcorpora. For the component of the World of English, sentences were marked consecutively throughout whereas for Time, sentences were marked within each paragraph.

    The Babel parallel corpus can be accessed via the ParaConc Web or MySql interface (both hosted at The Institute of Education, Singapore). Users can search in either English or Chinese texts. The concordancer returns matched whole sentences and their translations as well as the their locations. At the bottom of the resulting concordance page is a query report that indicate the query strings and distribution of matches. Users can also specify the format the output concordances as POS-tagged or plain texts.

    --上海交通大学语言工程研究所目前有JDEST,LOB,BROWN,CLEC四个语料库共计700万词可供网上检索, 并可以对检索和统计数据结果下载.

    --The Translational English Corpus (TEC)

    --English Chinese Parallel Concordancer (E-C Concord)
    The Hong Kong Institute of Education.
    Project leader: Dr. Wang Lixun. Program designers: Chris Greaves, Wang Lixun

    --Academia Sinica Balanced Corpus of Modern Chinese 中央研究院现代汉语平衡语料库

    --Lancaster Corpus of Mandarin Chinese

    may be changed to

    --People's Daily 2000 corpus
    some related information here

    --A Parallel Corpus of Chinese Legal Texts 中國法律文件漢英平行語料庫

    --语料库语言学与英语教育教学。华南师范大学外国语言文化学院语料库语言学研究室

    语料库工具

    北外语料库语言学沙龙
    Beiwai Corpus Research Group (CRG)

    Corpus tools developed by group members
    Chi-square and loglikelihood Calculator, (卡方检验和对数似然率计算工具)
    TreeTagger for Windows, (语料库词性标注工具TreeTagger的Windows界面)
    Colligator 1.0 & 2.0, (语料库类联接分析工具)
    PatternBuilder 1.0, (赋码语料库检索辅助工具)
    The Edinburgh Associative Thesaurus (EAT) for Windows,(爱丁堡联想词库Windows查询工具)
    Wordlist Tools 1.0 Beta,(词表分析工具)
    My Good Old Blackboard,(我的电子黑板)
    BFSU Stanford Parser 1.0,(英文自动句法分析工具)。
    BFSU Stanford POS Tagger 1.0,(英文自动词性赋码工具)。
    BFSU Sentence Collector 1.0,(例句提取工具)。
    BFSU NewWord Marker 1.0,(生词标注工具)。
    BFSU Sentence Segmenter 1.0,(英文自动分句工具)。
    Web Colligator。
    Collocator 1.0: A collocation extraction tool,(搭配分析工具)。
    Log-likelihood ratio calculator,(对数似然率计算器)。
    Readability Analyzer 1.0 ,(英文文本可读性分析工具)。

    Other free corpus tools
    AntConc: A free concordancer(跟WordSmith主要功能接近的语料库索引工具)
    Range: Vocabulary coverage tools(基于底表的分级词汇测量工具)

    语料库检索软件Paraconc 和Multiconcord:

    Paraconc由Barlow制作(该软件的演示版可在网上下载),该软件的特点是可以进行多达四种语言的同时检索,或者是一个原文的三个译本的检索。这一软件的特点是可以灵活定义语言、索引行的大小、标注符号的隐显,而且支持通配符检索。

    Multiconcord也是一个在Windows窗口下运行的软件。这种软件和Paraconc在检索功能上相似,但检索结果在呈现方式上不同。另外,Paraconc可以检索纯文本格式的文件;Multiconcord 则需要一个Minimark 程序来最低程度地标记文本,如< p > (段落) 和< s > (句子)。

     

     

     

     

    第4章 语料库与语言知识库

    1.引言语料库翻译学是指以语料库为基础,以真实的双语语料或翻译语料为研究对象,以数据统计和理论分析为研究方法,依据语言学、文学和文化理论及翻译学理论,分析翻译本质、翻译过程和翻译现象的翻译学分支学科。经过短短十几年的发展,国外语料库翻译学异军突起,发展成为重要的翻译学分支学科,并在译学研究语料库的建设、翻译语言特征、译者风格、翻译规范、翻译教学和口译等研究领域取得了令人瞩目的成绩。2.译学研究语料库的建设研究译学研究语料库是为翻译研究目的而专门建设的语料库,如翻译语料库、平行语料库和单语可比语料库等。

    语料库研制存在的问题

    【新书推介】《语料库与翻译》

    Original 2017-04-06 管新潮 陶友兰 当代外语研究

     图片 2

    语料库与翻译

    图片 3

     管新潮  陶友兰  著

    (复旦大学出版社,2017)

    目录

     

    第1章 绪论

    1.1 语料库的起源与发展

    1.1.1 语料库的定义

    1.1.2代表性语料库及其特征

    1.2 语料库的类型

    1.2.1 单语与双语(多语)类型

    1.2.2 平行与可比类型

    1.2.3 通用与专用类型

    1.2.4 单向与双向(多向)类型

    1.2.5 小结

    1.3 语料库语言学与翻译学

    1.3.1 语料库语言学

    1.3.2 语料库翻译学

    1.4 本书概要

    本章亮点:

    l  对具有代表性的18种语料库进行了概述

    l  对各种语料库类型的定义与作用进行了说明

    l  对语料库语言学和语料库翻译学进行了实用性介绍

    第2章 语料库技术和翻译技术

    2.1 引言

    2.2 语料库技术

    2.2.1 语料格式转换工具

    2.2.2 语料降噪工具

    2.2.3 语料对齐工具

    2.2.4 语料库检索和分析工具

    2.2.5 问题与展望

    2.3 翻译技术

    2.3.1 文档管理类工具

    2.3.2 源文准备类工具

    2.3.3 译文处理类工具

    2.3.4 翻译管理类工具

    2.3.5 语料管理类工具

    2.3.6 本地化工具

    2.3.7 问题与展望

    本章亮点:

    l  实例介绍如何针对不同的PDF文档利用不同的转换工具,达到最佳效果

    l  举例说明如何使用最强降噪工具WORD软件

    l  系统介绍语料对齐工具、原则、效果与检索和应用

    l  详细描述系统的翻译技术需要用到的六大类工具:

    文档管理类工具——内容管理系统、撰写系统、桌面排版系统

    源文准备类工具——文字处理软件、语音识别软件

    译文处理类工具——计算机辅助翻译、机器翻译、校订工具

    翻译管理类工具——翻译管理系统、质量保证工具、项目管理软件

    语料管理类工具——翻译记忆工具、术语管理工具

    第3章 语料库创建流程

    3.1 引言

    3.2 语料库的设计

    3.3 语料采集和降噪

    3.3.1 语料采集

    3.3.2 语料降噪

    3.4 语料对齐及其保存格式

    3.4.1 语料对齐

    3.4.2 语料对齐保存格式

    3.5 语料库应用

    3.5.1 案例1:计算机辅助翻译项目应用

    3.5.2 案例2:以组合语料库训练翻译能力

    3.5.3 案例3:某大型客车制造企业的语料质量提升

    3.5.4 案例4:对法律法规术语外译的建议

    3.5.5 案例5:语料库证据在美国的法庭应用

    3.5.6 案例6:两岸三地英汉科普历时平行语料库

    3.5.7 案例7:德汉《资本论》双语平行语料库

    本章亮点:

    l 介绍语料库设计需要关注的设计参数

    l 讲述语料选择原则与操作标准、库容规模、文件名命名等细节

    l 提出如何给语料降噪,如何进行语料对齐操作以及保存格式、格式互换等,有些是作者个人实践心得,具体说明创建过程中遇到的不同问题以及解决方案

    l 列举了具有代表性的七个语料库案例,说明如何在翻译实践中利用语料库提升翻译效果和质量,如以组合语料库训练翻译能力、语料库证据的法庭应用等

    第4章 语料库质量

    4.1 引言

    4.2 语料库质量的多维性

    4.2.1 语料库的设计质量

    4.2.2 语料的翻译质量

    4.2.3 语料的采集与降噪质量

    4.2.4 平行语料库的对齐质量

    4.2.5 应用于具体项目的语料组合质量

    4.3 源自于翻译实践的语料库质量

    4.3.1 相关标准的翻译流程设置

    4.3.2 质量保证理念与工具

    4.3.3 句对库中的高质量句对

    4.4 应用于译学研究的语料库质量

    本章亮点:

    l 首次对语料库质量进行了多维性描述,包括语料库的设计质量、语料的翻译质量、语料的采集与降噪质量、平行语料库的对齐质量、语料组合质量

    l 分析了源自于翻译实践的语料库质量存在的一些问题,并提出相应对策

    l 根据译文错误类型与翻译质量关系模型,尝试提出翻译质量评估建模

    l 提出专门的质量保证理念来解决翻译质量问题

     

    第5章 语料库与翻译实践

    5.1 引言

    5.1.1 计算机辅助翻译的特点

    5.1.2 计算机辅助翻译的分类

    5.2 语料库与记忆库

    5.2.1 语料库与记忆库的区别

    5.2.2 记忆库的创建与维护

    5.2.3 记忆库的匹配

    5.2.4 记忆库的更新与组合

    5.2.5 记忆库的其他作用

    5.3 翻译项目中语料库的使用

    5.3.1 双语平行语料库的翻译应用

    5.3.2 可比语料库的翻译应用

    5.3.3 单语语料库的翻译应用

    5.4 双语平行语料库数据挖掘

    5.4.1 专业通用词概念

    5.4.2 法律双语平行语料库的数据挖掘

    5.4.3 医学双语平行语料库的数据挖掘

    5.5 译入非母语时的语料库作用

    5.5.1 汉译外现状

    5.5.2 语料库的应用

    5.6 大规模句对库与机器翻译

    5.6.1 句对库的定义和质量

    5.6.2 计算机辅助翻译与机器翻译的结合

    本章亮点:

    l 区别语料库和记忆库之间的关系,论述记忆库的创建、维护、匹配、更新、组合等概念与功能

    l 实例演示如何在翻译项目中使用双语平行语料库、可比语料库或单语语料库

    l 论述一种最大提升翻译实践成效的创新方法:从双语平行语料库(如医学、法律)中挖掘出特定领域专属的专业通用词,实践证明效果显著

    l 阐述如何确保句对库的质量,如何将所获取的句对归入相关的领域,如何以高质量的句对来实现机器翻译

    第6章 语料库与翻译教学

    6.1 引言

    6.2 基于语料库的翻译教学实践

    6.2.1 使用语料库自主学习

    6.2.2 创建学习者语料库

    6.2.3 学生自建英汉平行语料库

    6.3 语料库与翻译教材编写

    6.3.1 实现翻译教材具体内容和相关语料库链接

    6.3.2 确定语料难易程度

    6.3.3 以真实语料编写翻译例句并提供多种译文范例

    6.4 翻译教学语料库平台设计与构想

    本章亮点:

    l  教会学生如何使用语料库进行自主学习

    l  教会学生如何创建学习者语料库、英汉平行语料库

    l  引导教师利用语料库编写翻译教材

    l  设计与构想一体化翻译教学语料库平台

     

    附录

    汉英双语对照术语表

     

    本书特点

    提笔写作本书的目的在于对自己20多年来从事翻译实践经验的总结,具体说是对翻译实践与翻译技术、语料库、翻译教学等相结合的实践经验的总结,期望能够通过经验总结进而在翻译实践理论上有所长进。文中所呈现的经总结归纳后的文字表述定能对翻译实践和MTI教学实践有所帮助。本人自认为本书已经具备了以下三大特点:

    l  对翻译实践的可应用性;

    l  对MTI教学的可适应性;

    l  对翻译理论的可拓展性。

    第一,对翻译实践的可应用性。本书所呈现的知识均以本人多年来所做的大量翻译实践为依据,可以说有近80%的内容是完全依赖于经验的总结、归纳、提炼和升华。这是可应用性特点的一种面向翻译实践的体现。另一体现是将经过总结、归纳、提炼和升华后的文字表述交由业界专家审定,确认其对具体翻译实践具有指导意义后才予以定稿。本书对翻译实践的可应用性还体现在散落于书中不同章节的各种有关翻译或语料库技术应用的“小技巧”。

    第二,对MTI教学的可适应性。MTI教学中的计算机辅助翻译是翻译技术的一部分或其中的一个环节,其并不能代表整个翻译技术。因而,翻译技术的MTI教学有其复杂性,即如何将不同的翻译技术知识揉合在一起并有效地传授给学生,以及如何教会学生以习得的翻译技术知识去解决实际应用问题。因为技术在不断更新和进步,而且更新和进步的速度在不断加快,现有的技术可能会在若干年后不见其踪影。由此可见,翻译技术或语料库技术教学的关键并不在于教会某项技术,而是如何使学生习得应用技术去解决问题的能力。

    第三,对翻译理论的可拓展性。一种理论的产生在其初始阶段必然是进行实验,然后是总结归纳,最后才上升为理论层面。翻译技术理论的产生也不例外。翻译技术有多面内容可供学术研究,如人机互动翻译的边界研究、技术环境下的翻译策略、技术背景下的译者行为研究、企业翻译研究,等等。

     

    作者简介

    管新潮,职业译者,长期从事德英汉翻译实践,至今已累计翻译和审校德英汉字数达3000万(包括审校);主要翻译领域涉及海洋工程与船舶制造(英语)、医学(英语)、法律(德语)、机电(德语)等;建有各类相关语料库,如英汉医学平行语料、英汉海洋工程平行语料库、英汉法律平行语料库、德汉合同文本平行语料库、马克思《资本论》德汉平行语料库(百年)等。曾经或正在为国际知名企业提供语言服务解决方案,如德国劳氏船级社、挪威船级社、艾斯维尔出版社和施普林格出版社、华为技术公司、毕马威咨询公司等。现任上海交通大学外国语学院MTI导师。

     

     

     

     

     

    语料库统计

    两层含义:利用语料库对于语言的某个方面进行研究;一句语料库所反应出来的语言事实对现行语言学理论进行批判,提出新观点和理论。

    • 平衡语料库 平行语料库
      同一种语言的语料上平行(国际英语语料库)
      两种或多种语言之间的平行采样和加工

    • 通用语料库和专用语料库
      抽样时仔细从各个方面考虑了平衡问题的平衡语料库

    • 共时语料库和历时语料库
      为了对语言进行共时研究而建立的语料库
      历时:为了对语言进行历时研究而建立的语料库。判断四条准则:必须开放的、动态的;所有语料库都应该来源于大众传媒,都具有不同统计计算方法与传媒特色相应的流通度属性;随着语料的动态采集,预料也应该进行动态加工;语料的加工结果也应该是动态和历时的。

    • 生语料和标注语料库
      标注:
      根据加工程度,汉语为主的分词语料库、分词与磁性标注语料库、tree bank、proposition bank、discourse tress bank。

    分词问题始终是困扰中文信息处理的问题,因此建立了汉语自动分词系统提供训练数据以建立汉语分词库和分析与词性标注库。

    汉语语料库建设等问题(略)

    翻译;语料库;研究;语言;译者;口译;词汇;文本;分析;语文

    目前国际上双语语料库研制的主要问题:第一,语料库大多文本来源单一、标注比较简单,且多为欧洲语言,其他双语语料库甚少,主要用于语言识别、文档级对齐、术语提取等自然语言处理研究,而非从语言学和翻译学角度研究语言与翻译问题。第二,少数双语语料库开展了相应的语言与翻译研究,但双语语料库在质和量上都有待提升。第三,语言是发展变化的,在外语和翻译的作用下,语言之间的各种接触可能导致语言发生另样的变化,原生语言和翻译语言也存在种种的相似和相异。国际上现有的双语语料库或是缺乏历时语料,或是语料库库容有限,上述研究课题也就悬而未探。第四,现有的无论单语还是双语语料库,很少做合成架构,即要么是单语或双语的,要么是平行或类比的,少见组合,不利于语言和翻译发展变化的考察和比较。

    语言翻译必备:国内外23个语料库推荐

    2016-10-29 译匠

    语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。下面推荐一些优质的语料库资源。

     

    国内语料库资源

    1. 国家语委现代汉语语料库

     

     现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。

     

    2. 国家语委古代汉语语料库

     

     网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。

     

    3. 北京大学“《人民日报》标注语料库”

     

     

    4. 北大语料库——北京大学中国语言学研究中心

     

     北大语料库由“现代汉语语料库”、“古代汉语语料库”、“汉英双语语料库”三个语料库组成。其中,北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。正在此基础上做汉英对照短语库,预计规模将达数十万条。(汉英双语语料库目前仅对北大校内用户开放)

     

    5. 北京语言大学高翻学院的“高翻记忆库”

     

     

    6. 清华大学汉语均衡语料库TH-ACorpus

     

     

    7. 中央研究院“现代汉语平衡语料库”

     

     专门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。

     

    8. 中央研究院“近代汉语标记语料库”

     

     

    9. 中央研究院汉籍电子文献(瀚典全文检索系统)

     

     包含整部25史 整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。

     

    10. 红楼梦网络教学研究资料中心

      

      元智大学中国文学网络系统研究室所开发的“网络展书读—中国文学网络系统”,为研究中心负责人罗凤珠老师主持,红楼梦是其中一个子系统,其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet最大中国文学研究数据库,提供用户最完整的中国文学研究数据。

     

    11. 《红楼梦》汉英平行语料库

      

     

    12. 搜文解字

      

      包含“搜词寻字”、“文学之美”、“游戏解惑”、“古文字的世界”四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连结到出处,阅读原文。

     

    13. 中国传媒大学“传媒语言语料库在线分词标注系统”

      

     

    14. 中国传媒大学“媒体语言语料库(MLC)”

      

     

    15. 哈工大信息检索研究室对外共享语料库资源

      

      该语料库为汉英双语语料库,10万对齐双语句对,同义词词林扩展版。77,343条词语,秉承《同义词词林》的编撰风格,同时采用五级编码体系,多文档自动文摘语料库。40个主题,同一主题下是同一事件的不同报道。汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,可以图形化查看。问答系统问题集,6264句,已标注问题类型,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到。单文档自动文摘语料库,211篇,分不同体裁,LTML化,文摘句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。

     

    16. 香港教育学院“LIVAC汉语共时语料库”

      

      自1995年开始,以“共时”方式处理了超常的大量汉语语料,通过精密的技术,累积众多精确的统计数据,建立了LIVAC(Linguistic Variation in Chinese Speech Communities)共时语料库。本语料库最大特点是采用“共时性”视窗模式,严谨地定时分别收集来自多地的定量同类语料,可供各种客观的比较研究,方便有关的信息科技发展与应用。此外,语料库又兼顾了“历时性”,方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。

     

    17. 中文语言资源联盟

      

      Chinese Linguistic Data Consortium(简称ChineseLDC)是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。ChineseLDC将建设和收集中文信息处理所需要的各种语言资源,包括词典、语料库、数据、工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。(之所以排名这么后,是因为是国家出钱的项目,却没有什么免费资源。)

     

     图片 4

     

     

    国外语料库资源

    1. 杨百翰大学语料库

     

     杨百翰大学的Mark Davies教授开发的语料库统一检索平台,整合了美国当代英语语料库、美国历史英语语料库、美国时代杂志语料库、BNC、西班牙语料库、葡萄牙语料库等6个语料库的资源。该网站每月有60,000人的使用量,也许是目前最广泛使用的网络语料库。

     

    2. 联合国文件数据库

     

     本文件系统包括了1993年以来联合国印发的所有正式文件。不过,联合国的早期文件也逐日添加到本系统。本文件系统也提供从1946年以来联合国大会、安全理事会、经济及社会理事会和托管理事会通过的所有决议。本系统不提供新闻稿、联合国出版物、联合国条约汇编或新闻部印发的新闻材料。由日本捐赠的3万多份数字化文件已被增添进正式文件系统。

     

    3. 兰开斯特汉语语料库(LCMC)

     

     应学术界对免费对公众开放的平衡的现代汉语语料库的需求的情况下筹建的。LCMC语料库是由兰开斯特大学语言学系承担的并得到英国经社研究委员会资助(项目代号:RES-000-220135)的研究项目。 LCMC语料库是与 Freiburg-LOB Corpus of British English (即FLOB)平行对应的汉语语料库,它有助于我们从事汉语的单语和英汉双语的对比研究。通过上述网址可以免费索取LCMC预料用于研究之用。

     

    4. 语言开放典藏社群(OLAC)

     

     Open Language Archives Community(OLAC),语言开放典藏社群是由个人或组织所组成的国际性合作协会。许多种类的协会需要语言资源,如:语言学家、工程师、教师、演说家,也有许多机构提供片段性的架构,如:文件管理器、软件开发者和出版者。理论上,用户希望透过单一接口便可以取得任何需要的资源,其中资源种类涵盖:①资料(Data):任何描述语言的相关信息;②工具(Tool):有助于创造、浏览、查询或使用语言数据的计算器资源;③建议(Advice):譬如,告知使用者什么资源具有高可靠度?在此情境中哪一种工具适合采用?当新的数据衍生出时该如何创造?但实际上,却有着语言资源散布在不同的网站、使用者无法得到想要的资源、语言资源在不同网站拥有不同名字(Name)造成召回率(recall rate)低,在其他领域有相同意义,造成正确率低(precision rate)、许多语言资源并非以文字为基础、不确定是否有建议适当软件,以及所提出的建议是否中肯……等问题。OLAC由此诞生。

     

    5. SKETCHENGINE多语言语料库

     

     每个邮箱可以注册一次,免费期是一个月,免费期过了就再注册一个邮箱,再注册一次。其中汉语语料库是没有加工的生语料库,使用价值不大。关键是其中的英语语料库实际上是原来要付费才能使用的BNC,可以好好利用。 

     

    6. 美国当代英语语料库(COCA)

     

     Corpus of Contemporary American English(COCA),由美国Brigham Young University的Mark Davies教授开发的高达3.6亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。与其它语料库不同的是它是免费在线供大家使用,给全世界英语学习者带来了福音,是不可多得的一个英语学习宝库,也是观察美国英语使用和变化的一个绝佳窗口。

    典型语料库:

    1. LDC中文树库(Chinese Tree Bank)
      UPenn负责开发,收集语料取材新华社和香港新闻等媒体,165w汉子,文件由GBK和UTF-8两种编码格式存储。

    2. 命题库(PropBank)、名词化树库(NomBank)、语篇树库(Penn Discourse Tree Bank)是PTB扩展

    3. 布拉格依存树库
      三个语料库:捷克语依存树库、捷克语-英语、阿拉伯语一寸树库

    4. BTEC口语语料
      主要用于语音翻译

    5.现代汉语口语语料

    1. 台湾中研院语料库
      汉语平衡语料库和汉语树库

    Corpus Translation Studies Abroad: A Critical Review

    针对上述问题,尤其是第四个问题,有必要思考如何突破语料库研制的局限性。构建新型的历时复合语料库,就是我们最新的尝试。

    胡开宝,上海交通大学外国语学院教授;毛鹏飞,新华社对外部中国特稿社。

    历时语料库可提供各时期语言的相互比较,发现语言运用的变化及其过程,为语言变化考察、翻译研究以及翻译语言与目标语之间的互动,提供客观的描写和可分析的数据。在中外历史上都有不少翻译与目标语演化关系密切的案例。已往研究的语料来源不够丰富,考察范围有限,研究的深度和广度大受制约,对原生汉语同翻译汉语间的互动关系也缺乏了解,而这些都有望通过历时语料数据的获得和分析取得新的突破。

    自1990年代以来,国外语料库翻译学在译学研究语料库建设、翻译语言特征、译者风格、翻译规范、翻译教学和口译等研究领域取得了令人瞩目的成绩,已发展成为重要的翻译学研究范式。但是,国外语料库翻译学研究尚未与翻译学的跨学科特性有机结合,对于翻译语言和翻译规范的个性以及翻译教学研究不够重视;定量研究处于初级阶段,而语料库驱动的译学研究尚未启动。

    由此可见,研究语言及其变化不仅需要设计合理、规模较大的语料库,还需要平衡的历时语言素材。国际上,应对这一需求的历时语料库近些年开始构建。第一个历时语料库AVIATOR在1990年由伯明翰大学研制成功,另一个历时语料库ACRONYM于1994年建成。这两个语料库都使用连续出版的报刊为语料。代表性更强、跨度长达300多年的平行英语语料库、4亿字词的美国英语历史语料库也陆续建成。但是,单语的历时语料库还不能解决双语的和翻译的问题。例如,现代汉语的发展变化,单从历时语料库还不能很好地考察,应加入更多的比较成分,如英语源语的因素、汉语译文的变化和汉语原文的变化,三者之间形成全方位的比较研究,才有可能更充分地描写和分析。因此,不仅要构建历时的语料库,还应设计复合的历时语料库。

    语料库翻译学/翻译共性/译者风格/翻译教学/口译

    历时—复合:

    1.引言

    语料库研制的一大突破

    语料库翻译学是指以语料库为基础,以真实的双语语料或翻译语料为研究对象,以数据统计和理论分析为研究方法,依据语言学、文学和文化理论及翻译学理论,分析翻译本质、翻译过程和翻译现象的翻译学分支学科。语料库翻译学的诞生直接受益于语料库语言学和描写性译学研究。Laviosa(1998a:474)认为语料库语言学和翻译研究的结合形成了“一种连贯的、全面而丰富的研究范式。该范式涉及翻译理论、描写和实践等方面的问题,业已成为当代描写性译学研究的新范式。”她指出:“语料库翻译研究的问世主要受两个研究领域的影响,一个是语料库语言学,另一个是描写性译学研究。”

    新型历时复合语料库的构建是语料库研制的一项重要突破,国际上在这方面刚刚起步。德国学者尤莉安娜·豪斯项目组近年构建了一个小型历时复合型语料库,共550篇文本、80万词。但因语料库容量小,语料不够平衡,时间节点不清,目前仅开展了初步的德英/英德翻译研究和语言接触研究。大规模英汉平行语料库——英汉双语的历时复合语料库,可以有效地解决上述语料库简单、语料库质量以及语料库的历时考察和复合对比研究等问题,为翻译与目标语之间的互动建立比较完整的描写和分析框架,使多层面、系统性的翻译和语言变化历时研究成为可能。

    语料库翻译学研究发轫于Baker,该文详细阐述了语料库在译学研究中的理论价值、实际意义及其具体路径,被誉为语料库翻译学的滥觞之作。自1995年起,Mona Baker和她领导的团队开始建设世界上第一个翻译语料库即翻译英语语料库(Translational English Corpus,简称为TEC),并应用该语料库开展了一系列语料库翻译学课题的研究,如翻译共性研究(Baker 1995,1996;Laviosa 1998a,1998b;Kenny1998,2001;Olohan and Baker 2000)、译者风格研究(Baker 1999,2000)和翻译规范研究(Kenny 2001)等。从此,翻译学发展史掀开了新的一页。经过短短十几年的发展,国外语料库翻译学异军突起,发展成为重要的翻译学分支学科,并在译学研究语料库的建设、翻译语言特征、译者风格、翻译规范、翻译教学和口译等研究领域取得了令人瞩目的成绩。

    历时语料不是随意将各时期语料收集即可,需要平衡和分期。就汉语来说,语料的历时平衡要通盘考虑现代汉语发展的实际情况,分期采样,以便所建语料库能反映出现代汉语的发展轨迹,并在英汉平行语料库的基础上探究英汉语言接触及英语通过翻译对汉语发展产生的影响。在语料、库容、架构、历时、复合等方面必须突出自己的建库特点,突破国际上一般双语语料库的语料选取和语库架构等方面的局限,还要避免英国国家语料库由于历时连续采样而造成的各阶段差异模糊的缺陷。

    2.译学研究语料库的建设研究

    我们的设计思路是,在库容上达到1亿字词,含百万字词的口译语料,并进行深度加工标注。除了语料平衡和库容巨大这两点外,历时复合是创新亮点,复合即平行语料、类比语料、参照语料三结合,而非单一的平行语料。我们从汉语和翻译发展的动态研究出发架构历时和复合的语料库:将20世纪100年间的汉语语料分成三个阶段,约30年为一个阶段,重点采集各阶段某10年的语料,各阶段收集:英汉平行文学语料400万字词。汉语原生文学语料200万字词。再辅以19世纪未受现代翻译影响的原生态汉语文学语料200万字词,以及不谙外语的单语作家语料100万字词,合计近2000多万字词。

    译学研究语料库是为翻译研究目的而专门建设的语料库,如翻译语料库、平行语料库和单语可比语料库等。根据Baker(1995:224-6)的观点,翻译语料库和单语可比语料库可用于翻译文本的语言特征和译者风格的分析,而平行语料库的应用可以揭示译者的翻译策略以及具体翻译语言特征形成的原因。

    历时复合语料库的构建除了注重时间段的划分,还需在语料取样上考虑双语文本和翻译研究的特定,即不同于一般的单、双语语料库,并需要考虑汉语早期白话文语料有限,本研究在语料取样时做了适当变通,扩大了采样数量。英汉历时翻译语料库样本结构参照Brown语料库,样本大小参照挪威语/英语平行语料库(The English-Norwegian Parallel Corpus,ENPC),大多数样本为15000英语词和对应的25000汉字,汉语译文取样最多不超过30000字,一般从正文起始部分开始连续选取。

    译学研究语料库是语料库翻译学研究的重要物质前提,其建设研究不仅涵盖语料选择、语料代表性和语料标注等语料库建设的共性问题,而且还包括语料的可比性和语料之间平行对齐等自身特有的问题。

    构建新型语料库时,还需要相应的语料库技术支撑,需要综合型的便捷检索平台。例如充分调用篇头标注中的文本属性信息,让这些元信息作为检索条件出现在检索平台界面上,提升复合检索水平;像类别、风格、体裁、作者、时间、出版社、时代等都可以用作检索条件,保证语料检索定向准确、针对性强。目前,以xml格式存储的语料可以在专门设计的平台上使用。

    2.1语料选择与语料的代表性

    历时复合语料库的应用

    语料的选择及其代表性直接关系到语料库质量的高低,是任何语料库建设者都必须考虑的问题。与其他语料库相比,译学研究语料库的建设在语料选择和确保语料代表性方面面临更多的挑战,因为语料库建设者不仅需要考虑两种语言语料的选择标准,还需要考虑翻译语料的翻译方向以及译自不同语言的翻译语料之间的平衡问题等。

    语言发展变化的因素有些属于语言自身运动,有些是语言间的相互接触影响所致,特别是翻译在两种语言间所起的作用,如近代以来的翻译就对现代汉语白话文的发展起了重要推动作用。同时,汉语规范始终在隐性地规约翻译语言变化的范围。语言的发展变化会在词素、词语、搭配、短语、句式、句长、语篇等层面上反映出来。借助于历时复合语料库这个平台,就可以充分比较和分析这些语言层面的历时变化过程,并建立翻译语言与现代汉语白话文间相互影响的动态模式;还可以通过和汉语原创参照库对比,分析发现汉语历时变化与翻译之间的关系。研究内容包括宏观和微观两大方面。宏观语言特征:重视使用语料库驱动研究方法,侧重考察句长、句段长、POS频率、类符型符比,以及某些特定语言项目的历时分布特征。微观语言特征:语料库驱动研究与基于语料库的研究二者并用。前者通过WordSmith或AntConc的关键词对比分析词汇和词丛使用上的历时差异,发现有价值的语言点,继之归类、分析;后者重视现有研究成果的有效运用,基于现有的研究提出理论假设,找到细化了的语言项目,或者通过细读翻译文本,观察可分析的语言使用特征,在此基础上基于历时语料进行描述、分析和解释。总之,历时复合语料库的应用研究前景极为广阔。

    根据Maia,四类语料不宜收入译学研究语料库,即:源语文本本身是翻译作品或由源语语言能力有限的作者所写的语料;匆忙翻译而成,错误较多的翻译作品或者过分拘泥于源语文本句法和篇章结构的翻译作品;由目的语并非母语的译者所译的作品或者由目的语为母语但未受翻译训练的译者所译的作品;源语文本和目的语文本都经过编辑处理的语料。Zanettin(2009:331-2)认为平行语料库的语料选择应依照以下标准,即:语料的介质。凡是出版书籍的电子版本均可收入,而报纸、杂志、网页和电子邮件均不收入;语料是否有译文或原文。凡是没有原文或译文的语料不能收入平行语料库。另外,原文和译文均出自同一人的语料,或转译自第三种语言的语料均不收入;出版时间;根据出版商、作者和译者的影响力决定语料收录与否。这些标准均具有一定的可操作性,不过,Maia所提出的第三个标准人为地缩小翻译语料的选择范围,即只有那些目的语为本族语且受过翻译训练的译者的翻译作品才能收入语料库。这一标准显然不太切合翻译活动的实际现状。纵观翻译活动的发展历史,众多翻译作品虽然不是出自目的语为母语的译者或受过翻译训练的译者之手,却较好地履行了翻译的使命,其中不乏经典译作。事实上,不管译者的背景如何,只要译作质量较高,而且不是原文的编译或节译,均可收入译学研究语料库。在Zanettin(2009:331-2)提出的标准中,报纸、杂志、网页和电子邮件均不收入。电子邮件多与个人隐私有关,因而通常不作为语料库语料,这是无可非议的。然而,报纸、杂志和一些重要网站登载的双语语料质量较高,完全可以作为语料的来源。因而这一标准不够科学。

    (作者为国家社科基金重大项目“大规模英汉平行语料库的建立与加工”首席专家、北京外国语大学教授)

    此外,学界还注意到译学研究语料库在语料代表性和均衡性方面存在的局限。Zanettin提醒人们,由于源语和目的语文本在各自文化中的地位存在差异,依据语料代表性选择平行语料库语料,往往会使得源语和目的语语料之间失去可比性。Crisafulli对语料库代表某一翻译行为或翻译现象这一观点提出质疑,认为“语料库的设计本身是一种阐释”。尽管基于语料所作的分析或许能够解释一些译者的行为,但这种解释是研究人员通过观察与自己观点有关的原始数据所作的分析,带有明显的主观性。Kenny(2001:116-7)分析了实现双语语料平衡方面所面临的困难。她强调若以性别作为选择平行语料库的标准,很难实现双语语料之间的平衡,毕竟,许多女性作者的作品往往是由男性翻译,源语文本作者的男性和女性比例不可能与目的语文本译者的男性和女性比例等同。

    2.2语料的标注

    语料标注是指对语料库语料样本的各种属性或特征所做的描述。译学研究语料库的标注一般采用TEI(Text Encoding Initiative,文本编码计划)模式,包括篇头信息标注和篇体信息标注。篇头信息标注用于说明语料的文件名和编号、译者、源语文本和目的语文本等超文本特征信息。在Kenny看来,“就翻译语料库而言,超文本特征信息可用于分析翻译活动的前期翻译规范。”篇体信息标注提供语料样本的段落、词性、句法和语义方面的信息。近年来,许多译学研究语料库采用TEI模式,对篇头信息和篇体信息予以标注。翻译英语语料库对语料样本的超文本特征信息作了较为详尽的标注,如语料的文件名和编号、译者的姓名、国籍、性别和职业、源语文本和目的语文本的出版时间和出版商等(Baker 1996:177-8)。德英文学文本平行语料库也按TEI模式对语料的篇头信息和篇体信息都做了标注(Kenny 2001:117-19)。

    与笔译语料库不同,口译语料库的标注工作不仅需要提供语料的超语言或超文本特征和语言特征信息,而且还要标明副语言特征信息。2004年,欧洲议会口译语料库(European Parliament Interpreting Corpus,简称为EPIC)开始建设。该语料库收录了英语、意大利语和西班牙语等3种语言的演讲词源语文本及其口译文本的转写语料,并采用TEI模式标明语料的超语言、语言和副语言等层面的信息特征(Russo,et al.2006:134-6)。超语言信息标注提供的信息分为四大类:演讲时间、语料编号和语言类别;演讲语料的时间长度、说话速度和发言模式(即兴、带稿或两者都有)等;演讲者的名字、性别、国籍和母语;演讲话题。语言信息标注主要为词性标注。副语言特征的标注涉及口误、截断词汇、停顿和含混不清词汇等副语言特征信息。

    2.3语料的可比性

    语料的可比性是对不同语言或语言变体进行比较分析时所依据的共同标准,是建设可比语料库的关键所在。Baker(1995:223-43)指出,可比性是指两组语料或两个语料库在译者性别、翻译方向、语料体裁、时间跨度、作者性别和目标读者等方面类似。根据Laviosa(1997:289-319)的观点,语料可比性包括的标准主要为:翻译方式(如,为了阅读目的而翻译);翻译方法;翻译方向(相对于译者的母语而言);源语语言;文本的出版现状。她还指出语料库设计的一些常规标准也可视为可比性的标准,如全本收录和抽样,以及共时和历时等。Olohan认为翻译语料和原创语料之间的可比性标准包括篇章种类(例如小说、传记、报纸等)、库容大小、语料发表或出版的时间跨度、男性作者和女性作者之比、以及单个译者与集体译者之比。应当指出,上述可比性标准较为准确地勾勒了分析翻译语料和非翻译语料所依据的参照点或框架,对于可比语料库的建设具有指导意义。然而,这些标准的划分不够严密。事实上,可比性标准可分为语外标准和语内标准。前者包括语料出版时间及时间跨度、语料的影响力、作者或译者的性别及其影响力。后者包括语料库的库容、语料的题材和体裁、语料的翻译方向(相对于译者而言,语料译自本族语或外语)和翻译方式、以及语料的收录方法等。

    2.4语料的平行对齐

    双语语料的平行对齐是指某一语言的文本单位与另一语言的文本单位形成翻译关系或对应关系,具体表现为篇章、段落、语句和词汇等四个层面。一般说来,实现篇章和段落层面平行对齐的难度不大。不过,语句层面的对齐要困难得多。在具体翻译实践中,一个源语文本语句往往译作多个目的语语句,多个源语文本语句有时译作一个目的语语句。而词汇层面的对齐几乎难以实现,因为词汇的翻译灵活多变。

    近年来,学界围绕双语语料语句层面的平行对齐方法作了大量研究,成功研制了专门用于实现语料平行对齐的软件,如ParaConc等。通常,双语语料对齐的方法主要有基于句子长度和基于语句对应关系两种方法。前一种方法以源语文本和目的语文本语句长度上的关联度以及不同语句对齐类型的匹配概率等为依据(Brown,et al.1991:169-76;Oakes and McEnery 2000:1-37)。匹配概率需要在统计所有对齐语句的基础上,计算一一对应、二对一或三对一等不同形式对齐的概率。后一种方法则根据源语和目的语语句或词汇之间的互为翻译关系实现双语语句之间的对齐。根据Kay和Roscheisen(1993:67-93),一些源语文本和目的语文本的语句之间存在互为翻译关系。如果一些单词反复同时出现在这些互为翻译关系的语句中,这些单词便可视为对译单词。如果一对目的语语句和源语语句包含足够多的对译单词,则这一句对是对译语句。

    不过,这两种对齐方法都有局限性。一方面,运用这两种方法不能完全实现双语语料在语句层面的自动对齐。另一方面,第一种方法需要事先采用人工手段对齐一些语料,并计算源语和目的语之间的匹配概率系数。第二种方法需要制作对译词库。有鉴于此,Holfland和Johansson(1998:87-100)提出兼具以上两种方法特点的混合型方法。他指出双语语料之间的对齐可以同时利用语句长度和双语锚点词表建立语句之间的对应关系。Izquiedo,Hofland和Reigem(2008:31-41)认为原文和译文语句之间的平行对齐可同时采用三种方法:确定锚点词汇表,即重要的常见词汇双语词表。这些词汇可作为语句平行对齐的重要参数;专用词汇(如以大写字母开头的词)和阿拉伯数字可视为语料对齐的重要成分;计算Dice分值。此外,他们还认为语言单位的长度、问号和感叹号等标点符号也可作为语料对齐的标记。

    3.翻译语言特征研究

    翻译语言特征包括翻译共性和具体语言对翻译语言特征。翻译共性,又称为翻译普遍性,是指翻译文本所具有的区别于原创文本的普遍性特征,主要包括显化、隐化、简化和范化等。翻译共性是“翻译文本而不是源语文本体现的典型语言特征,并且这些特征不是特定语言系统相互作用的结果”(Baker 1993:243-6)。具体语言对翻译语言特征是指由于源语和目的语语言影响,翻译文本在词汇、句法、搭配、语义韵及叙事结构等层面所呈现的典型语言特征。

    3.1翻译共性研究

    Olohan和Baker(2000:141-58)考察了翻译英语语料库和英国国家语料库中say/tell that结构的应用,发现前者的that使用频率高于后者。Olohan(2001:423-32)利用翻译英语语料库和英国国家语料库,分析了非强制性句法成分和词汇成分的应用,探讨翻译文本中的非强制性显化。研究结果显示,在翻译文本中,非强制性句法成分常用于明确表达原文隐含的不同句法关系。非强制性词汇成分的应用可以使原文隐含的信息或表达不明确的意义明朗化,如意义笼统的词汇常译作意义具体的词汇,人称代词译成所指代的名词。这些研究均表明翻译文本表现出较为显著的显化趋势。

    其他学者则对翻译文本中简化的范化趋势进行实证研究。Laviosa(1998b:557-70)选择词汇变化、信息容载和平均句长三大指标对翻译文本的简化倾向进行考察。研究发现,与非翻译文本相比,翻译文本中实词和语法功能词的比率较低,高频词相对于低频词的比例较高,平均句长较短。Corpas等利用医学翻译语料库,比较了翻译英语和原创英语语料的词汇、句法和语篇特征。研究结果显示,与原创英语语料相比,翻译英语语料的用词变化不够丰富,常用词和简单句的使用频率高,平均句长短,故而呈现明显的简化趋势。

    Kenny利用德英文学文本语料库,分析了德语文学文本中罕用词和异常搭配的英译,发现这些词汇和搭配的英译表现出范化趋势,即遵循甚至夸大目的语文本传统的趋势。她指出“有些译者更倾向于范化,范化可能特别适用于凭借系统的构词过程而形成的词汇特征以及利用常规词汇组合而成的创造性复合词或搭配”。

    此外,一些学者提出了新的翻译共性假设。Steiner(2002:213-28)强调由于语言间的差异,源语文本的理解和翻译必然伴随着语法隐喻的消解,翻译文本因而表现出去隐喻化(demetaphorization)趋势。H1X1143.jpg利用英语-捷克语语料库,在分析原创捷克语小说、译自英语的捷克语小说和译自其他不同语言的捷克语小说语料的基础上,提出了泛化(generalization)假设,即译者倾向于选用意义宽泛词汇翻译源语意义具体的词汇。Klaudy(2003:321-7)也指出“译者常常图省力。如果他们找不到精确的目的语对应词,就会选择意义宽泛的词汇。”

    然而,一些学者对于翻译共性研究方法的合理性提出质疑。Kenny认为利用类比语料库研究翻译共性往往会忽视源语文本,存在先天不足。为此,翻译共性研究应将可比语料库和平行语料库结合起来使用。Hansen和Teich指出仅从翻译语言与原创语言文本的比较分析角度研究翻译共性,会忽视翻译过程是另一文本引发的文本生产过程这一本质。他们强调依据形符/类符比和词汇密度的统计分析来验证翻译共性假设,不够科学。根据他们的观点,翻译共性的研究应从语义、语法和语篇等层面进行分析。

    一些研究结果与翻译共性假设相悖。Tirkkonen-Condit分析了芬兰语翻译文本和原创文本之间的差异及其原因。研究发现,目的语的某些语言成分在源语中缺乏与之对应的语言成分,因而在翻译文本中的出现频率低于原创文本。如果将目的语语言规范视为常态,那么这些语言特征则被视为对常态的偏离,而非范化趋势。Puurtinen(2004:165-76)表明翻译芬兰语中非限定性结构的使用频率高于原创芬兰语,前者的词汇密度和信息负载大于后者,其显化程度较低。

    Marais和Naudé考察了南非原创布尔语文本和译自英语的布尔语宗教文本的搭配,发现翻译文本的标准类/形符比、平均句长和固定搭配的使用频率均高于原创文本,翻译文本并未表现出简化和显化等趋势。

    3.2具体语言对翻译语言特征研究

    Mauranen(2000:119-41)利用翻译芬兰语语料库(Corpus of Translated Finnish),对翻译芬兰语和原创芬兰语文本中的搭配进行比较分析,发现前者toisaalta最常见的搭配是toisaalta taas,后者toisaalta最常见的搭配是mutta toisaalta。这两个词语搭配的意义都相当于英语“but on the other hand”。他还比较分析了意义相当于英语“to want to”的词语搭配haluta korostaa在翻译芬兰语和原创芬兰语文本中的使用频率。结果显示,前者的频率高达40%,而后者不及10%。他认为与原创芬兰语文本相比,翻译芬兰语文本中词语具有其特有的词汇组合倾向性。

    Olohan(2004:117-22)比较了翻译英语小说和原创英语小说中颜色同义词的使用频率,发现前者的颜色同义词使用频率低于后者,因而其使用缺乏变化。她(2004:122-43)还应用翻译英语语料库和英国国家语料库,探讨了quite,rather, pretty和fairly等缓和词(moderator)在翻译英语和原创英语中的使用频率和搭配。研究结果表明,翻译语料中pretty、rather和quite的搭配范围均比原创语料广,但这些词的出现频率低于后者。Olohan认为这一现象形成的原因主要是:源语文本中缓和词的使用频率很低;缓和词一般用于表达模糊或不确定的事实。由于显化趋势的影响,源语文本中表达模糊的地方在翻译文本中往往被消除;缓和词常用于表达讲话者或作者的情态或态度,体现讲话者或作者与听众或读者之间的互动。由于翻译是互动性特点不太显著的文本生成模式,缓和词在翻译文本中的使用频率不及原创文本。

    上述研究从不同视角探讨了具体语言对翻译文本的语言特征。这些研究不仅有助于人们正确认识翻译过程的本质特征、译者的风格和翻译规范等,而且还可以验证翻译共性假设的合理性。然而,这些研究存在两大缺陷,其一,该领域的研究未能深入探讨具体语言对翻译语言特征的成因。其二,该领域研究的广度差强人意,仅仅局限于少数典型词语或句式结构的应用,因而很难获得关于翻译语言特征全面、客观的认识。此外,尽管翻译语言的语义韵研究对于翻译语言特征、翻译过程、双语词汇对应关系和翻译批评具有十分重要的理论价值和实际意义,但该领域的研究至今无人问津。

    4.译者风格研究

    译者风格是“留在文本中的一系列语言和非语言的个性特征”(Baker 2000:245),是指译者在语言应用方面所表现出的典型特征以及包括作为翻译对象的文本选择、翻译策略和方法的选用、前言、后记和译注等在内的非语言特征。长期以来,翻译被视为模仿性活动,译者风格研究一直被严重忽略。不过,近年来,随着语料库翻译学的兴起,学界开始关注译者风格研究。

    Baker利用翻译英语语料库,从类符/形符比、平均句子长度和叙事结构等三方面研究英国翻译家Peter Bush和Peter Clark翻译风格的差异。相关数据表明,Clark译文中的形符/类符比和平均句长均低于Bush译文。Clark喜欢使用过去时态和直接引语,不太常用间接引语。即使源语文本用现在时,他也往往将其改作过去时。而且,Bush的译文没有Clark译文简洁、明了。Baker指出两位译者风格之所以有差异,主要是因为源语文本的难易度不同以及译者对目的语文本读者的态度、各自的经历、翻译主张和目的等方面的差异。

    Bosseaux(2006:599-610)对于Virginia Woolf所著的The Waves的两个法语译本的形符/类符比和平均句长等数据进行统计,分析了这两个译本翻译文化词汇和专有名词的具体策略和方法。他发现前者主要采用异化则略,尽可能再现异域文化要素。后者的翻译策略为归化,尽量在目的语文本中消除异域文化元素。Bosseaux(2004:107-22)还对英国作家Virginia Woolf的作品 To The Lighthouse的三个法语译本进行比较分析,阐明了法语译本在指示、情态、及物性和间接话语等方面所呈现的具体特征,揭示了三位译者风格的差异及其内在原因。他强调译者翻译策略和方法的不同直接导致以上译本在叙事结构方面所表现的差异。

    MalmkjH1X1140.jpgr(2004:13-24)基于丹麦著名作家安徒生作品英译本的分析,首次提出“翻译文体学”这一概念。他指出翻译文体学主要从语言因素和非语言因素角度,研究译者为什么会以特定的方式来塑造译文。

    综上所述,可知基于语料库的译者风格研究取得了一定进展,但该领域研究所选用的语料规模较小,而且局限于文学翻译文本的分析。此外,分析译者风格时,有必要将译者风格与原作风格区分开来。然而,这并非易事。

    5.翻译规范研究

    规范是关于翻译作品和翻译过程正确性的规定。翻译规范对译者的翻译活动产生影响,具体表现为译者在翻译过程中所做出的规律性选择。

    Baker(1993:246-7)基于翻译英语语料库,对译自法语、阿拉伯语和日语的当代非文学作品英译语料进行分析,发现译自日语的英译文本对于外来词的容忍度远远高于译自另外两种语言的英译文本。她强调翻译规范的差异源于社会文化之间的不同。Kenny(1998:515-23)应用德英平行语料库,分析德语褒义词和贬义词的英译规范。她发现译者常常选用情感色彩较为温和的词汇翻译源语文本中带有强烈褒义或贬义色彩的词汇。其他学者也探讨了不同语言对文学翻译的具体规范(H1X1141.jpg1998;Puurtinen 2004)。

    总体而言,翻译规范研究仍然比较滞后。一方面,现有译学研究语料库所收录语料的语体较为单一,主要为文学语料,语料的时间跨度较短,一般只有二三十年时间。另一方面,现有语料库对于译者性别和身份,以及译者所处的社会语境未能给予充分关注。这些因素不利于普遍性翻译规范的归纳。

    6.翻译教学研究

    语料库具有语料自动呈现和数据自动获取等优势,在翻译教学中具有广阔的应用前景。

    首先,语料库尤其是平行语料库的应用可以充分发挥学生学习的主动性和积极性,让学生通过发现式学习和数据驱动式学习,提高翻译技能,形成翻译意识。Monzó认为双语平行语料库或可比语料库的应用不仅能够让学生直接观察到源语语言系统的规则,而且可以帮助他们把握翻译文本自身的特征,建立对翻译转换的感性认识。Bernardini等(2007:5-11)指出语料库能够发挥学生或译者的自主性和灵活性。利用语料库进行翻译教学,学生可以通过收集文本、评估语料、提取术语、建立双语文本跨语言的对等关系等,积极主动地参与到学习过程之中。语料库“这一工具最大的教育价值在于其唤起译者思考而非仅仅提供现成答案的潜力”(Bernardini,et al.2007:11)。

    其次,平行语料库和可比语料库可以作为教师评价学生译作的平台。Bowker(2001:345-64)提出教师可以利用翻译评估语料库,比较学生的译作,提供建设性的反馈意见。在他看来,语料库在翻译评估中的应用具有以下优点:基于大量自然出现的真实翻译语料对学生的翻译能力和翻译策略应用进行评估,研究结论较为客观、科学。定量和定性方法相结合。

    此外,语料库可以直接应用于翻译实践,提高译作的翻译质量。具体而言,凭借平行语料库的应用,学生可以分析职业译者采取的翻译策略和方法,解决翻译问题,形成自己的翻译原则。可比语料库可用于检查译文中术语和搭配的应用是否符合语言规范,判断具体翻译问题的解决方案是否合理、妥当(Pearson 2003:15-24)。为验证语料库在翻译实践中应用的效果,Bowker(1998:631-51)对分别使用传统方法和语料库方法的两组译员的翻译作品质量进行比较分析,发现后者在主题理解、术语选择和习语使用等方面优于前者。

    最后,语料库可以应用于翻译教材的编写之中,帮助我们确定作为翻译材料的具体语篇或作品难易度,提取语境丰富、针对性强的翻译实例。

    然而,语料库在翻译教学中的应用也存在一些局限性。Stewart(2000:73-91)的研究表明学生的译作常常受到具体语料库中反复出现的应用模式影响,翻译的创造性因而打了折扣。MalmkjH1X1140.jpgr(2007:119-34)也持类似观点。他认为语料库主要“反映过去的语言使用模式,不能代表未来语言发展的趋势”。翻译本质上是创造性活动,而语料库所提供的例证往往会误导译者并扼杀其创造性。为此,在翻译教学实践中有必要采用颠覆性的方法使用语料库,让学生知道如何进行创造性翻译。

    7.口译研究

    与笔译语料库相比,由于口译语料采集很难,口译语料的转写和标注常常耗费大量的人力和物力,口译语料库的建设要困难得多。尽管如此,一些口译语料库相继建成,并逐渐应用于口译语言特征、口译规范和口译策略等领域的研究。

    7.1口译语言特征研究

    口译语言特征研究涵盖翻译共性和具体语言对口译语言特征研究。

    Gumul(2006:171-90)基于口译语料库,对同声传译中不同种类的显化现象进行实证分析。研究表明,40%的显化现象为增添连接词;代词译成所指词汇的显化现象为20%;名词化短语译作动词短语占9%;而采用词汇重复或添加和省略结构等方法的显化均占6%。他认为口译显化程度的高低与翻译方向相关。

    Baumgarten等(2008:177-203)利用德英会议口译平行语料库,分析口译中的显化及其原因。研究结果显示,显化这一翻译共性的形成并非由于口译过程本身,而是因为语言间差异和不同口译策略等因素。

    7.2口译规范研究

    关于基于语料库的口译规范研究,Shelsinger(1989:111-5)分析了该领域研究所存在的困难:对译员的口译活动进行录音,存在技术、后勤和法律上的障碍。口译语料库的库容往往不大,不太适合于口译规范研究。Schjodager(1995:29-45)指出,口译译员工作的实时性,尤其是在同声传译模式下的实时性,使人们难以评估译员的口译作品是应用规范的结果,还是处理能力局限的产物。

    Schjodager(1995:29-45)基于丹麦语-英语口译语料库,从文化限定词的翻译处理角度,具体探讨了口译译员所遵循的口译初始规范。Tohyama和Matsubara(2006:893-6)利用日本名古屋大学开发CIAIR同声传译语料库,在分析4578对英语-日语句对的基础上,探讨了英语-日语同声传译的12种句法操作规范。Duflou(2007:1-11)提出建设收录政府机构和口译服务商的口译服务文件等语料的专门语料库,并以此为研究平台,运用批评话语分析方法研究口译规范。

    7.3口译策略研究

    Tohyyama和Matsubara(2006:893-6)利用日本名古屋大学研发的英日双向同传语料库,分析同声传译中单词之间的时间间隔、填充词对听众理解的影响、听众印象与译员停顿长度等。结果显示,将日文译成英文的时间间隔大于英文译成日文的时间间隔;填充词影响听众的理解;听众印象在很大程度上受口译节奏和译者停顿的影响。Furuyama等(2005:111-36)基于视频同传语料库,分析口译译员手势使用的频率。他发现职业译员在翻译正式的、事先准备讲稿的演讲时,较少使用手势,但在翻译较难理解的段落或在问答时段翻译时,手势使用频率较高。

    Lindquist(2004:35-48)利用自建的库容达8万词的英语—西班牙语口译语料库,从意义、修辞值和清晰度的角度分析口译译文与原文信息的差异。他认为这一差异的原因是词性转换、增词和省略等口译方法的应用。Nafá基于英语—西班牙语公众演讲口译语料库,阐述了语调在组织语篇结构、明示信息结构和体现演讲人和听众之间的关系等方面的作用。他指出高音常常表明事物之间的比较与对比,降调用于引导一个新话题。此外,演讲者常常运用音调的高低变化拉近或疏远与听众之间的距离。

    应当指出,国外基于语料库的口译研究尽管取得了一些成绩,但目前建成的口译语料库为数不多,该领域研究的广度和深度均差强人意。

    8.国外语料库翻译学研究存在的问题

    综上所述,国外语料库翻译学研究取得了可喜的进步,不过仍有较大的上升空间。

    研究广度较为有限,未能与翻译学的跨学科特性有机结合

    翻译学的研究范式主要有语言学研究范式和文化研究范式。然而,国外语料库翻译学研究局限于翻译共性、译者风格和翻译教学等领域的研究,这些研究基本上属于语言学研究范式,从文化层面研究翻译现象和本质的语料库翻译学研究成果寥寥无几。因此,未来语料库翻译学研究既要从语言学视域出发,也要选取文学理论或文化理论视角,从而实现语料库翻译学与翻译学跨学科属性的有机结合。

    过分关注翻译语言的共性,忽略翻译语言个性的研究

    应当指出,国外学界在翻译共性和翻译规范研究方面投入了大量精力。不过,这些研究往往一味强调翻译语言的共性和翻译活动的普遍规范,而对于翻译语言和翻译活动的个性没有给予足够的关注。尽管人类翻译语言和翻译活动存在一定程度的共性,但由于源语和目的语的差异、译者的性别、翻译风格和翻译思想、文本类型、翻译目的和审美标准等因素的影响,具体语言对翻译语言特征和翻译规范表现出不同程度的差异。具体语言对翻译语言特征和翻译规范与学界广泛讨论的翻译共性和翻译规范之间是个性与共性之间的辩证关系。后者寓于前者之中,并通过前者体现出来。没有前者,就没有后者。只有深刻理解翻译语言和翻译规范在不同因素影响下所表现出的具体差异,才能正确把握翻译共性和翻译规范。因此,语料库翻译学关于翻译共性和规范的研究必须将制约翻译活动的不同因素考虑在内,重视翻译语言和翻译规范个性的研究。

    定量研究处于初级阶段,语料库驱动的译学研究启动

    定量研究是语料库翻译学区别于传统译学研究的主要特征之一,也是语料库翻译学研究的优势所在。然而,国外语料库翻译学研究所采用的定量研究处于初级阶段,仅仅局限于词频、形符/类符比词汇密度和平均句长等简单的数据分析。这些分析虽然在一定程度上能够揭示翻译规律和译者风格,所发挥的作用却比较有限。事实上,要将定量研究真正引入译学研究领域,未来语料库翻译学研究应运用复杂的定量分析,如卡方检验和统计量测试等,以切实提高译学研究的科学性。

    众所周知,语料库方法包括基于语料库的方法和语料库驱动的方法。目前,国外语料库翻译学研究主要采用基于语料库的方法,多数成果均为通过语料和数据的分析来论证或修正已有的理论假设,而采用语料库驱动方法的研究尚不多见。因此,有必要开展语料库驱动的翻译学研究,以拓展语料库翻译学研究的深度和广度。

    基于语料库的翻译教学研究尚未获得实质性进展

    自语料库翻译学诞生之日起,翻译教学研究一直受到关注,但迄今为止尚未取得实质性突破。首先,现有研究成果只是从理论层面探讨语料库在一些翻译教学环节中的应用,很少有人探讨语料库在翻译教学大纲设计、翻译教材编写以及翻译课堂教学中应用的途径和方法。其次,翻译教学中应用语料库的重要前提是建设翻译教学专用语料库,学界却尚未对此予以关注。尽管现有的译学研究语料库可在一定程度上应用于翻译教学之中,但是这些语料库都是为翻译研究专门设计,与翻译课程教学内容的结合不太紧密,不适用于课堂教学。因此,翻译教学专用语料库的建设应提上议事日程。这类语料库应根据翻译课程的教学目的和教学内容来设计,应能满足翻译教学的实际需求。

    9.结语

    自1990年代以来,国外语料库翻译学研究在译学研究语料库的建设、翻译语言特征、译者风格、翻译规范、翻译教学和口译等领域取得了较快的发展。一系列译学研究语料库先后成功开发,一大批语料库翻译学论著发表和出版,许多以语料库翻译学为主题或议题的学术会议相继召开。但是,国外语料库翻译学研究存在一些不足之处:尚未实现与翻译学跨学科特性的有机结合;翻译语言和翻译规范个性的研究没有得到足够的重视;定量研究仍有上升空间;语料库驱动研究尚未启动;翻译教学研究有待加强。因此,未来语料库翻译学研究应结合翻译学的跨学科特性,从文化层面研究翻译现象和翻译本质,重视翻译语言特征和翻译规范的个性研究。未来语料库翻译学研究还应着力将统计量测试等较为复杂的定量研究引入译学研究之中,开展语料库驱动的译学研究;建设翻译教学专用语料库,着力推进语料库在翻译教学尤其是翻译课堂教学中的应用。

    [1]Baker, M. 1993. Corpus linguistics and translation studies: Implications and applications. In M. Baker, G. Francis, and E. Toguini-Bonelli, eds., Text and Technology: In Honour of John Sinclair. Amsterdam/Philadelphia: John Benjamins. Pp. 233-50.

    ——. 1995. Corpora in translation studies: An overview and some suggestions for future research. Target 7, 2: 223-43.

    ——. 1996. Corpus-based translation studies: The challenges that lie ahead. In H. Somers, ed., Terminology, LSP and Translation.: Studies in Language Engineering. In Honour of Juan C. Sager. Amsterdam/Philadelphia: John Benjamins. Pp. 175-86.

    ——. 1999. The role of corpora in investigating the linguistic behaviour of professional translators. International Journal of Corpus Linguistics 4, 2: 281-98.

    ——.2000. Towards a methodology for investigating the style of a literary translator. Target 12, 2: 241-66,

    [2]Baumgarten, N., B. Meyer, and D..H1X1144.jpg2008. Explicitness in translation and interprering: A review and some empirical evidence(of an elusive concept). Across Languages and Cultures 9, 2: 177-203.

    [3]Bernardini, S., D. Stewart, and F. Zanettin. 2007. Corpora in translator education: An introduction, In F. Zanettin, S. Bernardini and D. Stewart, eds., Corpora in Translator Education. Beijing: Foreign Language Teaching and Research Press. Pp. 1-14.

    [4]Bosseaux, C. 2004. Point of view in translation: A corpus-based study of French translations of Virginia Woolf's To The Lighthouse. Across Languages and Cultures 5, 1: 107-22.

    ——. 2006. Who's afraid of Virginia Woolf? A corpus-based study of the French translations of The Waves. Meta 51, 3: 599-610.

    [5]Bowker, L. 1998. Using specialized monolingual native-language corpora as a translation resource: A pilot study. Meta 43, 1:631-51.

    ——. 2001. Towards a methodology for a corpus-based approach to translation evaluation. Meta 46, 2: 345-64.

    [6]Brown, P., J. C. Lai, and R. L. Mercer. 1991. Aligning sentences in parallel corpora. Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA. Pp. 169-76.

    [7]Corpas, G., R. Mitkov, N. Afzal, L. Moya, and V. Pekar. 2008. Translation universals: Do they exist? A corpus-based NLP study of convergence and simplification. The Eighth Conference of the Association for Machine Translation in the Americas. Waikiki, Oahu, Hawaii.

    [8]Crisafulli, E. 2002. The quest for an eclectic methodology of translation description. In T. Hermans., ed., Cross-cultural Transgressions. Research Models in Translation Studies Ⅱ: Historical and Ideological Issues. Manchester: St. Jerome Publishing. Pp. 26-43.

    [9]Duflou, V. 2007. Norm research in conference interpreting: How can the study of documentary sources contribute to a better understanding of norms. MuTra 2007 LSP Translation Scenarios: Conference Proceedings. Pp. 1-11.

    [10]Furuyama, N., S. Nobe, Y. Someya, K. Sekine, and S. Hayashi. 2005. A study on gestures in simultaneous interpreters(inJapanese). Interpretation Studies 5, 3: 111-36.

    [11]Gumul, E. 2006. Explicitation in simultaneous interpreting: A strategy or a byproduct of language mediation? Across Languages and Cultures 7, 2: 171-90.

    [12]Hansen S. and E. Teich. 2002. The creation and exploitation of a translation reference corpus. Proceedings of the First International Workshop on Language Resources for Translation Work and Research. Pp. 1-4.

    [13]Holfland, K. and S. Johansson. 1998. The translation corpus aligner: A program for automatic alignment of parallel texts. In S. Johansson and S. Oksefjell, eds., Corpora and Cross-linguistic Research. Amsterdam/Atlanta, GA: Rodopi. Pp. 87-100.

    [14]Izquierdo, M., K. Hofland, and O. Reigem. 2008. The ACTRES parallel corpus: An English-Spanish translation corpus. Corpora 3, 1: 31-41.

    [15]Kay, M. and M. Roscheisen. 1993. Text-translation alignment. Computational Linguistics 19, 1: 67-93.

    [16]Klaudy, K. 2003. Languages in Translation. Lectures on the Theory, Teaching and Practice of Translation. Budapest: Scholastica.

    [17]Kenny, D. 1998. Creatures of habit? What translators usually do with words. Meta 43, 4: 515-23.

    ——. 2001. Lexis and Creativity in Translation. Manchester: St. Jerome Publishing.

    [18] H1X1143.jpgJ. 2009. Keeping Czech in check A corpus-based study of generalization in translation, 24, Jul. 2010]

    [19]Laviosa, S. 1997. How comparable can "comparable corpora" be. Target 9, 2: 289-319.

    ——. 1998a. The corpus-based approach: A new paradigm in translation studies. Meta 43, 4: 474-9.

    ——. 1998b. Core patterns of lexical use in a comparable corpus of English narrative prose. Meta 43, 4: 557-70.

    ——.2002. Corpus-based Translation Studies: Theory, Findings, Applications. Amsterdam/Atlanta, GA: Rodopi.

    [20]Lindquist, P. P. 2004. Challenging conventional wisdom: A corpus-based model for interpreter performance evaluation. The ATA Chronicle 38, 1: 35-48.

    [21]Maia, B. 2003. Some language are more equal than others: Training translators in terminology and information retrieval using comparable and parallel corpora. In F. Zanettin, S. Bernardini, and D. Stewart, eds., Corpora in Translator Education. Manchester:. St. Jerome. Pp. 43-53.

    [22]MalmkjH1X1140.jpger, K. 2004. Translational stylistics: Dulcken's translations of Hans Christian Anderson. Language and Literature, 13, 1: 13-24.

    ——. 2007. On a pseudo-subversive use of corpora in translator training. In F. Zanettin, S. Bernardini, D. Stewart, eds., Corpora and Translator Education. Beijing: Foreign Language Teaching and Research Press. Pp. 119-34.

    [23]Marais J. and J. A. Naudé. 2007. Collocations in popular religious literature: An analysis in corpus-based translation studies. Southern African Linguistics and Applied Language Studies 25, 2: 153-67.

    [24]Mauranen, A. 2000. Strange strings in translated language. A study on corpora. In M. Olohan, ed., Intercultural Faultiness. Research Models in Translation Studies I. Textual Cognitive Aspects. Manchester:. St. Jerome Publishing. Pp. 119-41.

    [25]Monzó, E. 2003. Corpus-based Teaching: The use of original and translated texts in the training of legal translators. Translation Journal 7, 4: 1-3.

    [26] Nafá, M. 2005. Acoustic-discursive analysis of intonation in English-Spanish SI. Application to interpreter training and interpreting research. Ph. D. diss., University of Granada, Granada, Spain.

    [27]Oakes, M. and T. McEnery. 2000. Bihngual text alignment: An overview. In S. P. Botley, A. M. McEnery, and A. Wilson, eds., Multilingual Corpora in Teaching and Researching. Amsterdam: Rodopi. Pp. 1-37.

    [28]Olohan, M. and M. Baker. 2000. Reporting that in translated English: Evidence for subliminal processes of explicitation? Across Languages and Cultures 1, 2: 141-58.

    [29]Olohan, M. 2001. Spelling out the optionals in translation: A corpus study. UCREL Technical Papers 13: 423-32.

    ——. 2004. Introducing Corpora in Translation Studies. London/New York: Routledge.

    [30] H1X1141.jpg. 1998. In search of the third code: An investigation of norms in literary translation. Meta 43, 4: 571-88.

    [31]Pearson, J. 2003. Using parallel texts in the translator training environment. In F. Zanettin, S. Bernardini, and D. Stewart, eds., Corpora in Translation Education. Manchester: St. Jerome Publishing. Pp. 15-24.

    [32]Puurtinen, T. 2004. Explicitation of clausal relations: A corpus-based analysis of clause connectives in translated and nontranslated Finnish children's literature. In A. Mauranen and P. Kujamaki, eds., Translation Universals Do They Exist? Amsterdam/Philadelphia, PA: John Benjamins. Pp. 165-76.

    [33]Russo, M., C. Bendazolli, and A. Sandrelli. 2006. Looking for lexical patterns in a trilingual corpus of source and interpreted speeches: Extended analysis of EPIC(European Parliament Interpreting Corpus). FORUM: International Journal of Interpretation and Translation 4, 1: 131-43.

    [34]Schjoldager, A. 1995. Interpreting research and the 'manipulation school' of translation studies. Target 7, 1: 29-45.

    [35]Shlesinger, M. 1989. Extending the theory of translation to interpretation: Norms as a case in point. Target 1, 1: 111-5.

    [36]Steiner, E. 2002. Grammatical metaphor in translation: Some methods for corpus-based investigations. In H. Hasselgard, S. Johansson, B. Behrens and C. Fabricius-Hansen, eds., Information Structure in a Cross-Linguistic Perspective. Amsterdam: Rodopi. Pp. 213-28.

    [37]Stewart, D. 2000. Conventionality, creativity and translated texts: The implications of electronic corpora in translation. In M. Olohan, ed., Intercultural Faultiness. Research Methods in Translation Studies Ⅰ: Textual and Cognitive Aspects. Manchester:. St. Jerome Pub lishing. Pp. 73-91.

    [38]Tohyama, H. and S. Matsubara. 2006. Influence of pause length on listeners' impressions in simultaneous interpretation. Proceedings of 9th International Conference on Spoken Language Processing. Pittsburgh, PA. Pp. 893-6.

    [39]Tirkkonen-Condit, S. 2002. Translationese, a myth or an empirical fact? A study into the linguistic identifiability of translated language. Target 14, 2: 207-20.

    [40]Zanettin, F. 2000. Parallel Corpora in translation studies: Issues in corpus design and analysis. In M. Olohan, ed., Intercultural Faultlincs. Research Models in Translation Studies I: Textual and Cognitive Aspects. Manchester:. St. Jerome Publishing. Pp. 105-18.

    ——. 2009. Designing an English Italian translational corpus. In B. Kettemann and G. Marko, eds., Teaching and Learning by Doing Corpus Analysis. Beijing: World Publishing Corporation. Pp. 329-43.

    本文由金莎娱乐发布于产品,转载请注明出处:国内外23个语料库推荐,构建新型的历时复合语料

    关键词: