翻译技术

刘剑1

目录

  • 1 计算机辅助翻译概述
    • 1.1 计算机辅助翻译概述(1)(教学视频)
    • 1.2 计算机辅助翻译概述(2)(教学视频)
    • 1.3 拓展阅读:与翻译技术教学相关的网站
    • 1.4 课后思考题
  • 2 主流计算机辅助翻译工具功能及特点
    • 2.1 主流计算机辅助翻译工具功能及特点(教学视频)
    • 2.2 本章拓展阅读(文章-国内外四种常见计算机辅助翻译软件比较研究)
    • 2.3 拓展阅读(基于翻译方法的计算机翻译工具比较_省略_有道翻译和Transmate为例)
    • 2.4 主流翻译记忆工具官网
    • 2.5 课后思考题
  • 3 常见文本格式的转换及除噪技术(一):字符编码基础、文本加密解密及格式转换
    • 3.1 字符编码基础及PDF文件密码去除(教学视频)
    • 3.2 PDF与Word格式相互转换及翻译文件传输前加密(教学视频)
    • 3.3 文本格式转换练习
      • 3.3.1 文本格式转换工具
      • 3.3.2 文本格式转换练习
      • 3.3.3 OCR工具下载
    • 3.4 课后思考题
  • 4 常见文本格式的转换及除噪技术(二):文本整理及光学字符识别(OCR)
    • 4.1 利用OCR工具Abby Finereadr将扫描图片转为可编辑的Word文件(教学视频)
    • 4.2 利用Microsoft Word进行文本整理(教学视频)
    • 4.3 Emeditor中运用正则表达式进行文本整理及添加Seg段落标签(教学视频)
    • 4.4 利用文本整理器及VBA进行文本整理(教学视频)
    • 4.5 语料处理及对齐软件使用介绍(文档)
    • 4.6 正则表达式简易教程(文档)
    • 4.7 文本整理课堂操作练习
    • 4.8 Winrar解压软件
    • 4.9 课后思考题
  • 5 在线网络资源在翻译活动中的应用(一):搜索引擎、语料库、电子词典在翻译中的应用
    • 5.1 教学视频
    • 5.2 在线语料库资源(一)(链接)
    • 5.3 在线语料库资源(二)(链接)
    • 5.4 中国汉英平行语料大世界(链接)
    • 5.5 搜索引擎分类及工作原理(文档)
    • 5.6 在线各类电子词典列表(链接)
    • 5.7 课后思考题
  • 6 在线网络资源在翻译中的应用(二):机器翻译、百科全书、术语库在翻译中的应用
    • 6.1 教学视频
    • 6.2 术语在线—权威的术语知识服务平台(链接)
    • 6.3 在线术语库示例
    • 6.4 课后思考题
  • 7 翻译记忆工具Transmate的使用(一):创建翻译项目
    • 7.1 教学视频
    • 7.2 Transmate快速上手入门教程(视频)
    • 7.3 课堂操作练习
    • 7.4 Transmate安装及使用常见问题
    • 7.5 课后作业
  • 8 翻译记忆工具Transmate的使用(二):机器翻译API帐号的申请及调用机器翻译实现预翻译
    • 8.1 教学视频
    • 8.2 百度翻译帐号申请教程
    • 8.3 有道翻译账号申请教程
    • 8.4 主要机器翻译API接口调用地址汇总
    • 8.5 课后作业
  • 9 翻译记忆工具Transmate的使用(三):利用Transmate 翻译带有各种格式的文本及译文的导出
    • 9.1 教学视频
    • 9.2 课堂操作练习(翻译包含粗体、斜体、下划线、脚注、超链接等不同格式的文本)
    • 9.3 课后思考题
  • 10 翻译记忆工具Transmate的使用(四):利用双语文本构建记忆库、术语库
    • 10.1 记忆库及平行语料库制作步骤(教学视频)
    • 10.2 Transmate萃取并导入术语(教学视频)
    • 10.3 利用Antconc检索中英文单语语料(操作视频)
    • 10.4 利用Paraconc检索已经对齐的双语语料(操作视频)
    • 10.5 利用Cajviewer检索双语文本(视频)
    • 10.6 课堂操作练习
    • 10.7 术语库及记忆库拓展阅读
    • 10.8 课后作业
  • 11 Trados 2007的特点及基本操作
    • 11.1 Trados基础入门
    • 11.2 Trados 2007嵌入Word界面中辅助翻译(教学视频)
    • 11.3 利用Tageditor翻译带有标签的文本(教学视频)
    • 11.4 课后作业
  • 12 第十二讲  SDL Trados 2014的主要模块及基本操作
    • 12.1 Trados 2014创建翻译项目、编辑并输出译文(教学视频)
      • 12.1.1 课堂练习
    • 12.2 创建与管理Trados记忆库与术语库
    • 12.3 课后思考题
  • 13 平行语料库的构建与应用(ICTCLAS分词、Paraconc对齐工具的使用)
    • 13.1 利用Paraconc对齐双语文本(教学视频)
    • 13.2 语料库入门(1)
    • 13.3 语料库入门(2)
    • 13.4 平行语料库的构建及其在翻译研究中的应用
    • 13.5 语料天涯(荟萃了国内外有影响力的语料库网站及资源)
    • 13.6 北外语料库语言学
    • 13.7 上海外国语大学语料库研究院
    • 13.8 课后思考题:
  • 14 本地化基础及SDL Passolo在软件本地化中的应用
    • 14.1 利用Passolo进行软件本地化(教学视频)
    • 14.2 课堂操作练习
    • 14.3 本地化基础知识
    • 14.4 本地化主要做什么?
    • 14.5 传统翻译公司转型本地化服务的策略与选择
    • 14.6 国内外本地化专著书目
    • 14.7 拓展阅读(网站、软件本地化文献)
    • 14.8 运用 Passolo进行软件本地化练习
    • 14.9 练习:利用Passolo进行软件本地化
    • 14.10 课后思考题
    • 14.11 屏幕录制软件
  • 15 桌面出版(DTP)基础
    • 15.1 FrameMaker中文基础教程
    • 15.2 InDesign中文排版教程
    • 15.3 课后操作练习
  • 16 Déjà Vu辅助翻译教程及练习(课外选修内容)
    • 16.1 DejaVuX3.9.0.793安装程序
    • 16.2 DejaVu 试用激活账号
    • 16.3 PPT使用教程
    • 16.4 Déjà Vu X3 用户指南
  • 17 计算机辅助翻译教学研究及人才培养案例
    • 17.1 课程负责人被聘为湖南师大外语学院硕士生导师
    • 17.2 指导湖南师范大学翻译硕士(MTI)论文(1)
    • 17.3 指导湖南师范大学翻译硕士(MTI)论文(2)
    • 17.4 指导本科翻译专业学生获得湖南省大学生创新创业训练项目
    • 17.5 省十二五英语专项课题-语言行业技术视域下的《计算机辅助翻译》课程设计及教学模式研究
    • 17.6 教研论文(1)
    • 17.7 教研论文(2)
    • 17.8 教研论文(3)
    • 17.9 课程负责人在上海交通大学聆听宾夕法尼亚大学语言数据联盟副主任袁家宏博士有关Python及R语言在语言数据分析中的应用系列讲座
    • 17.10 上海外国语大学“语言数据科学与应用”学科2021年推荐免试硕士生
    • 17.11 相关成果2019年获衡阳师院教学成果二等奖
    • 17.12 课程负责人被聘为英汉比较研究会语料库翻译学专业委员会理事、外语学科发展研究专业委员会理事
在线语料库资源(一)(链接)

在线语料库资源(一)


国内可用免费语料库(凡没有标注不可用的链接均可用)

(一) 国家语委
1.国家语委现代汉语语料库http://www.cncorpus.org/
现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。
2.古代汉语语料库http://www.cncorpus.org/login.aspx
网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。
 
 (二) 北京大学计算语言学研究所
《人民日报》标注语料库http://www.icl.pku.edu.cn/icl_res/
《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。
 
(三) 北京语言大学
汉语国际教育技术研发中心:HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp
语言研究所:北京口语语料查询系统(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp
 
(四)中国外语教育研究中心   

http://www.sinotefl.org.cn/


(五)中国传媒大学
1.中国传媒大学文本语料库检索系统
http://ling.cuc.edu.cn/RawPub/
2.在线分词标注系统
http://ling.cuc.edu.cn/cucseg/
3.新词语研究资源库
http://ling.cuc.edu.cn/newword/web/index.asp
4.音视频语料检索系统
http://ling.cuc.edu.cn/mmcpub(目前系统正在升级改造中)
 
(六)哈尔滨工业大学
哈工大信息检索研究室对外共享语料库资源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
该语料库为汉英双语语料库,10万对齐双语句对,文本文件格式,同义词词林扩展版,77,343条词语,秉承《同义词词林》的编撰风格,同时采用五级编码体系,多文档自动文摘语料库,40个主题,文本文件格式,同一主题下是同一事件的不同报道,汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,可以图形化查看,问答系统问题集,6264句,已标注问题类型,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到,单文档自动文摘语料库,211篇,分不同体裁,LTML化,文摘句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。
 
(七)清华大学
汉语均衡语料库TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去)
 
(八)香港教育学院
语言资讯科学中心及其语料库实验室http://www.livac.org/index.php?lang=sc
自1995年开始,以「共时」方式处理了超常的大量汉语语料,通过精密的技术,累积众多精确的统计数据,建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共时语料库。本语料库最大特点是采用「共时性」视窗模式,严谨地定时分别收集来自多地的定量同类语料,可供各种客观的比较研究,方便有关的信息科技发展与应用。此外,语料库又兼顾了「历时性」,方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。
 
(九)中国科学院计算技术研究所
跨语言语料库http://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不知道是否在升级)
目前的双语句对数据库中有约180,000对已对齐的中英文句子。 本数据库支持简单的中英文查询服务。 查询结果包括句对编号、中文句子、英文句子、句对来源。
 
(十)中文语言资源联盟
中文语言资源联盟http://www.chineseldc.org/
(Chinese Linguistic Data Consortium,简称ChineseLDC)的建立。ChineseLDC是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。ChineseLDC 将建设和收集中文信息处理所需要的各种语言资源,包括词典,语料库,数据,工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。(之所以排名这么后,是因为是国家出钱的项目,却没有什么免费资源。)

(十一) 上海交通大学翻译与跨文化研究中心、贝克翻译研究中心(英文)

翻译与跨文化研究中心网站:http://trans.sjtu.edu.cn

贝克翻译研究中心  https://www.jiaotongbakercentre.org/


国外语料库资源



1. 杨百翰大学
 
杨百翰大学语料库http://view.byu.edu/杨百翰大学的Mark Davies教授开发的语料库统一检索平台,整合了美国当代英语语料库、美国历史英语语料库、美国时代杂志语料库、BNC、西班牙语料库、葡萄牙语料库等6个语料库的资源。该网站每月有60,000人的使用量,也许是目前最广泛使用的网络语料库。
 
2. 联合国官方资料库
联合国文件数据库(提供80万份六种语言平行文档)http://documents.un.org/simple.asp
本文件系统包括了1993年以来联合国印发的所有正式文件。不过,联合国的早期文件也逐日添加到本系统。本文件系统也提供从1946年以来联合国大会、安全理事会、经济及社会理事会和托管理事会通过的所有决议。本系统不提供新闻稿、联合国出版物、联合国条约汇编或新闻部印发的新闻材料。由日本捐赠的3万多份数字化文件已被增添进正式文件系统。
 
3. 兰开斯特大学
兰开斯特汉语语料库 (LCMC) http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474
应学术界对免费对公众开放的平衡的现代汉语语料库的需求的情况下筹建的。 LCMC 语料库是由兰开斯特大学语言学系承担的并得到英国经社研究委员会资助(项目代号:RES-000-220135)的研究项目。 LCMC语料库是与 Freiburg-LOB Corpus of British English (即FLOB)平行对应的汉语语料库,它有助于我们从事汉语的单语和英汉双语的对比研究。通过该网址可以免费索取LCMC预料用于研究之用。http://ota.oucs.ox.ac.uk/scripts/download.php?otaid=2474
 
4. 语言开放典藏社群(OLAC)
OLAC(Open Language Archives Community)http://search.language-archives.org/index.html语言开放典藏社群是由个人或组织所组成的国际性合作协会。许多种类的协会需要语言资源,如:语言学家、工程师、教师、演说家,也有许多机构提供片段性的架构,如:文件管理器、软件开发者和出版者。理论上,用户希望透过单一接口便可以取得任何需要的资源,其中资源种类涵盖:①资料(Data):任何描述语言的相关信息;②工具(Tool):有助于创造、浏览、查询或使用语言数据的计算器资源;③建议(Advice):譬如,告知使用者什么资源具有高可靠度?在此情境中哪一种工具适合采用?当新的数据衍生出时该如何创造?但实际上,却有着语言资源散布在不同的网站、使用者无法得到想要的资源、语言资源在不同网站拥有不同名字(Name)造成召回率(recallrate)低,在其他领域有相同意义,造成正确率低(precision rate)、许多语言资源并非以文字为基础、不确定是否有建议适当软件,以及所提出的建议是否中肯…等问题。OLAC由此诞生。藉由下列步骤进行创造世界性语言资源的虚拟图书馆:针对语言资源数字典藏发展一致性的实践指引;发展网络上具有互操作性且提供存取相关语言资源的储存器(Repositories)和服务中心。简介可以参看http://140.109.18.114/blog/?p=1049
 
5. SKETCHENGINE多语言语料库
www.sketchengine.co.uk
每个邮箱可以注册一次,免费期是一个月,免费期过了就再注册一个邮箱,再注册一次。其中汉语语料库是没有加工的生语料库,使用价值不大。关键是其中的英语语料库实际上是原来要付费才能使用的BNC,可以好好利用。
  
6. COCA———美国当代英语语料库(Corpus of Contemporary A2merican English)
http://www.americancorpus.org/
由美国B righam Young University的M ark Davies教授开发的高达3.6亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。与其它语料库不同的是它是免费在线供大家使用,给全世界英语学习者带来了福音,是不可多得的一个英语学习宝库,也是观察美国英语使用和变化的一个绝佳窗口。 

(以上来自:http://blog.sina.com.cn/gjxyxkgy

国内外语料库建设一览

北京大学语言信息工程系捷译双语语料库Web对齐工具(自动+手动)开放注册
访问地址在 http://aligner.pkucat.com
文档:http://aligner.pkucat.net/doc/html/



已证实可用的英汉平行语料库(部分)

--TEC 
http://www.umist.ac.uk/ctis/research/research-overview.htm
翻译语料库方面则以英国曼彻斯特大学科技学院(UMIST) 翻译研究中心1995年创建的世界上第一个翻译语料库( Translational EnglishCorpus , TEC) 最为著名。该语料库主要收集从各国语言翻译成英语的文本,目前已有上千万词的语料(目标是5 千万词) ,分小说(约占80 %) 传记、报纸和期刊4 个子库。它并不要求必须双语对齐。
该库不仅对语料进行了附码标注,还带有许多超语言信息的标注,如对译者情况(包括译者姓名、性别、民族、职业、翻译方向等) 、翻译方式、翻译类型、源语、原书情况、出版社等等均一一予以标注。

--北大双语语料库
北大计算语言学研究所的双语语料库,英汉对齐的句子已有5万多对,并开发了相应的对齐工具和双语语料库管理软件。正在此基础上做汉英对照短语库,预计规模将达数十万条。

--中英双语在线(CEO)测试开通
网址为 http://www.fleric.org.cn/ceo/

--紅樓夢漢英平行語料庫
http://score.crpp.nie.edu.sg/hlm/index.htm

-- The Babel English-Chinese Parallel Corpus
http://www.lancs.ac.uk/fass/projects...abel/babel.htm
The Babel English-Chinese Parallel Corpus,which was created on our research project Contrasting English and Chinese (ESRC Award Reference RES-000-23-0553),consists of 327 English articles and their translations in Mandarin Chinese. Of these 115 texts (121,493 English tokens plus 135,493 Chinese tokens) were collected from the World of English between October 2000 and February 2001 while the remaining 212 texts (132,140 English tokens plus 151,969 Chinese tokens) were collected from Time from September 2000 to January 2001. The corpus contains a total of 544,095 words (253,633 English words and 287,462 Chinese tokens). Here is a list of the titles of the articles included in the corpus.
The corpus is tagged for part of speech and aligned at the sentence level. The English texts were tagged using the CLAWS C7 tagset while Chinese texts were tagged using the Peking University tagset. Sentence alignment was done automatically and corrected by hand. The corpus is also marked for paragraph and sentence. But different markup systems were adopted for the two subcorpora. For the component of the World of English, sentences were marked consecutively throughout whereas for Time, sentences were marked within each paragraph.
The Babel parallel corpus can be accessed via the ParaConc Web or MySql interface (both hosted at The Institute of Education, Singapore). Users can search in either English or Chinese texts. The concordancer returns matched whole sentences and their translations as well as the their locations. At the bottom of the resulting concordance page is a query report that indicate the query strings and distribution of matches. Users can also specify the format the output concordances as POS-tagged or plain texts.

--上海交通大学语言工程研究所目前有JDEST,LOB,BROWN,CLEC四个语料库共计700万词可供网上检索, 并可以对检索和统计数据结果下载.
http://corpus.sjtu.edu.cn/WebCast/ 

--The Translational English Corpus (TEC)
http://www.llc.manchester.ac.uk/ctis/research/english-corpus/
http://ronaldo.cs.tcd.ie/tec/jnlp/

--English Chinese Parallel Concordancer (E-C Concord) 
The Hong Kong Institute of Education.
Project leader: Dr. Wang Lixun. Program designers: Chris Greaves, Wang Lixun
http://ec-concord.ied.edu.hk/paraconc/index.htm 

--Academia Sinica Balanced Corpus of Modern Chinese 中央研究院现代汉语平衡语料库
http://www.sinica.edu.tw/SinicaCorpus/

--Lancaster Corpus of Mandarin Chinese
http://bowland-files.lancs.ac.uk/cor...gi-bin/conc.pl
may be changed to 
http://www.lancs.ac.uk/fass/projects/corpus/LCMC/


--People's Daily 2000 corpus
some related information here 
http://www.lancs.ac.uk/fass/projects/corpus/pdc2000/default.htm
--A Parallel Corpus of Chinese Legal Texts 中國法律文件漢英平行語料庫
http://score.crpp.nie.edu.sg/law/index.htm

--语料库语言学与英语教育教学。华南师范大学外国语言文化学院语料库语言学研究室
http://sfs.scnu.edu.cn/corpus4u/default.aspx


语料库工具

http://www.fleric.org.cn/crg/tools.htm 北外语料库语言学沙龙 
Beiwai Corpus Research Group (CRG) 

Corpus tools developed by group members 
Chi-square and loglikelihood Calculator, (卡方检验和对数似然率计算工具) 
TreeTagger for Windows, (语料库词性标注工具TreeTagger的Windows界面) 
Colligator 1.0 & 2.0, (语料库类联接分析工具) 
PatternBuilder 1.0, (赋码语料库检索辅助工具) 
The Edinburgh Associative Thesaurus (EAT) for Windows,(爱丁堡联想词库Windows查询工具) 
Wordlist Tools 1.0 Beta,(词表分析工具) 
My Good Old Blackboard,(我的电子黑板) 
BFSU Stanford Parser 1.0,(英文自动句法分析工具)。 
BFSU Stanford POS Tagger 1.0,(英文自动词性赋码工具)。 
BFSU Sentence Collector 1.0,(例句提取工具)。 
BFSU NewWord Marker 1.0,(生词标注工具)。 
BFSU Sentence Segmenter 1.0,(英文自动分句工具)。 
Web Colligator。 
Collocator 1.0: A collocation extraction tool,(搭配分析工具)。 
Log-likelihood ratio calculator,(对数似然率计算器)。 
Readability Analyzer 1.0 ,(英文文本可读性分析工具)。 

Other free corpus tools 
AntConc: A free concordancer(跟WordSmith主要功能接近的语料库索引工具) 
Range: Vocabulary coverage tools(基于底表的分级词汇测量工具)


语料库检索软件Paraconc 和Multiconcord:

Paraconc由Barlow制作(该软件的演示版可在网上下载),该软件的特点是可以进行多达四种语言的同时检索,或者是一个原文的三个译本的检索。这一软件的特点是可以灵活定义语言、索引行的大小、标注符号的隐显,而且支持通配符检索。

Multiconcord也是一个在Windows窗口下运行的软件。这种软件和Paraconc在检索功能上相似,但检索结果在呈现方式上不同。另外,Paraconc可以检索纯文本格式的文件;Multiconcord 则需要一个Minimark 程序来最低程度地标记文本,如< p > (段落) 和< s > (句子)。