学术动态

秦洪武教授为首届语料库翻译学暑期讲习班授课

发布时间:2012-07-14   阅读次数:-

秦洪武教授为首届语料库翻译学暑期讲习班授课
 

    7月11-12日,曲阜师范大学秦洪武教授为语料库翻译学暑期讲习班授课,主要介绍了常用语料库软件的应用。秦教授06年获得北京外国语大学语料库翻译学方向博士学位,近年来在《外语教学与研究》、《现代外语》、《外国语》、《中国翻译》等国内知名期刊上发表论文10篇,出版学术专著1部,主持国家社科基金重大招标项目子课题1项,国家社科基金课题1项,省部级基金课题2项。多年来他致力于语料库翻译学研究,对双语语料库常用建库及检索软件十分熟悉。

    11日上午,秦教授首先介绍了双语语料库的特征,他认为目前所说的双语语料库是指可以机读的语料库,通常以.TXT, .XML, .HTML等格式存储,格式一致,且多数有标注信息和元信息以便于数据管理和检索。在介绍语料库抽样时,他认为语料库并非越大越好,而应该结构合理,具有代表性。
    接着以建库进程为线,介绍了双语语料库建设中所使用的常用软件。他表示,在语料库采集完毕后,首先要做的就是语料除噪,这就需要语料格式尽量保持一致,剔除乱码以及不必要的软硬回车等语料噪音。他首先演示了使用WORD进行除噪,特别是WORD中的宏录制功能以节省时间人力。在文本处理方面,他还介绍了EditPlus软件,并演示了如何以正则表达式对语料库进行除噪。然后他介绍了Headadder软件,进行元信息添加的演示,以方便文本管理以及翻译的深层研究。
    下午,秦教授给各位学员介绍了双语语料库对齐软件ParaConc, bitext2tmx等。他认为对齐是双语对应语料库的重要特征,而对齐方式与创建语料库的目的有关,翻译研究中涉及到的双语对应语料库通常要做到句子层面对齐。他还指出,文学翻译语料库与非文学翻译语料库相比,对齐难度更大,需要更多的人工干预,在实际操作中可以采取抽样检查。然后他以北外语料库为例,详细演示了ParaConc在对齐方面的功能。此外,他还介绍了英汉语赋码软件Geniatagger, MyTxtSegTagTool等,并同时表示目前汉语分词及标注仍有待进一步发展,因此当语料库标注需要更高精密度的时候,人工干预是必须的,有时候依据研究目的,甚至需要人工标注。
    12日讲习班分两组上下午交替采取讲习和导修两种形式进行。讲习课上,秦洪武教授介绍了语料库检索软件WordSmith, AntConc, Omega等。他指出,检索条件十分重要,譬如“相反”在句首通常表示与前文意思相反,可作为话语标记;而“相反”位于句中,如“我们朝着相反的方向走了”,就不是话语标记,这就需要设定相应的检索条件。他还以学生习作翻译为例,介绍了平行语料库在辅助翻译中的应用。

地址:中国上海东川路800号上海交通大学闵行校区杨咏曼楼

  邮编:200240  网址:http://sfl.sjtu.edu.cn

​​​​​​​ 电话:021-34205664 (党政办公室)  021-34204723(教学科研办公室)

Copyright @ 2017 All Rights Reserved 旧版网站