语言数据科学

培养目标

在教育部新文科发展战略背景下,上海交通大学外国语学院积极响应国家人工智能,尤其是语言智能重大发展战略,顺应外国语言文学学科交叉与融合的趋势,精选符合国家社会需求与学科前沿的优势课程,强力打造“语言数据科学”微专业。 该项目为非学历非学位项目,致力于培养具备语言科学,计算机科学和语言智能等多学科知识,具有广阔国际视野、社会责任感和创新实践能力的语言数据科学拔尖创新人才。

在语言智能飞速发展的新时代,AI已深度融入语言研究与应用场景。系统学习“语言数据科学”,掌握数据处理、文本分析与模型应用能力,不仅是专业发展的核心要求,更是精准理解、高效运用AI、实现人机协同创新的重要前提。

培养方案   管理办法  招生简章  

项目特色

平台优势

2022 年底教育部第五轮学科评估中外国语言文学学科位居全国前 3%。依托语料库与数据科学研究中心、海内外知名高校和企业,提升学员语言数据处理与分析能力。

前沿性强

对接国际前沿新兴学科,创新发展融合课程。

零基础

课程内容针对没有编程基础的学员进行设计和优化,让零基础学员也能轻松掌握语言数据科学相关的编程技能。

课程设置

跨学科课程设置:包含语言科学、计算机科学、语言智能等多个领域知识。

理论与应用相结合:通过分析真实案例,提升学生实践能力。

4+4+2阶梯式课程设置:从基础课到进阶课到应用课,共10学分。

课程大纲

基础必修课:编程与语言数据分析

讲授 Python 基础编程知识和技巧以及语言数据分析中的编程技能;编程基础知识、编程工具与技巧、数据采集与清洗、数据处理案例应用。

基础必修课:语言数据统计与分析

讲授统计学的基本原理和方法,并将 R 语言与相关方法应用于语言数据处理过程之中;统计学方法及其适用性、数据检验。

进阶必修课:自然语言处理与机器学习

本课程系统讲授自然语言处理框架下机器学习的基本原理和方法,涵盖传统机器学习和深度学习以及两者融合等内容。学生可通过不同机器学习模式训练得到各种语言模型并实现模型的有效应用与评估。课程注重理论实践结合,通过代码复现、小型项目和案例分析,培养运用机器学习技术解决语言问题的能力,助力学生在人工智能、语言服务等领域的学术研究与职业发展。

进阶必修课:语音数据科学与应用

本课程讲授语音科学的基本概念、原理以及语音数据处理技术与应用。课程涵盖语音学三大分支,即发音语音学、声学语音学和听觉语音学,以及语音库构建与数据分析。同时,将介绍语音识别、语音合成领域的最新成果及其在语音测试评估、语言认知健康评估领域的应用。

应用必修课:语料库与翻译

讲授语料库的相关知识、方法、技术和工具以及语料库与翻译的关系;语料库技术、语料库翻译、翻译技术

应用必修课:机器学习与翻译质量评估

讲授翻译质量评估的基本原理与方法以及机器学习方法加持下的评估模式;翻译质量评估、人评与机评、机器学习算法。

应用必修课:大语言模型与应用

本课程介绍大语言模型的历史及现状。主要讲解语言模型的基本原理及其背后的算法,同时介绍目前大语言模型研究的进展以及应用。

应用必修课:数字人文

课程内容聚焦基于人工智能的数字人文方法与应用,包括定量文学批评、量化历史、文化分析、文献数字化、文物保护与活化等方面。课上将讲解如何使用开源模型、agent、可视化软件来开展具体的数字人文研究。

顶部