国防科技大学博士生导师李德俊教授线上讲授语料库驱动的话语分析:目标与方法
11月15日晚上19:00,由外国语文研究中心主办的外国语文研究中心20周年庆系列讲座第一讲在线举行,主讲嘉宾为国防科技大学博士生导师李德俊教授,讲座题目为“语料库驱动的话语分析:目标与方法”。讲座由我校副校长王仁强教授主持,校内外师生300余人通过腾讯会议参加了本次讲座。
讲座伊始,李教授对话语(discourse)与文本(text)的概念进行了界定。接着,他对话语分析的常用理论:批评话语分析(CDA)、系统功能语言学(SFL)、评价理论(Appraisal Theory)及其相关的主要观点、人物与著作进行了简要介绍。随后,李教授列举了基于语料库的话语分析的优点,包括可以降低传统方法的主观性、具有自动化的特征、可以对大文本数据进行分析等。
李教授详细讨论了话语分析的两种方法:手动标注(hand-coding)和自动标注(computerized coding system to match texts to a coding dictionary)。前者是一种传统方法,费时费力,标注结果的一致性与客观性可能会受到影响,例如系统功能语言学(及物性语法)物质过程的标注;后者使用词典扫描文本,对文本进行自动标注,是目前情感分析(sentiment analysis)的主要方法。随后李教授评价道,以上方法都或多或少地采用了语料库的方法或使用语料库进行研究;CDA等采用语料标注,再使用检索工具进行统计定量研究是典型的语料库方法;情感分析需要在对大量语料进行分析地基础上制定情绪词表;标注的方法和词表扫描的方法应当根据研究目的来选择使用。
李教授紧接着深入阐释了语料库驱动的干净文本分析(Corpus-driven Clean Text Analysis)。该分析符合学科的方向,需要遵循干净文本原则(clean text policy)。此类分析常用三种方法:关键词和词表的分析、共词分析(Co-word Analysis)与搭配和词语共现的分析。第一种,关键词和词表的分析旨在获取内容、主题、焦点、实体、文本分类。通过该分析方法能够确定文本的主题和实体群;通过统计高频主题词及其变化趋势,能够准确把握其热点、发展脉络与发展方向。第二种,共词分析旨在获取语义网络、相关性。主题词是对文章核心内容的浓缩和提炼,通过主题词共现分析(共词分析),可以发现隐藏在真实关系网背后隐藏的关系网络。第三种,搭配和词语共现分析旨在获取立场、评价,涉及到的是短语学(phraseology),语料库语言学研究中最重要的一个部分。词汇之间主要有以下四类共现关系:搭配(collocation),类联接(colligation),语义倾向(semantic preference)和语义韵(semantic prosody)。立场的初步释读就是解读索引行。
在讲座末尾,李教授对未来的研究方向提出了建议:采用语料库进行话语分析想要取得更大的进步,基于干净文本是我们努力的方向;要想让语料库对话语分析有更大的贡献,在算法和工具上需要有更大的创新,机器学习是未来发展的方向。
王仁强教授对李教授的精彩讲座进行了总结与点评,指出本次讲座“理实并重,知行合一”,不仅有话语分析的相关知识介绍,更有结合具体研究问题的话语分析案例,还有语料库的建设与使用方法。线上师生讨论气氛热烈,师生们在留言区踊跃提出问题,李教授就这些问题进行了详细解答。本次的讲座拓宽了师生的学术思路和视野,对语料库驱动的话语分析研究提供了重要的启示,使广大师生受益匪浅。
图/文 外国语文研究中心