智能汉语教学
语言计算与智能汉语教学
标签:计算语言学 智能教育 汉语教学

目前计算机辅助汉语教学主要集中在现代教育技术、多媒体和网络远程技术的辅助上,这些都只是环境、工具等形式上的辅助。真正的智能汉语教学应该是基于语言内容计算的,特别与汉语信息处理技术密切相关,涉及语料库方法、句法语义分析、统计语言模型、数据挖掘技术等,主要集中在汉语教学资源的智能开发与利用上,如基于大规模语料库,自动获取词语搭配、计算词语常用度与例句难易度、文本自动分级、智能测试等。语言计算辅助下的智能汉语教学研究将为自动化教材编写与学习词典编撰、数字化汉语教学资源建设、智能备课、汉语移动学习等提供重大帮助。

本项目将构建智能汉语教学的大数据和辅助软件平台,以此为基础,针对汉语教学中的“听说读写”四项技能,在多媒体口语常用会话资源建设、阅读分级和改编、作文评测与批改,以及汉语教学中最基础、最重要的分级分类常用词表建设方面,进行研究。

1.智能汉语教学大数据与辅助软件平台构建

将建设汉语教材语料库(汉语口语、商务汉语、旅游汉语、少儿汉语、华文教材等)、话题分类的影视会话片段库、汉语与华文学生分级的作文库、汉语华语大规模语料库;建设汉语口语话题库、商务汉语功能库、华文百科库、各种话题分类词表及大纲;建设汉语教学用常用词、常用句、常用构式资源库、分级的搭配库和例句库,以及词语释义图片库。

构建“汉语助教”辅助汉语教学软件平台。包括词句篇难易度计算、词语聚类、搭配抽取、文本指难及智能改编、教材的生词自动生成与等级分布统计、智能评测及批改、多媒体教学资源综合检索、智能备课等功能模块。

2.话题分析与多媒体常用会话资源库建设

从影视字幕中总结影视对话的时序性、指代、话题转换机制等特点,结合对外汉语教学话题专家资源,构建话题识别的话题模型库;以此为启发性知识,结合影视字幕对话的时间密度、停顿特点,设计基于对话时间密度模型的话题跟踪与字幕分割算法。利用该方法从当代生活题材的影视剧中,自动截取完整的字幕文本、视频的话题交际片断,按话题分类;标注交际场景,计算各交际片段与话题的相关度并排序,计算片段的难易度并分级。

同时,结合“情景话题—交际图式—常用会话—常用句子—交际构式—话题词表”,提取分图式、分话题的常用词语库、常用句子库、常用句式库。最终,构建一个按话题分类的多媒体的“常用词句式篇”的会话资源库,辅助汉语教学。

例如:智能获取“交通出行—买票订票”话题相关的多个电影会话字幕、视频片段,按相关度和难易度排序分级;该话题的交际图式是“招呼—提出需求—确认信息—付费—收票”;词语聚类后,图式“提出需求”的中级常用词语为“麻烦、订、买、票价、机票、车票、预订……”;例句常用度计算后,中级常用句子为“我要买一张去广州的票/……”,中级常用构式为“我要买[(一/二……)张]去(北京/广州/香港……)的(飞机/火车/汽车票)。/……”。

3.文本难易度计算与阅读智能分级改编

文本难易度指的是文本阅读与理解的内在难易程度,难易度计算包括:文本的质性维度分析、文本可读性的量化分析、与读者和阅读任务相关的因素分析。将研究影响文本难易度综合的主客观方面的多种因素,提出阅读自动分级、指难的整体解决方案。

文本改编需要将文本阅读难度或语言复杂度调整到适合某些读者阅读能力的水平。文本改编的具体实施与所参考的文本难度定级标准直接相关。将围绕“教师需求、文本指难、能力基准、智能改编”,搭建文本难度调控的人机合作机制和实施平台。

4.词语计算与分级分类常用词表建设

词语分类与词语的空间(主题)分布均匀性密切相关,词语分级的实质是词语的常用度计算。将创新词语聚类方法进行词语按话题(主题、功能、百科)分类,创新词语常用度计算方法进行词语分级及大纲建设。例如,汉语口语“日常生活—银行”话题自动词语聚类和分级计算后为:

初级:元、钱、美元、取、人民币、定期、证、办理、现金、银行、身份证、存、证件、银行卡、换

中级:笔、交易、英镑、费用、申请、签字、资金、工资、金额、余额、出示、签名、窗口、汇、兑、填写、柜台、比率、支票、填、单子、硬币、汇款、兑换、密码、输入、表格、账户、利息、储蓄、利率、手续费、零钱、外币、开户、申请表、转账、存折、ATM机、活期、支付

高级:基金、投资、发放、额、利润、金融、到期、兑现、单据、联、结算、资、收益、资产、信用、货币、注销、股票、担保、额度、信贷、佣金、户头、外汇、汇率、营业员、理财、抵押、信托、信用证、销户

将所有话题的初级词语表合在一起,去重后即为汉语口语教学用的初级词汇大纲(还可补充初级会话中的常用功能性虚词)。以此类推,将按此方法建设汉语口语、商务汉语、旅游汉语、少儿汉语、华文教学等分类分级词表以及各等级大纲。

5.汉语作文自动评测及批改研究

与英语相比,汉语缺乏结构和形态标记,意合性、隐喻性更强,句子表层很少可计算的语法规律形态。因此,中文文本内容的深层分析和评测更难也更重要。目前,中文作文自动批改大多参照英语作文批改的方法,采用多元回归分析、自动分类算法,打分评级效果尚可。但是,内容批改尚处于字词句的形式统计层面,较少触及作文的真正内容核心,如语言艺术、主题内容、篇章结构等。

将在如下几个关键技术方面进行攻关:

(1) 建设大规模、严格分级、真实的汉语和华文学生分类的作文训练集;

(2) 制定科学权威的汉语与华文作文能力测评体系和分级大纲,可操作性强的分级细则;

(3) 制定科学实用的字、词、语法、语用分级大纲,特别是华文分级大纲;

(4) 提升语法检查和纠错,特别是常见句式、框架结构、常用搭配等远距纠错的能力;

(5) 研究作文篇章层面上的,如作文主题句、主题词计算,篇章结构紧凑度计算,主题聚合度、文题符合度计算的实现方法;

(6) 研究作文修辞层面上的语言艺术的评测方法,如文体典雅度、修辞风格、语句优美度。

6.专门领域汉语教学

我们将专门用途就行了扩展,不仅仅是针对教学目的来分,而是扩展到专门的教学领域。专门领域汉语教学,是针对某一特定领域的汉语教学,例如:旅游、商务、文秘,网购,细分的行业领域如建材、衣服商贸等,甚至日常生活汉语,特殊性更强的华文教育等等。

结合“情景话题—交际图式—常用会话—常用句子—交际构式—话题词表”,建设分领域、分用途的按图式、话题分类分级的常用词语库、常用句子库、常用句式库。例如分级分类的商务词语表常用句库、旅游词语表常用句库、《华文水平测试词汇登记大纲》、网购汉语(服装、建材)词语表常用句库,等等。

澜科语言科技 刘华
版权所有 2006  澜科语言科技 粤ICP备17124623号