|
|
|
以自然语言处理服务于自动标引、词语计算和汉语教学 |
|
|
|
|
|
|
|
分领域分话题对外汉语教学
|
|
|
对外汉语教学不仅有学生汉语水平等级的差别,进行因材施教,而且应该有面向教学领域,即学科的差别。例如,在掌握一定的汉语基础后,学生可能会针对从事不同行业(如经济、旅游等)的目标,重点进行该行业的语言学习,如商务高级汉语教学(国家汉办正在组织研制四个HSK专项考试:HSK少儿、商务、旅游和文秘)。
领域汉语教学分类词表:
无论是面向不同行业的专业汉语教学,还是HSK专项考试,首先面临的难题就是词语表的问题。例如,在旅游汉语教学中,我们究竟应该教给学生哪些旅游方面的词语?在考试中,学生应该掌握哪些旅游词语才能在中国从事旅游行业,我们应该考察哪些词语?对于不同等级学生的教学和考试,词语如何分级?这些都归根结底为领域词语的选择问题,根据分类词表的特点(领域性和等级性),词表的构建工作实际上包括两个子问题:
A:如何将领域中的词语聚集成群并抽取出来(词语按领域聚类)。
B:如何将领域中的词语按照流通程度或使用频率进行分级(词语按流通度分级)。
与词典编撰类似,这两个问题也得到了较好的解决,例如,我们去年为北京大学、对外经贸大学完成的HSK(商务)词表就是很好的例子。
超链接至:新词语发现
超链接至:词语分类聚类
超链接至:HSK商务词表
领域汉语教学教材素材:
与词表类似,领域汉语教学在教材取材方面也有自己的特点。与通用汉语教学教材不同,领域教学教材主要偏向于本领域中的素材,因此构建和实时更新领域语料是其关键。
已经构建了一个超大规模的分类语料库,分类后的语料库共100万个文件,约10亿字。分类主题层级最多为4级,如“科技_电脑_软件_操作系统”,大类15类,总共类目两百多个,小类具体到某个主题(话题),如“体育-运动会-奥运会”。
在此基础上,已经实现了一个层级多标记、自适应的文本分类系统。系统不仅可以完成上面所说的层级分类(244个),能为类目交叉的文本标记上多个类目名称,取得了92%以上的准确率和召回率。而且还能够根据用户需求,动态增加用户自定义的类目主题。同时,文本分类系统集成了主题词自动标引模块,能为文章自动标注上反映文章核心内容的主题词(以关键词表示),如一篇题为《万科处心积虑‘打’广州 已经获取大片土地储备》的文章,交给系统处理后,输出标引结果为“房地产、万科、土地储备”(约80%的专家认可率)。这一模块可以补充分类系统,提供非常细致的主题的文本聚类功能。
超链接至:文献自动标引
超链接至:在线辅助教学:中文助手
|
|
|
|
|