语言学研究
语言学学术研究
标签:语言学

一、语料库语言学

建设了22亿字的“全球华语语料库”:海外华语媒体语料库、华文教材语料库、留学生作文和口语语料库、中国大陆分类语料库、中国大陆小学生作文语料库、汉语教材语料库,已分词标注词性。教育部、“国家语言资源监测与研究中心”已利用该语料库发布、出版了相关报告和论文。

建设了海外华语多媒体语言资源库(华语社区个人、家庭、社区口语语言生活场景录音录像,华语社区语言景观照片,100G)。

完成“全球华语语料库”网络版字词检索系统,完成“语料库建库统计一体化系统”、“汉语助研”软件。

二、计算语言学

1、新词语发现

提出了一个基于网页链接分析的新词语发现与聚类的新算法,“中国语言生活状况报告:年度新词语”(国家语委发布,商务印书馆出版)2007-2016年采用了用此方法提取的新词语。

2、词语聚类

基于任意语料,无需先验知识,自动进行词语主题聚类。该方法已用于分领域汉语教学用词表建设、智能广告。国家汉办采用了我们用该方法构建的商务词表作为《BCT商务汉语考试词汇大纲》,国内多家在线广告机构购买了该词语聚类服务。

3、语块与搭配

基于“语块”理论,在超大规模的语料库中自动提取语块及其搭配。计算和研究语块搭配的类连接、语义韵等语言学特征规律,辅助汉语教学。

4、汉语词语表

建设了全球汉语(华文)报纸、网站、教材、作文、口语等语料库(22亿字),利用数据挖掘的方法,完成了“汉语口语教学分级词语表、华文教材核心分级词语表、少儿华语主题分类词语表、商务汉语分级词语表、旅游汉语词语表、华文水平测试分级词语表”等。

三、计算语言学辅助汉语(华语)及汉语教学研究

基于大规模语料库、利用计算语言学方法辅助华语字词使用调查研究,发表多篇论文和研究报告(《中国语言生活状况报告》,《东南亚华文媒体用字用语研究》)。

利用数据挖掘方法,在面向汉语教学的基本词表、领域词表、字词句难易度计算、话题库、语块搭配、交际构式、常用句、影视教学等方面发表了系列论文,出版《汉语现代教育技术》,开发了基于字词句的汉语教学资源库、移动汉语学习软件。

四、语言智能科技

1、侨务舆情监测

每日即时采集境内外全媒体有关侨务的信息,利用主题分析、文本分类、社会化计算等方法,自动监测侨务舆情,进行侨务舆情实时预警,为政府侨务工作部门提供决策服务。

2、综合自动标引

从大规模分类语料库中智能挖掘关键短语及其主题度作为领域知识,完成了一个综合自动标引系统,集成文本分类、主题词标引和自动文摘功能。该系统已应用于机械工业研究院、北京旗帜创想科技有限公司等多家机构。

3、中文作文智能批改系统

面向中国中小学生、华裔华语学习者、汉语二语学习者,建立一个交互式的中文作文智能批改与评测平台,分别支持语文、华语、汉语作文的智能批改和评测。

澜科语言科技
版权所有 2006  澜科语言科技中心