语料库 / 全球华语语料库
全球华文媒体语料库
标签:华文媒体 报纸 网站 语料库

全球华文媒体语料库建设规划

主要收集海外华文网站和华文报刊语料。参考海外华语研究中心已经完成的《海外主要华文媒体调查报告》,选取各国主要华语代表地区当地化的、本土化特色明显的、主流性的华文网站和报刊,收集近十年的语料。

网站和已经在线的报刊,通过批量下载的方式完成,没有上网的报刊与其编辑部联系协商,直接拿到其电子版,协商不成的则人工输入完成。 预计抽样网站语料约1亿字,抽样报刊语料约2亿字。

东南亚主要华文媒体语料库(已完成)

东南亚主要华文媒体,指的是东南亚的华语报纸、华语网站。东南亚主要华文媒体语料库的来源综合考虑语料的地域分布,以新加坡、马来西亚和泰国为主,时间上动态更新,逐年增加;内容上,考虑不同主题的分布情况,如政治、经济、文化、教育等等。

东南亚华文媒体较多,由于我们对语料获取的技术限制,以及其他因素的影响,有的华文媒体语料无法获得,因此,选择的来源媒体主要考虑了语料的可获取性、媒体影响和信息量三个因素。

目前,该语料库的语料时间跨度为2005年到2014年,均来自于网络,做了去除HTML标签信息和广告信息的处理,抽取出了网页正文、标题、发表时间、媒体来源(如国家、媒体名称)等信息,以XML格式存储。总共文本数约8万个,约6亿字。

对于东南亚主要华文媒体语料库,我们做了自动分词和词性标注的处理。并且,对于每一媒体的子语料库,统一做了用字用语的标记和统计分析。例如,针对汉字分类使用的统计分析,在语料库中,分别标记出了规范字、繁体字、异体字、不规范的简化字、旧印刷字形、日本汉字、旧计量用字和韩国汉字。

华文媒体语料库在线检索

澜科语言科技
版权所有 2006  澜科语言科技中心 粤ICP备17124623号