语料库 / 全球华语语料库
全球华语语料库
标签:华语 海外华语 语料库

一、全球华语语料库总体规划

总体上,东南亚华语语料约占全球华语语料库的四分之三,亚洲其他国家、欧洲、美洲、非洲、大洋洲等则以其主要国家的主要媒体为主,合计约占四分之一。总计四亿多字。

1、华文网站、报刊

参考海外华语研究中心已经完成的《海外主要华文媒体调查报告》,选取各国主要华语代表地区当地化的、本土化特色明显的、主流性的华文网站和报刊,收集近十年的语料。

预计抽样后的网站语料约1亿字,报刊语料约2亿字。

2、真实华语口语场景的音视频资源

采集各调查点的个人口语生活场景、家庭生活场景、重大节假日和大型聚会的口语生活场景的音视频素材。

预计共200个调查点,其中东南亚180个点,其他州20个点。转写后的文本预计每个调查点10000字(平均每分钟音视频大约30个字,每个点5个小时录音),总计约1000小时录音,200万字。

3、华文教材

华文教材主要以东南亚各国为主,立足“本土化、主流性、成套、公开出版”的基本原则,选取那些当地人主编或当地人与中国人合编的、具有本土化特色、正式出版并且较大规模使用、各个年级齐全成套的中小学教材,以及使用面广、影响较大的补习教材和自编教材。约200万字。

4、其他

华裔学习者作文主要收集学习华语的华裔留学生的作文,包括平时作文和考试作文。约1000万字。

华文文学作品参考《世界华语文学大系》,选取各国代表性华语作家的代表性作品。预计约1亿字。

华裔学习者口语主要采集学习华语的华裔留学生的日常对话、课题口语和录音室录音。约100万字。

 

东南亚

其他州

小计

字数(万)

比例(%

字数(万)

比例(%

字数(万)

比例(%

报刊

15000

75.00

5000

25.00

20000

48.19

网站

7500

75.00

2500

25.00

10000

24.10

文学作品

7500

75.00

2500

25.00

10000

24.10

学习者作文

900

90.00

100

10.00

1000

2.41

教材

180

90.00

20

10.00

200

0.48

当地人口语

180

90.00

20

10.00

200

0.48

学习者口语

90

90.00

10

10.00

100

0.24

小计

31350

75.54

11650

24.46

41500

100.00

二、已经完成的语料库

1、东南亚主要华文媒体语料库

语料库的来源以新加坡、马来西亚和泰国等主流媒体为主,语料时间跨度为2005年到2018年,总共文本数为60万个,约6亿字。已经分词和标注词性。

2、东南亚中小学华文教材语料库

以新加坡、马来西亚、菲律宾、印尼、越南的中小学华文教材为主。选取了20套、约240本小学华文教材,已经输入电脑,总共约100万字。已经进行自动分词,并标注了词性。

3、华裔学习者作文与口语语料库

语料库语料库收集了2001年到2015年的留学生作文,大约800万字。

华裔学习者口语主要采集学习华语的华裔留学生的日常对话、课堂口语和录音室录音。约100万字。

4、华语口语场景的音视频资源库

已经在东南亚13个调查点完成华语口语的录音录像工作

5、华文载体风貌照片资源库

华人社区中华文路牌、招牌、楹联、广告、标语、门牌、牌匾、墓碑、店名等日常语言生活风貌书面载体的照片。

三、价值与意义

1、构建海外华语语料库,和国内汉语语料库一起,构成全球汉语的语料库一体化系统

目前,英语已经建设有“国际英语语料库(ICE)”,这是各国或地区英语语料的集合,是全球英语变体的语料库。海外华语语料库也类似于此,应该广泛收集全球各国或地区的汉语变体的语料。

但是,国内外尚无大型通用的全球华语多媒体语言语料库,主要是中国国内的汉语语料库,有一些华语语料库也是区域性的,缺乏从全球视角构建的全世界的华语语料库。海外华语语料库建成后,将会和国内汉语语料库一起,互相补充,构成全球汉语的语料库一体化系统。

2、海外华语资源库是全球华语视野下汉语研究新突破的重要数据基础

汉语热实质上是华语热。汉语的研究必须走向全球,汉语的语音、词汇和语法研究,若想从传统的本体研究中取得新突破,需要从全球华语的角度来重新进行构思。

海外华侨华人的华研究是汉语研究全球化视野下的重要组成部分,汉语和华语的对比研究、全球不同华人社区华语差异研究、全球华语方言研究、跨境语言研究、全球华语语法研究都需要基于大规模的全球华语料库之上进行。

3、海外华语资源库是汉语国际教育和汉语国际传播的重要支撑

汉语国际教育和汉语国际推广,其中最主要的部分是华文教育和华语传播。华文教育和华语传播需要基于全球华语多媒体语言语料库的研究结果之上,例如,华文教材的本土化、国别化词表建设、华文教育用基本字词表建设、华文教育多样性研究等。特别是全球华语多媒体语言语料库中的华文教材和华裔学习者作文、口语等子语料库,将为汉语国际教育提供最直接的数据基础和理论支持。

4、描写、展示海外华语面貌,抢救性记录和保存华语语言资源,是保护民族语言文化遗产的历史使命

语言、方言是文化最重要的载体和组成部分,是构成文化多样性的前提,是珍贵的非物质文化遗产,是不可再生的宝贵资源。抢救性记录和保存华语语料库资源,是保护民族语言文化遗产一项迫在眉睫的历史使命。

5、海外华语资源库对社会语言学、人类语言学、语言地理学,甚至文化学、人类学、传播学、文学研究都有重要的数据支撑意义

海外华语资源库不仅仅包含文本的语料,而且包含口语有声数据,以及语言生活场景的音视频资源,这种多媒体形式的语言语料库,不仅仅为语言学研究提供数据支持,也对文化学、人类学、传播学提供数据参考。

6、海外华语资源库等基础信息库将为国家语言战略尤其是“一带一路”语言规划提供数据和信息参考,是建设“全球华语学”的前期基础工作

海外华语资源库包括华语文政策资源库、华语研究文献资源库、华文媒体使用状况资源库等基础信息库,它们是进行国家语言战略特别是“一带一路”语言规划和协调的重要依据,也是提炼语言规划理论的重要案例库。其中蕴含的华语文信息是相关国家的共同资源,也是中国和其他国家谋求利益共同体的有效凭借。中国语言学界可以在数据挖掘的基础上在适当的时机成立非政治性、非盈利性的国际华语文联盟组织,以此引领全球华语学的研究以及主导国际话语权。

7、海外华语资源库的基础信息有利于在语言经济学视野下规划华语传播和华语市场,培育、带动全球华语经济。

网络社会的崛起尤其是新媒体、自媒体的普及,使得内圈华文网络小说、影视剧、视频等语言文化消费形式以前所未有的速度传至全球华人社区,吸引并培植无数华语潜在受众,华语和中华文化传播力度是以几何倍数加快,扩大中国的软实力,全球华语市场的培育和创造势在必行。全球华人基础信息库、全球华文媒体资源库将为打造全球华语经济、带动华语相关消费提供信息服务。

澜科语言科技 刘华
版权所有 2006  澜科语言科技 粤ICP备17124623号