语料库 / 全球华语语料库
全球华语语料库
标签:华语 海外华语 语料库

一、全球华语语料库总体规划

总体上,东南亚华语语料约占全球华语语料库的四分之三,亚洲其他国家、欧洲、美洲、非洲、大洋洲等则以其主要国家的主要媒体为主,合计约占四分之一。总计四亿多字。

1、华文网站、报刊

参考海外华语研究中心已经完成的《海外主要华文媒体调查报告》,选取各国主要华语代表地区当地化的、本土化特色明显的、主流性的华文网站和报刊,收集近十年的语料。

预计抽样后的网站语料约1亿字,报刊语料约2亿字。

2、真实华语口语场景的音视频资源

采集各调查点的个人口语生活场景、家庭生活场景、重大节假日和大型聚会的口语生活场景的音视频素材。

预计共200个调查点,其中东南亚180个点,其他州20个点。转写后的文本预计每个调查点10000字(平均每分钟音视频大约30个字,每个点5个小时录音),总计约1000小时录音,200万字。

3、华文教材

华文教材主要以东南亚各国为主,立足“本土化、主流性、成套、公开出版”的基本原则,选取那些当地人主编或当地人与中国人合编的、具有本土化特色、正式出版并且较大规模使用、各个年级齐全成套的中小学教材,以及使用面广、影响较大的补习教材和自编教材。约200万字。

4、其他

华裔学习者作文主要收集学习华语的华裔留学生的作文,包括平时作文和考试作文。约1000万字。

华文文学作品参考《世界华语文学大系》,选取各国代表性华语作家的代表性作品。预计约1亿字。

华裔学习者口语主要采集学习华语的华裔留学生的日常对话、课题口语和录音室录音。约100万字。

 

东南亚

其他州

小计

字数(万)

比例(%

字数(万)

比例(%

字数(万)

比例(%

报刊

15000

75.00

5000

25.00

20000

48.19

网站

7500

75.00

2500

25.00

10000

24.10

文学作品

7500

75.00

2500

25.00

10000

24.10

学习者作文

900

90.00

100

10.00

1000

2.41

教材

180

90.00

20

10.00

200

0.48

当地人口语

180

90.00

20

10.00

200

0.48

学习者口语

90

90.00

10

10.00

100

0.24

小计

31350

75.54

11650

24.46

41500

100.00

二、已经完成的语料库

1、东南亚主要华文媒体语料库

语料库的来源以新加坡、马来西亚和泰国等主流媒体为主,语料时间跨度为2005年到2018年,总共文本数为60万个,约6亿字。已经分词和标注词性。

2、东南亚中小学华文教材语料库

以新加坡、马来西亚、菲律宾、印尼、越南的中小学华文教材为主。选取了20套、约240本小学华文教材,已经输入电脑,总共约100万字。已经进行自动分词,并标注了词性。

3、华裔学习者作文与口语语料库

语料库语料库收集了2001年到2015年的留学生作文,大约800万字。

华裔学习者口语主要采集学习华语的华裔留学生的日常对话、课堂口语和录音室录音。约100万字。

4、华语口语场景的音视频资源库

已经在东南亚13个调查点完成华语口语的录音录像工作

澜科语言科技
版权所有 2006  澜科语言科技中心