|
|
|
以自然语言处理服务于自动标引、词语计算和汉语教学 |
|
|
|
|
|
|
|
语料库建设与加工
|
|
|
◆ 根据用户需要,提供个性化语料服务,如特定主题的语料库建设,语料深加工,语料统计,语料语言学分析等。
◆ 集成语料下载、网页内容解析、语料库信息抽取建库、语料信息检索等功能的语料库一体化系统。
◆ 方便语言学研究者无须掌握编程技术即可轻松打造自己的语料库。
◆ 支持语料分词、词性标注、句法分析。支持各种语言学要素统计分析。
◆ 自由检索语料,可提供字串表达式检索,可进行字串与、或、非的组合检索;还支持词性模式匹配检索。
语料库信息抽取建库及检索系统
集成语料下载、网页内容解析、语料库信息抽取建库、语料信息检索等功能的语料库一体化系统。方便语言学研究者无须掌握编程技术即可轻松打造自己的语料库,自由检索语料。可提供字串表达式检索,可进行字串与、或、非的组合检索;还支持词性模式匹配检索。
超大规模层级分类语料库
分类后的语料共140万个XML文件,约14亿字,共15大类,层级为4级,层级小类如“科技_数码_视频_相机”、“体育_水上运动_跳水”、“经济_证券资讯_黄金市场”、“汽车_用车修车”,类目总共244个,以XML格式存储,时间跨度为5年(2002-2006)。该语料库字段信息丰富(标题、关键词、栏目、类别、同主题链接、时间、来源),分类系统科学,存储格式可扩展性强。适合构建文本分类、话题识别和信息检索的大型训练(测试)集,而且可以面向词典编撰和教材编写,如基于分类语料库的学科词汇聚类和例句检索等。
超链接至:XML格式语料下载
小学生作文语料库(儿童语料库)
小学生六个年级的作文,总字数约三亿字;语料库包括作者、性别、年龄、年级、籍贯、标题、正文、评语等。例句检索系统可按需求定制语料库,如只检索小学二年级、七岁、男、籍贯为北京的儿童语料;可提供字串表达式检索,可进行字串与、或、非的组合检索;还支持词性模式匹配检索。
古汉语现代汉语语料库
以古汉语、现当代汉语语料为主。古汉语语料从周朝的《春秋》、《诗经》、《尚书》、《周易》一直到清代,几乎包括所有古汉语文献,如诗词曲赋、经史子集等。现当代汉语语料内容平衡,包括各种文体、类别,如记叙、议论、实用文、小说、辞典、经济、哲学、杂志、报刊等等,还包括北京口语语料
|
|
|
|
|