语料库
中国大陆网页新闻分类语料库
标签:网页 新闻 分类 语料库

分类后的语料共300万个XML文件,约30亿字,共15大类,层级为4级,层级小类如“科技_数码_视频_相机”、“体育_水上运动_跳水”、“经济_证券资讯_黄金市场”、“汽车_用车修车”,类目总共244个,以XML格式存储,时间跨度为15年(2002-2017)。

该语料库字段信息丰富(标题、关键词、栏目、类别、同主题链接、时间、来源),分类系统科学,存储格式可扩展性强。适合构建文本分类、话题识别和信息检索的大型训练(测试)集,而且可以面向词典编撰和教材编写,如基于分类语料库的学科词汇聚类和例句检索等。

XML语料库示例

语料示例

XML语料库下载(部分)

网页新闻分类语料库在线检索

澜科语言科技
版权所有 2006  澜科语言科技中心 粤ICP备17124623号