智能信息处理 / 自动标引
文本分类:基于关键短语的立体文本分类模型
标签:文本分类 立体 层级多标签

立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,利用表义完整的关键短语,提高特征项的完整独立程度,有效克服了传统分类算法中向量空间模型和贝叶斯假设(特征之间被假定为是相互条件独立的)的缺点,在3万篇测试集上(15大类,4级244小类),大类微平均提高了3.1%,小类微平均提高了15%。

立体模型是一个交叉多层级的系统。在纵的方面,是一个层级的系统,采用双向层级小类校正算法分类,一级级分到四层子类。在横的方面,采用兼类多标签分类策略,智能判断文档是否兼类,兼哪几类。大类微平均和宏平均F1值比扁平模型分别提高了1.8和2.7个百分点。

基本特基本特点:

◆ 分类速度极快,批处理1000篇6千字文耗时约10秒。

◆ 正确率高,在3万篇开放测试集上,F值约93%。>

◆ 用户可根据需要在分类体系中动态增加删除类目,系统自动训练。

◆ 支持自动训练,提供新分类体系和相对应文档,能够自动训练、分类。

◆ 交叉多层级立体分类,支持多级分类,可选兼类。

◆ 可显示类别间相似度,以分析了解分类体系是否设计合理。

◆ 分类方法支持领域知识、统计等多种方法

行业类型


学术类文献情报 非学术性网站新闻 行业知识门户
面向学术类文献情报,如学术专业论文,支持中图法分类体系。 面向新闻网站,针对网页快速准确分类,分类体系可自定义。 面向特定主题的行业,定向挖掘行业知识、构建行业门户网站。

网络新闻类分类体系示例:

15大类

游戏

旅游

汽车

教育

时政_国际

经济

文艺

体育

生活男女

时政_国内

科技

房产

娱乐

时政_社会

时政_军事


244个三级层级小类: 层级分类体系下载

超链接至:文本分类在线演示

澜科语言科技
版权所有 2006  澜科语言科技中心 粤ICP备17124623号