文本分类
主题词标引
自动文摘
在线演示
技术文档
主题词标引:基于关键词语主题度的主题词自动标引系统
针对主题词的领域不均匀性和邻界域两个特征,首创并模拟计算了主题词表征文本主题特征程度的主题度。结合方差和TFIDF原理,设计了形式化的主题词计算模型。以主题词及其主题度为领域知识,结合统计方法,形成了一个知识与统计相结合的主题词自动标引系统。

基本特点:

 ◆ 支持叙词标引(词表选词标引)、辅助标引(自由词标引)、关键词标引(提取文章关键词标引)。
◆ 支持基于专家知识的规则标引或纯粹词语计算的统计标引,用户可选,或者二者相结合。
◆ 标引词的数量可用户自定义,支持定量(3-5个)或根据文章长度动态确定标引词数。
◆ 能够以多级体系的形式生成并管理标引词库,可动态编辑、修改、维护标引词。
◆ 支持自动训练,无需提供训练文档集即可实现新文档的自动标引。
◆ 支持文档主题词多级标引。

主题词自动标引系统的综合平均得分为8.08(总分10分)。如一篇题为《万科处心积虑‘打’广州 已经获取大片土地储备》的文章,系统处理后,输出标引结果为“房地产、土地储备、万科”。

5000篇文献的测试时间约为5秒。

超链接至:主题词标引在线演示
版权所有 2006  澜科语言科技中心

Tel:02033615160;13668975203
Email:liuhua0461@hotmail.com