智能信息处理 / 自动标引
主题词标引:基于关键词语主题度的主题词自动标引系统
标签:关键词 自动标引
    针对主题词的领域不均匀性和邻界域两个特征,首创并模拟计算了主题词表征文本主题特征程度的主题度。结合方差和TFIDF原理,设计了形式化的主题词计算模型。以主题词及其主题度为领域知识,结合统计方法,形成了一个知识与统计相结合的主题词自动标引系统。

    基本特点:

    ◆ 支持叙词标引(词表选词标引)、辅助标引(自由词标引)、关键词标引(提取文章关键词标引)。
    ◆ 支持基于专家知识的规则标引或纯粹词语计算的统计标引,用户可选,或者二者相结合。
    ◆ 标引词的数量可用户自定义,支持定量(3-5个)或根据文章长度动态确定标引词数。
    ◆ 能够以多级体系的形式生成并管理标引词库,可动态编辑、修改、维护标引词。
    ◆ 支持自动训练,无需提供训练文档集即可实现新文档的自动标引。
    ◆ 支持文档主题词多级标引。

    主题词自动标引系统的综合平均得分为8.08(总分10分)。如一篇题为《万科处心积虑‘打’广州 已经获取大片土地储备》的文章,系统处理后,输出标引结果为“房地产、土地储备、万科”。

    5000篇文献的测试时间约为5秒。

    超链接至:关键词标引在线演示
澜科语言科技 刘华
版权所有 2006  澜科语言科技 粤ICP备17124623号