|
针对主题词的领域不均匀性和邻界域两个特征,首创并模拟计算了主题词表征文本主题特征程度的主题度。结合方差和TFIDF原理,设计了形式化的主题词计算模型。以主题词及其主题度为领域知识,结合统计方法,形成了一个知识与统计相结合的主题词自动标引系统。
基本特点:
◆ 支持叙词标引(词表选词标引)、辅助标引(自由词标引)、关键词标引(提取文章关键词标引)。
◆ 支持基于专家知识的规则标引或纯粹词语计算的统计标引,用户可选,或者二者相结合。
◆ 标引词的数量可用户自定义,支持定量(3-5个)或根据文章长度动态确定标引词数。
◆ 能够以多级体系的形式生成并管理标引词库,可动态编辑、修改、维护标引词。
◆ 支持自动训练,无需提供训练文档集即可实现新文档的自动标引。
◆ 支持文档主题词多级标引。
主题词自动标引系统的综合平均得分为8.08(总分10分)。如一篇题为《万科处心积虑‘打’广州 已经获取大片土地储备》的文章,系统处理后,输出标引结果为“房地产、土地储备、万科”。
5000篇文献的测试时间约为5秒。
超链接至:关键词标引在线演示
|
|