智能信息处理 / 词语计算
词语聚类、词语联想、词语扩展在线检索
标签:词语聚类、词语联想、词语扩展 时间:20130901
请输入需要联想、扩展或聚类的词语: 
语料规模:20亿字,15个大类,四级共244个层级小类,如“科技_电脑_硬件_显示设备”
处理流程:全自动。涉及“关键词标引、文本分类、词语聚类、词语相似度计算、查询扩展”等数据挖掘技术。
词表规模:11万聚类词表,每表200词条。核心词11万,主要是文本表示功能强的术语或命名实体。
查询结果将只显示20个词语。如果一个核心词对应多个类别,将按类别与核心词的相关性排序。

可对任意自定主题或关键词自动进行词语聚类,例如,自定义“外汇市场”主题或“ATM”关键词,即可自动聚类出“外汇市场”或“ATM”的聚类词语表。

也可以在任意自定义语料库中(无需事先分类语料,无需事先标引关键词,只要有语料文本即可,无需事先分词等加工),自定识别出该语料的核心关键词,并对每一关键词聚类词语。

澜科语言科技
版权所有 2006  澜科语言科技中心 粤ICP备17124623号