大数据自动标引:文本分类、关键词标引、自动文摘、智能广告
澜科语言科技
信息处理
语料库
智能教育
汉语教学
语言研究
演示下载
关于我们
澜科语言科技
综合自动标引
文本分类
关键词标引
自动文摘
智能广告
词语计算
词语聚类
新词语发现
自动分词
在线演示
综合自动标引
词语联想扩展
智能信息处理
/
词语计算
词语聚类、词语联想、词语扩展在线检索
标签:词语聚类、词语联想、词语扩展 时间:20130901
请输入需要联想、扩展或聚类的词语:
语料规模:20亿字,15个大类,四级共244个层级小类,如“科技_电脑_硬件_显示设备”
处理流程:全自动。涉及“关键词标引、文本分类、词语聚类、词语相似度计算、查询扩展”等数据挖掘技术。
词表规模:11万聚类词表,每表200词条。核心词11万,主要是文本表示功能强的术语或命名实体。
查询结果将只显示20个词语。如果一个核心词对应多个类别,将按类别与核心词的相关性排序。
可对任意自定主题或关键词自动进行词语聚类,例如,自定义“外汇市场”主题或“ATM”关键词,即可自动聚类出“外汇市场”或“ATM”的聚类词语表。
也可以在任意自定义语料库中(无需事先分类语料,无需事先标引关键词,只要有语料文本即可,无需事先分词等加工),自定识别出该语料的核心关键词,并对每一关键词聚类词语。
澜科语言科技
版权所有 2006 澜科语言科技中心
粤ICP备17124623号