中文智能词语处理系统集成了新词语识别、词语分类聚类、自动分词三大模块。
澜科中文智能分词系统综合了新词语识别、词语领域聚类、歧异消解等等方面研究成果,并由各专业专家整理基本词汇、专业词汇和常用短语等资源,精心开发而成。
中文智能词语处理系统三个模块:
◆ 新词语识别:自动发现新词语。
超链接至:新词语自动发现
◆ 词语分类聚类:根据领域分类词语,共15大类,250个三级层级的分类词表。对词语进行聚类,共对5万核心词聚类获得5万聚类词表。
可对任意自定主题或关键词自动进行词语聚类,例如,自定义“外汇市场”主题或“ATM”关键词,即可进行自定词语聚类。
也可以在任意自定义语料库中(无需事先分类语料,无需事先标引关键词,只要有语料文本即可,无需事先分词等加工),自定识别出该语料的核心关键词,并对每一关键词聚类词语。
超链接至:词语分类聚类
◆ 自动分词:澜科中文智能分词系统的特点就在于其出色的命名实体识别功能,特别是对领域术语识别率比较高,能满足信息检索、信息抽取、文本分类、主题词标引和自动文摘的需要。
超链接至:自动分词
|