智能信息处理 / 词语计算
新词语发现
标签:新词语发现 澜科

新词语的识别是自然语言处理、信息检索、信息提取中的一项基础研究。澜科利用独创技术,结合网页结构分析和统计算法,从网络实时发现新词语,并领域聚类。

基本特点:

◆ 该方法简单快捷、准确率高(97.18%),对于性能要求较高的后续处理,更是具有复杂算法无法比拟的效率优势。

◆ 新词语中命名实体占多数,经济、科技、房产、游戏和汽车等领域术语的新词率高。

◆ 同时快速完成新词语发现和新词语的领域聚类。

应用范围:

◆ 搜索引擎中,后台底表词语越多,查全率和查准率越高。

◆ 输入法中,后台底表词语越多,输入越易成词,效率越高;领域词语表包含大量领域词语,有利于面向特定领域的输入法。

◆ 新词语可以丰富人类语言知识,帮助解决一些歧义切分的问题。

◆ 新词语中命名实体多,表达更为精确完整的概念,能提高向量空间模型的文本表示能力和文本分类的效果。

◆ 在对外汉语教学中,新词语是学生更感兴趣的内容,有利于扩充词汇量、提高阅读时文的能力;编写新词语的学习词典;领域词语对特定学习目的的词表建设、教材编写有利,如HSK(商务、文秘、旅游)。

超链接至:新词语表下载

澜科语言科技
版权所有 2006  澜科语言科技中心 粤ICP备17124623号