|
|
|
以自然语言处理服务于自动标引、词语计算和汉语教学 |
|
|
|
|
|
|
|
个性化数据服务
|
|
|
根据用户需要,提供个性化的数据服务,如特定主题的数据库建设、深加工、统计、分析,行业知识门户构建,语料库建设与加工等。
◆ 定向数据库构建:支持用户自定义数据库建设,如“钢铁_中厚板数据库”、“小学生作文数据库”。
◆ 数据结构化:抽取特定的结构化信息数据,如标题、作者、发表时间、来源、正文等等。
◆ 智能内容分析:自动分类、自动聚类、自动标引(自动抽取关键词、摘要)、自动排重、褒贬倾向分析等。
◆ 全文检索和精确检索,按需提供多种结果排序方式,支持结构化和非结构化数据联合检索,如结合作者、主题词、类目进行组合检索等。
定向数据采集:
聚焦、实时和自定义的网页采集技术。支持用户自定义范围的信息采集,如采集“钢铁”或“中厚板”主题的网页。
◆ 针对专业性或行业性的需求和目标,对局部来源的网页进行采集。
◆ 采集的网页全面,达到更深的层级,而且针对性强,只采集所需主题的的网页,无垃圾信息,专一干净。
◆ 按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集,更加聚焦、更纵深和更可管控。
◆ 网页信息更新周期也更短,获取信息更及时。
数据结构化:
◆ 利用网页结构分析方法,剔除垃圾信息,抽取特定的结构化信息数据,如标题、作者、发表时间、来源、正文等。
◆ 自动进行内容中结构化实体信息的提取,包括人名、地名、组织机构名、电话号码、产品名称等等。
智能文本处理 :
◆ 高度智能化的文本挖掘技术:自动分类、自动聚类、自动标引(自动抽取关键词、摘要)、自动排重、褒贬倾向分析等。
◆ 将内容以精练准确的类目、主题词和摘要表示出来,方便用户快速把握文献内容,提高浏览和检索的效率。
◆ 自动分类、自动聚类、自动标引请参考“文献自动标引”。
|
|
|
|
|