广告

灵玖NlpirParser文本智能挖掘分词与实体抽取

  • 图片0
1/1
新浪微博
QQ空间
豆瓣网
百度新首页
取消

数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。
灵玖软件Nlpir Parser文本智能挖掘系统是网络搜索、自然语言理解和文本挖掘的技术开发的基础工具集,开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,具体功能包括:
  1、分词处理:
  中文分词是自然语言处理的基础,对于输入的一段中文,成功的进行中文分词,可以达到机器自动识别语句含义的效果。本系统采用的“基于层叠隐马模型的分词标注”的分词算法,对抽取后的文本信息做初步的语义分析处理,使语义分析工作能够达到优的效果。特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
  2、实体抽取:
  实体抽取能够自动挖掘出隐含在汉语中的人名、地名、机构名、媒体、作者,所提炼出的词语不需要在词典库中事先存在,是对语言规律的深入理解和预测。速度达到10M/s,可在此基础上搭建各种多样化的统计和应用。
  3、文本内容去重:
  文本内容去重中间件能够对文本进行查重处理,同时能找出所有的重复文件。能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录。采用的文章指纹算法,能够在极短的时间内与历史指纹库进行对比,从而发现重复记录。
  4、新词发现:
  新词自动发现技术能够识别出词典中没有出现过的词汇、短语、流行用语,是语言文献分析方面的一把利器,并且在语义网扩展起到了重要作用。新词发现脱胎于语言自动分词技术,即对分词技术的有效提升和补充,有可辅助与语义处理的新词与新概念的扩展。
  5、文本分类过滤:
  本系统采用基于内容的文本自动分类过滤和基于规则的文本分类过滤两种方式,并支持两种方式的混合分类。能够进行多级分类,分类速度每秒100篇以上,平均准确率90%以上,能够进行中英文分类和中英文的混合分类。用户可以灵活、方便的更换模板,来实现对不同的主题的分类过滤。
  6、文本聚类:
  文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大数据事件追踪、情报的可视化分析等诸多应用。
  7、文档关键词提取:
  文章关键词提取中间件能够在全面把握文章的中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。
  8、文本摘要:
  自动摘要中间件不仅可以针对一篇文档生成连贯流程的摘要,还能够将具有相同主题的多篇文档去除冗余、并生成一篇简明扼要的摘要;用户可以自由设定摘要的长度、百分比等参数;处理速度达到每秒钟20篇。
  9、网页正文提取:
  网页正文提取中间件能够实现HTML格式的分析,自动分辨出网页是属于索引页面还是内容页面。对于内容页面,能够剔除HTML标签和导航、广告等干扰性文字,返回实际有价值的正文内容。特别适用于大规模互联网信息的预处理和分析。
  10、信息与情感值计算:
  云服务平台能自动识别正负面文章,依据文章信息的正负面程度,自动计算出文章的情感值,文章中正面词汇褒义词汇出现的多,文章情感值就高,反之,情感值就低。如果文章是介绍某商品的文章,情感值可以标识对商品的评价,也可以计算文章中表现出的对某人或某事的评价,对某公司的褒贬程度。

大象金服(北京)科技有限公司为你提供的“灵玖NlpirParser文本智能挖掘分词与实体抽取”详细介绍
在线留言

*详情

*联系

*手机

大数据中文分词信息

VIP推荐信息

热门搜索

北京咨询服务>北京市场调研>灵玖Nlpi
信息由发布人自行提供,其真实性、合法性由发布人负责;交易汇款需谨慎,请注意调查核实。
触屏版 电脑版
@2009-2024 京ICP证100626