未来索引
开启左侧

灵玖大数据在中文语义分析完成新突破

[复制链接]
ljrj123 发表于 2019-9-4 17:16:15 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
中文中有一词多义,相比英文分析,中文语义分析的语义分析面临更多技术难题。灵玖大数据在研发过程中,充分考虑到了中文特殊性,针对一词多义和文章中出现的新地点名均提出了解决方案,提高了中文语义分析的准确性。

汉语智能分词
中文分词是语义分析的基础阶段,是进行中文信息处理必备的核心部件。灵玖综合了各家所长,采用条件随机场(Conditional Random Field,简称CRF)模型,分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。
条件随机场运用CRF模型,采用了先将汉语语言进行定性的方式分析语言,根据自然语言的运用环境对多义词进行定义,极大地提高了中文语言解析的准确性,一级词性标注准确率接近99%,准确率高、速度快、可适应性强。
除了对多义词的高准确率区分,在对一些地点和机构名的识别问题上,即使这类词没有事先存入系统,CRF模型同样能够自动挖掘出这类词。条件随机场极大地提高了识别的准确率,能够满足多样场景需求。
文本关键字提取
提取文章关键词对于读取文章的意义在于,在掌握文章的主题思想的前提下,了解文章关键字能够达到精华阅读效果,完成文章的语义查询和快速匹配。采用基于语义分析的语言统计模型,文档使用的范围也更加广泛,对新词的识别率也很高。
关键词提取组件的主要特点包括:
1、速度快:实现对海量网络文本处理,实现每小时50篇文档的高效处理模式。
2、处理精准:Top N的结果反应了文章的主要枝干方向。
3、精准排序:根据影响权重进行排序,关键词可以输出权重值;
4、开放式接口:作为LJParser的一部分,文章关键词能够提取组件采用灵活的开发接口,能够方便地融入到用户的业务系统中,以及支持各种操作系统和调用语言。
自动文本摘要
对文章进行摘要提取能够使用户快速掌握文章内容,提供工作效率。
自动摘要的中间件能够处理的不只是单篇文章的摘要提取,还包括对同类型的文章进行处理,提取出一篇简明扼要的摘要。同时,用户可以自由设定摘要的长度、百分比等参数;处理速度达到每秒钟20篇。
灵玖软件专注于大数据语义智能分析,凭借其在自然语言处理、信息检索、信息过滤、知识图谱等方向的领先核心技术积累,形成了面向大型企业和政府军队的一系列语义智能化软件系统。

131449sa4367heaeahhya5.png
今天真的很开心
高级模式
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

发布主题
阅读排行 更多
广告位
!jz_fbzt! !jz_sgzt! !jz_xgzt! 快速回复 !jz_sctz! !jz_fhlb! 搜索

智能技术共享平台 - 未来论

关注服务号

进入小程序

全国服务中心:

运维中心:天津

未来之家:天津 青岛 济南 郑州 石家庄

                商务邮箱:xy@mywll.com

Copyright © 2012-2021 未来派 未来论 (津ICP备16000236号-5)