您好,欢迎进入皇冠游戏中心官网有限公司官网!

咨询热线:

400-888-8888

“法研杯”人工智能挑战赛拿下三大奖项,汉王科技在下一盘NLP的棋

发布时间:2024-11-11人气:
本文摘要:作为人工智能的众多关键,NLP(自然语言处置)技术于是以更加多转入实际应用于场景。特别是在在法律、金融、教育等文本密集的领域,利用NLP技术处置和挖出文本的市场需求更加显著。 今年5月,在最高人民法院信息中心的指导下,中国司法大数据研究院等联合举行了“中国法研杯”司法人工智能挑战赛。以刑事案件定罪量刑为背景,比赛设置了罪名预测、法律条款引荐、刑期预测三项任务,也步入了微软公司、阿里巴巴等在内的600余支队伍参赛。

皇冠游戏中心官网

作为人工智能的众多关键,NLP(自然语言处置)技术于是以更加多转入实际应用于场景。特别是在在法律、金融、教育等文本密集的领域,利用NLP技术处置和挖出文本的市场需求更加显著。

今年5月,在最高人民法院信息中心的指导下,中国司法大数据研究院等联合举行了“中国法研杯”司法人工智能挑战赛。以刑事案件定罪量刑为背景,比赛设置了罪名预测、法律条款引荐、刑期预测三项任务,也步入了微软公司、阿里巴巴等在内的600余支队伍参赛。其中,汉王科技也派遣了以旗下汉王数字首席数据科学家聂昱派的团队参赛,基于NLP和深度自学技术,汉王从国内外600余支队伍中脱颖而出,在罪名预测、法律条款引荐和总分项目中进帐三座奖杯。此次“法研杯”上的佳绩,也使得在NLP领域向来深藏不露的汉王科技,在司法应用于上闯进了主流视野,挤身国内领先行列。

始自OCR,了解NLP自然语言处置想起汉王科技,很多人的第一反应大约不会是OCR领域的大佬。自从80年代,一脉相承于中科院自动化所文字辨识实验室,汉王科技很早已开始展开脱机手写汉字识别系统的研究,并在1995年研发出有第一支电磁笔,1998年作为微软公司的中国技术供应商、向微软公司展开手写辨识技术的许可。

到2001年,汉王科技手写辨识技术已取得国家科技进步一等奖,2006年,OCR技术取得国家科技进步二等奖……作为业界最先致力于OCR辨识技术研发和应用于的公司之一,汉王科技其中一项最重要应用于就是文档电子化。2013年,汉王科技将文档电子化的触角伸延至图书馆、档案馆,银行、医院、法院等多个国家级项目。

在OCR技术领域,汉王科技仍然是积极探索的先行者。但在这些明确项目的实行中,汉王科技也开始渐渐意识到,文档电子化的“江山”虽已奠定,但这只是已完成了科学知识、信息应用于的一部分,构成的电子文本所谓结构化数据。也就是说,只有OCR是过于的。OCR技术是光学字符识别的简写,是通过扫瞄等光学输出方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化成为图像信息,再行利用文字辨识技术将图像信息转化成为可以用于的计算机输出技术。

但意味着将纸质文档变为数字化文本,这样的电子文档没对文本展开挖出、科学知识之间缺少关联,被电脑检索也只是对比完全相同字符收集信息。要将海量的电子文档智慧化,就必需将文字信息构成结构化数据,只有构成结构化数据,信息和科学知识之间构成关联,才能为大数据应用服务。作为汉王数字首席数据科学家,聂昱也指出,“静态的文字是没生命的”,扫瞄出来了,但无法解读其中的意思,依旧无法展开智慧简化的应用于。

而要将文档的非结构化数据展开结构化处置,转化成为技术术语,就要中用NLP自然语言处置技术,这也是未来计算机科学领域与人工智能领域中的一个最重要方向。跟上首班车,汉王科技先行布局NLP领域NLP研究人与计算机交互的语言问题。从语音辨识,到语义解读,从而确实做可以交互。

业界普遍认为,NLP是人工智能中最好的部分,也是要求AI否智能的关键因素。2015年,归功于深度自学算法的较慢进展,大规模社交文本数据以及语料数据的大大累积,NLP技术有了进步式的发展。

在这一年,各大厂商致力于解决问题语音辨识、语义解读、智能交互、搜寻优化等领域更加简单、艰难的问题,持续大大地对原先产品的算法、模型展开优化与革新。汉王科技也在2016年,顺势开始了自己在NLP技术方面的布局。2016年,汉王科技与武汉大学的自然语言处置团队牵头展开文档大数据化研发工作,力图突破NLP技术,创建起自己的文档大数据库体系,研发各种新的应用于,主攻还包括文本分类、聚类、结构化数据提取、科学知识提取、科学知识图谱、机器读者等在内的NLP技术。

(汉王科技的NLP技术累积)明确而言,文本分类,可以推断出等价的文本(句子、文档等)的标签,如按照“体育”、“音乐”等标签展开区分;文本聚类,是指自动找到一些相近的文章,并单体。聂昱讲解道,文本分类和聚类两项技术更为初级,目前早已很成熟期。结构化数据提取,则是指计算机自动解析文本,并辨识其中的关键要素。在金融、司法、教育等文本密集的行业,提取关键信息就很有适当。

如从上市公司的财报中,提取财务数据、股东更改情况等给股民或投资机构,以便其直观读者、分析等。科学知识图谱,就是指文字中提供科学知识,将其的组织成科学知识图谱。比较各种机器学习算法在预测强劲、叙述能力很弱的特点,科学知识图谱的叙述能力上占优,可用作精准查找、信息单体、分析推理小说。

机器读者,即教会机器学会读者解读文本数据。目前,汉王已将机器读者应用于到金融文本、档案、合约等方面,不仅可以已完成基于读者内容的解说,还可以把内容中的科学知识与信息做到萃取与提取,用作更进一步的分析和挖出。前进NLP行业应用于,汉王科技下了一盘人工智能大棋不仅有技术,汉王科技高级副总裁李志峰回应,汉王在大数据方向的NLP技术累积,还通过各个子公司,应用于到医疗、法院、银行及图书馆等领域。

2016年,汉王科技并购了在医疗和法院的文档信息化方面极具竞争力的影研科技,布局医疗和法院文档大数据市场。作为专门从事行业档案信息化与流程服务的公司,影研科技为司法、医疗、社保、不动产等领域内的千余家公司,获取了全业务链条的文档管理服务。

在对北京法院系统的服务上,影研科技使用基于模式识别和深度自学的OCR技术,对复印件、各种证照材料等简单版面内容展开低准确率辨识;依赖NLP技术,对卷宗内关键要素内容展开精准萃取;倚赖大数据技术,构建海量数据的高效检索。在OCR、NLP和大数据技术的基础上,影研科技构成了诉讼档案随案实时分解、诉讼档案智能光阴、集约文档、库房存储四大服务环节,构建了对北京三级法院的全覆盖面积。而在此前古籍、文献辨识的基础上,融合近年来在科学知识图谱方面了解扩展的技术优势,汉王也开始对文献资料展开智慧管理。

在对文史出版社丛书文献展开科学知识加工过程中,汉王通过从文献中碎片化提取、清除、归集、融合获得基础数据,深度加工挖出获得人物、地点、机构、事件类的科学知识条目,再行基于科学知识条目建构人物库、地点库、机构库、事件库等科学知识资源库,并通过关系定义构建横跨类别的科学知识关联,获取了打破图书内容信息的深度科学知识服务。(汉王科技科学知识图谱检索示例)从2016年开始NLP的技术累积,到各子公司的行业应用于,汉王科技在NLP领域,构成了从技术研发,到法院、医院、图书馆、档案馆、银行等多行业应用于的闭环,各子公司也在技术和场景应用于的协同中,构成了较好的同步效应。对于汉王科技在NLP上的布局,李志峰也回应,近几年来,汉王科技在NLP投放相当大,目前NLP方兴未艾,汉王科技的布局也是“小荷才露尖尖角”。

未来布局的优势,随着NLP技术和市场的关上,还不会大大显出。聂昱也指出,人工智能目前正处于从感官智能向理解智能过渡阶段。

现在NLP领域的技术难题依然很多,但对自然语言的深层次理解的执着或许不会鼓舞并引起算法技术的突破性变革。据2018全球人工智能技术成熟度Gartner曲线,NLP、深度自学、机器学习等目前正处于顶峰期,并预计在未来5-10年内之后维持热度。

“悲观地期望,未来NLP不会经常出现相当大的技术进展,甚至经常出现突破深度自学框架的进展。语言比图像更加简单,语言处置好了,人工智能时代有可能就知道来临了。”聂昱说。

可以想象,随着NLP的技术发展,及场景的不断深入,文本应用于上将产生新的变革:未来,法院法律文档大数据平台将可以为法律工作者获取海量的同类案例参照;而在文献资料上,可以通过科学知识图谱等获取打破档案内容信息的深度科学知识服务……在文档电子化上,汉王将率领人们先行触碰到人工智能的曙光。


本文关键词:“,法研杯,”,人工智能,挑战赛,拿下,三大,皇冠游戏中心官网

本文来源:皇冠游戏中心官网-www.sriingenieria.com


400-888-8888