北京基础软件服务，应用软件服务，计算机系统服务

NLPIR：中文分词是大数据挖掘的基础新途径

刘林 2019-04-12 11:01:09 3508次浏览

伴随着计算机的日益普及，互联网的迅猛发展，文本的数量(电子邮件、新闻、网页、科技论文等)在不停的增长，因而对文本作智能化处理以获取所需信息的需求日益迫切。在这样的社会需求下，自然语言处理技术的地位和作用日益重要。经过几十年的研究，计算机处理自然语言的理论基础日趋成熟，应用范围也越来越广，初步形成了面向各种不同应用和研究的技术体系。分词作为自然语言处理的第一个步骤，是其他高层应用的基础，起着极其重要的作用。

中文分词不仅是各种中文信息处理技术中使用最广泛的手段,也是信息检索和搜索引擎必不可少的基础性工作。现有的中文分词方法有很多,它们以字符串匹配、统计模型、理解、路径以及语义等为基础,并辅以分词词典和规则库,能够在一定程度上对中文信息进行切分。但由于汉语本身的特殊性和复杂性,目前的中文分词技术普遍存在歧义词处理和未登录词(新词)识别两个难点。因此,一个好的中文分词方法不仅需要具备高效的分词算法和词典机制,而且要准确识别歧义词和未登录词。

北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。

NLPIR大数据语义智能分析平台十三大功能：

精准采集：对境内外互联网海量信息实时精准采集，有主题采集(按照信息需求的主题采集)与站点采集两种模式(给定网址列表的站内定点采集功能)。

文档转化：对doc、excel、pdf与ppt等多种主流文档格式，进行文本信息转化，效率达到大数据处理的要求。

新词发现：从文本中挖掘出新词、新概念，用户可以用于专业词典的编撰，还可以进一步编辑标注，导入分词词典中，提高分词系统的准确度，并适应新的语言变化。

批量分词：对原始语料进行分词，自动识别人名地名机构名等未登录词，新词标注以及词性标注。并可在分析过程中，导入用户定义的词典。

语言统计：针对切分标注结果，系统可以自动地进行一元词频统计、二元词语转移概率统计。针对常用的术语，会自动给出相应的英文解释。

文本聚类：能够从大规模数据中自动分析出热点事件，并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。

文本分类：根据规则或训练的方法对大量文本进行分类，可用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。

摘要实体：对单篇或多篇文章，自动提炼出内容摘要，抽取人名、地名、机构名、时间及主题关键词;方便用户快速浏览文本内容。

智能过滤：对文本内容的语义智能过滤审查，内置国内最全词库，智能识别多种变种：形变、音变、繁简等多种变形，语义精准排歧。

情感分析：针对事先指定的分析对象，系统自动分析海量文档的情感倾向：情感极性及情感值测量，并在原文中给出正负面的得分和句子样例。

文档去重：快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录，同时找出所有的重复记录。

全文检索：支持文本、数字、日期、字符串等各种数据类型，多字段的高效搜索，支持AND/OR/NOT以及NEAR邻近等查询语法，支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。

编码转换：自动识别内容的编码，并把编码统一转换为其他编码。

大数据挖掘已成为大数据技术最重要的应用，它从大数据中提取、挖掘对业务发展有价值的、潜在的知识，找出趋势，为决策层提供有力依据，对产品或服务发展方向起到积极作用，将有力推动企业内部的科学化、信息化管理。在信息管理领域，综合应用数据分析技术和人工智能技术，获取用户知识、文献知识等各类知识，将是实现知识检索和知识管理发展的必经之路。

大象金服北京科技有限公司

NLPIR：中文分词是大数据挖掘的基础新途径