亿迅科技之基于文本语言理解的语义智能分析平台，助力政务服务智慧化

2018年9月29日来源：广东亿迅科技有限公司

政务热线话务量每年上升，期间产生的数据量、信息量非常巨大，如何更好的利用这些数据，让政府更好的结合经济、社会发展的热点问题，有效推动市场发展、为政府决策提供有力支撑？这个问题值得认真琢磨。

以前政府处理这些数据需要耗费大量的人力、物力，花费大量时间去整理话务员记录的内容，需人工提取信息、分类整合；在监听工作方面，需要耗费大量的人力、时间去重新听取话务员录音，记录相关内容，评价话务员的工作态度等等。

亿迅科技之基于文本语言理解的语义智能分析平台（以下简称“语义智能分析平台”），基于主题模型，word2vec，textRank，CRF等主流语义分析算法，提供精准的文本分析服务。主要包括实体识别、情感分析、文本摘要、关键词提取、词义联想、主题聚类等功能。

一、实体识别

从文本中发现的有意义实体，如人名、地名、公司名、产品名、时间等。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。

二、情感分析

对文本中含有的情感信息进行分析，提取情感的正负面倾向性。平台采用基于情感词典和基于统计综合进行情感分析。针对短文本的情感分析比单纯利用其中一种方式效果更好。

三、文本摘要

抽取文本中已经存在的关键句子形成摘要。对文本进行分句处理后，分析每个句子的重要性，根据重要性进行排序。根据摘要的百分比系数，输出属于该系数排名内的句子作为摘要。

四、关键词提取

从文本中提取出代表性的关键词。平台综合考虑词语在文本中的频率，所属主题分类的背景关键词因素，提取能代表文本的词语。

五、词义联想

文本抽取的关键词作为输入，利用平台千万级的丰富语料数据模型找到相关联的关联词，并得到关联系数。关联系数越高，表示与关键词的关联程度越高。

六、主题聚类

把一组无主题的文档，根据内容的相似程度进行聚类，把语义相似的归为一类主题。平台利用隐含狄利克雷分布模型，经过优化的特征提取技术，使得聚类效果比传统的模型较好。

亿迅科技承建的广东省12345投诉举报数据分析研判平台，该平台对话务员记录的内容进行分析，通过提取关键词，对投诉主题进行智能分类；通过实体识别，对内容中出现的人名、地名、产品名等信息，整理出投诉的热点、热词；通过文中的情感信息进行分析，提取情感正负面倾向，基于情感词典与统计综合，分析投诉者的情感，以及对服务满意度表现。该平台结合语义智能分析平台的应用，节省大量的人力成本、时间，快速整合分析，及时了解投诉热点、热词，让政府快速决策，提升政府治理效率。政府通过对各地市12345话务、工单信息进行实时监测，便于从全省层面及时了解各地市情况及热点突发问题，实现市场监管热点难点分析、消费热点预警、消费趋势预测、效能监察问题等多项工作，为政府决策提供可靠依据，提高政府治理能力。

亿迅科技之基于文本语言理解的语义智能分析平台为文本处理提供基础的文本处理工具及分析和挖掘工具，快速结合客户的文本数据，实现快捷、高效精准的文本挖掘，帮助客户挖掘隐藏的业务价值。未来，亿迅科技也将努力成为中国电信IT智慧运营的建设者和传播者以及云改时代新兴业务增长极的主力军。