R语言与网络舆情处理
上QQ阅读APP看书,第一时间看更新

1.3 网络舆情分析技术

1.3.1 网络舆情分析的研究热点

对于网络舆情的特点,舆情工作者应当了然于心,并能对现实中出现的各种网络舆论做出及时反馈,防微杜渐,防患于未然。因此,必须利用现代信息技术对网络舆情予以分析,从而进行控制和引导。由于网上的信息量十分巨大,仅依靠人工的方法难以应对网上海量信息的收集和处理,需要加强相关信息技术的研究,形成一套自动化的网络舆情分析系统,及时应对网络舆情,由被动防堵,化为主动梳理、引导。

特别是在如今的大数据时代,网络舆情分析更要用数据说话,跟踪网络舆情的起源和演变,最终根据分析给出建议性结果,为政府、企业乃至个人应对舆情提供决策支持。网络舆情分析大致有两个工作重点,一是还原舆情发展过程,找到舆情产生的根源;二是预测,分析出网络舆情的未来走向,再根据预测结果提出应对方案。

在探讨网络舆情分析技术之前,我们先对舆情分析中几个常用的基础术语做一个统一的概念界定。

(1)舆情:通常是指较多群众关于现实社会及社会中各种现象、问题所表达的信念、态度、意见和情绪表现的总和;简而言之就是社会舆论和民情。一个严格定义是:舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的国家管理者产生和持有的社会态度。

(2)事件(Event):在特定时间、特定地点发生的事情。

(3)主题(Topic):也称为话题,指一个种子事件或活动以及与它直接相关的事件和活动。

(4)热点:也可称为热点主题。热点和主题的概念比较接近,但有所区别。其主要特点如下:热点通常是一个主题,包含种子事件及相关报道;热点和时间相关,通常指某段时间内的热点,例如当天热点、一周内热点;热点和主题某段时间内的文档数量相关。热点可以分为绝对热点和相对热点。其中,绝对热点为在某段时间内文档数量超过某个固定阈值的主题;相对热点为按照某种排序方式排名靠前的若干个主题。

目前,网络舆情分析的研究热点主要包括如下几方面。

1.主题检测与跟踪

在目前信息爆炸的情况下,信息的来源已不再是问题,而如何快捷准确地获取感兴趣的信息才是人们关注的主要问题。目前的各种信息检索、过滤、提取技术都是围绕这个目的展开的。由于网络信息数量太大,与一个话题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间,仅通过这些孤立的信息,人们对某些事件难以做到全面的把握。一般的检索工具都是基于关键词的,返回的信息冗余度过高,很多不相关的信息仅仅是因为含有指定的关键词就被作为结果返回了,因此人们迫切地希望拥有一种工具,能够自动把相关话题的信息汇总供人查阅。主题检测与跟踪(Topic Detection and Tracking, TDT)技术就是在这种情况下应运而生的。通过主题发现与跟踪,人们可以将这些分散的信息有效地汇集并组织起来,从而帮助用户发现事件的各种因素之间的相互关系,从整体上了解一个事件的全部细节以及该事件与其他事件之间的关系。简言之,主题检测与跟踪任务的主要工作是准确地检测话题并跟踪话题的动态演化过程。

与一般的信息检索或者信息过滤不同,TDT所关心的话题不是一个大的领域(如美国的对华政策)或者某一类事件(如恐怖活动),而是一个很具体的“事件(Event)”,如美国“9•11事件”、习近平主席访美等。与早期面向事件的检测与跟踪(Event Detection and Tracking, EDT)也不同,TDT检测与跟踪的对象从特定时间和地点发生的事件扩展为具备更多相关性外延的话题,相应的理论与应用研究也同时从传统对于事件的识别跨越到包含突发事件及其后续相关报道的话题检测与跟踪。

美国国家标准技术研究院为TDT研究设立了5项基础性的研究任务,包括面向新闻广播类报道的切分任务;面向已知话题的跟踪任务;面向未知话题的检测任务;对未知话题首次相关报道的检测任务和报道间相关性的检测任务。

1)报道切分任务

报道切分(Story Segmentation Task, SST)的主要任务是将原始数据流切分成具有完整结构和统一主题的报道。比如,一段新闻广播包括对股市行情、体育赛事和人物明星的分类报道,SST要求系统能够模拟人对新闻报道的识别,将这段新闻广播切分成不同话题的报道。SST面向的数据流主要是新闻广播,因此切分的方式可以分为两类:一类是直接针对音频信号进行切分;另一类则将音频信号翻录为文本形式的信息流进行切分。

2)话题跟踪任务

话题跟踪(Topic Tracking Task, TTT)的主要任务是跟踪已知话题的后续报道。其中,已知话题没有明确的描述,而是通过若干篇先验的相关报道隐含地给定。通常话题跟踪开始之前,为每一个待测话题提供1~4篇相关报道对其进行描述。同时还为话题提供了相应的训练语料,从而辅助跟踪系统训练和更新话题模型。在此基础上,TTT逐一判断后续数据流中每一篇报道与话题的相关性并收集相关报道,从而实现跟踪功能。

3)话题检测任务

话题检测(Topic Detection Task, TD)的主要任务是检测和组织系统预先未知的话题,TD的特点在于系统欠缺话题的先验知识。因此,TD系统必须在对所有话题毫不了解的情况下构造话题的检测模型,并且该模型不能独立于某一个话题特例。换言之,TD系统必须预先设计一个善于检测和识别所有话题的检测模型,并根据这一模型检测陆续到达的报道流,从中鉴别最新的话题;同时还需要根据已经识别到的话题,收集后续与其相关的报道。

4)首次报道检测任务

在话题检测任务中,最新话题的识别都要从检测出该话题的第一篇报道开始,首次报道检测任务(First-Story Detection Task, FSD)就是面向这种应用产生的。FSD的主要任务是从具有时间顺序的报道流中自动锁定未知话题出现的第一篇相关报道。大体上,FSD与TD面向的问题基本类似,但是FSD输出的是一篇报道,而TD输出的是一类相关于某一话题的报道集合,此外,FSD与早期TDT Pilot中的在线检测任务(Online Detection)也具备同样的共性。

5)关联检测任务

关联检测任务(Link Detection Task, LDT)的主要任务是裁决两篇报道是否论述同一个话题。与TD类似,对于每一篇报道,不具备事先经过验证的话题作为参照,每对参加关联检测的报道都没有先验知识辅助系统进行评判。因此,LDT系统必须预先设计不独立于特定报道对的检测模型,在没有明确话题作为参照的情况下,自主地分析报道论述的话题,并通过对比报道对的话题模型裁决其相关性。LDT研究可以广泛地作为TDT中其他各项任务的辅助研究,比如TD与TT等。

2.舆情热点研究

热点自动发现任务也可叫作热点检测,就是如何从不断涌现的网上舆情中及时发现新发生的热点信息,并对其进行持续追踪。热点检测任务可以在主题检测任务的基础之上,加入时间和数量两个因素的分析来解决热点发现的问题。

热点分析任务在热点自动发现任务的基础上,对自动发现的热点进行深入分析,从多方面、多角度综合分析和展现当前的舆情热点。研究内容包括舆情热点的关键词和摘要提取、情感分析、传播分析、趋势分析和关联分析等任务。

3.情感倾向性分析

指通过计算机技术自动分析文本信息所包含的情感因素,例如喜欢或讨厌、正面或负面、快乐或悲伤、愤怒和恐惧等。在不同的文献中,情感分析也被称作情感分类、褒贬分类、观点提取、观点摘要、情绪分析、情感识别、情感计算等。同时,情感是一个很广泛的词汇,在不同场合研究者往往采用不同的词汇来表达,比如观点(Opinion)、情感(Sentiment)、情绪(Emotion/Affect)等。

对舆情文本进行倾向性分析,实际上就是试图用计算机实现根据文本的内容提炼出网络传播者所蕴含的感情、态度、观点、立场、意图等主观反映。

目前,情感倾向分析的方法主要分为两类:一种是基于情感词典的方法;一种是基于机器学习的方法,如基于大规模语料库的机器学习。前者需要用到标注好的情感词典,英文的词典有很多,中文主要有知网整理的情感词典HowNet和台湾大学整理发布的NTUSD两个情感词典,还有哈工大信息检索研究室开源的《同义词词林》可以用于情感词典的扩充。基于机器学习的方法则需要大量的人工标注的语料作为训练集,通过提取文本特征,构建分类器来实现情感的分类。

4.舆情趋势预测

舆情同其他事物一样,是一种客观存在,有其产生、发展、变化的规律。只要对其予以客观、全面、科学的考察,细致、认真、仔细的分析,就能大致预测它的发展方向。特别是当前我们已处于大数据时代,大数据使网络舆情预测成为现实。对已经出现的网络舆情予以监测,这是网络舆情引导的传统做法,也是以往网络舆情管理的起始。但是利用大数据技术,可以对网络舆情中具有关联的数据进行挖掘并加以分析,使敏感信息在网络上传播的初始阶段就被监测到。在此基础上通过模型对网络舆情变化趋势进行仿真,使网络舆情预测成为现实。实现网络舆情预测,至关重要的是对数据的相关性进行全面分析。而在传统的网络舆情引导中,由于数据库的缺乏和计算分析能力有限,往往难以全面分析网络舆情,得出的结论也有失偏颇。大数据环境下,对网络舆情的分析由静态化向动态化转变,由片面化向立体化转变,由单一化向全局化转变。利用大数据技术解构海量信息,并对这些信息加以重构,对网络数据的相关性进行深度挖掘,可以全面科学地分析并预测网络舆情的发展趋势。此外,大数据使网络舆情实现量化管理。使网络舆情得以量化,是利用大数据对网络舆情进行科学预测的前提。网络舆情信息量巨大,而被挖掘出来的网络舆情信息需要进行量化,在此基础上再建立数学模型对信息数据进行计算和分析。数据的量化指的是数据是可计算的,一是在密切关注网民态度与情绪变化的同时对其采用量化指标加以标识,二是对网络言论所持某一观点的人群数量进行统计,三是透过网络信息文字内容来对网民互动的社会关系网络数量进行统计。另一方面,大数据使网络舆情相互关联。网络信息是网络背后的网民所传达出来的信息的集合,因而对网络数据进行研究,实质上是对由人所组成的社会网络进行研究。要实现网络舆情预测,离不开对网络舆情之间的关系进行关联这一尤为重要的大数据技术。在大数据时代,每个网络数据都被看作是一个节点,能够在舆情链上与其他关联数据不受限制地产生乘法效应,这种关联如同数据裂变,会扩大至全体网络数据,使舆情分析更为准确。

5.舆情信息可视化

可视化是一个可以处理海量数据的可行工具之一,它能使科研人员发现数据内部隐藏的信息,从而进一步找出信息所反映的规律,提高对海量数据的认识。在网络舆情研究过程中,使用可视化分析技术能够克服传统数据收集、分析与呈现方法上存在的效率低下以及难以发现其中的关键信息与潜在特征的不足,通过化繁为简、化抽象为具象,能够使用易于理解的图形图像揭示网络舆情的分布、发展和演化规律,因而在网络舆情研究中具有非常显著的应用价值。

在具体的研究过程中,可视化从严格意义上来说是一种信息分析框架,原始信息、数据表格、可视化结构和最终呈现在用户面前的视图被这一框架有机地链接在一起。针对不同类型的舆情信息又有不同的研究方向,比如,对于文本信息,比较常用的可视化分析主要有基于关键词的网络舆情文本内容的可视化、时序性网络舆情文本信息的可视化等。对于具有层次结构的舆情信息,研究者们通常根据自己的关注点选择合适的层次信息可视化技术来呈现信息项之间错综复杂的层次关系,常用的可视化技术包括节点链接树、双曲树、径向树等,比如想要探究网络舆情信息扩散的路径就可以使用节点链接树的方法来发掘其中的关键节点。网状结构的舆情信息也是当前研究的热点,对于舆情的社会网络分析,研究者们提出了一些网络节点布局方法,如:按照力导向布局、地图布局、环状布局等。除此之外,一些常见的统计的图形,如饼图、折线图、直方图、总量图、趋势图等也常用于展现网络舆情信息的时间趋势、情感倾向、区域分布等特征以及舆情统计报表、报告的呈现。

1.3.2 网络舆情分析的步骤

舆情分析从数据采集到最终的分析报告发布主要包括4个步骤:舆情数据采集、数据预处理、舆情分析和舆情报告发布,如图1-1所示。

图1-1 舆情分析的步骤

1.舆情数据采集

互联网时代,要想达到舆情信息的快速准确采集,需要充分做到网上舆情采集和网下舆情收集的互补,利用自动化的舆情监测工具,以网上舆情信息采集为主,保证舆情信息采集速度和数量。目前,国内许多软件公司开发出了多种网络舆情监测、采集、分析软件,这些系统利用爬虫技术,根据设定的监控关键词抓取重点媒体、论坛、博客、微博等网站里的舆情信息。其中,比较具有影响力的系统包括:乐思网络舆情监测系统、军犬网络舆情监控系统、Rank舆情监测系统、谷尼舆情监测系统、红麦舆情监测系统等。一些免费甚至是开源的爬虫软件也可以用于舆情数据采集,这些软件主要包括集搜客网页抓取软件、八爪鱼爬虫、LoalaSam网络爬虫等。研究者也可以根据实际情况使用Java、Python、R等语言有针对地开发满足研究需要的爬虫工具。

2.数据预处理

信息预处理是对采集到的舆情进行初步的加工和处理,为后继舆情关键信息抽取和舆情内容分析奠定基础。

网络舆情数据大都是非结构化的文本数据,文本数据的预处理主要包括文本分词、去停用词(包括标点、数字、单字和其他一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。

3.舆情分析

舆情分析就是根据特定问题的需要,对针对这个问题的舆情进行深层次的思维加工和分析研究,得到相关结论的过程,可分为内容分析和实证分析。内容分析法是一种对信息内容做客观系统的定量分析的专门方法,其目的是弄清或测验信息中本质性的事实和趋势。提示信息所含有的隐性情报内容,对事物发展做情报预测。实证分析法是通过分析大量案例和相关数据后试图得出某些结论的一种常见研究方法。对舆情的分析要明确事件或话题本身所处的阶段,一般分为引发期、酝酿期、发生期、发展期、高潮期、处理期、平息期和反馈期等不同阶段。其次,应该在分析某一舆情热点之前对其进行科学的类型界定。热点事件一般主要分为突发自然灾害事件、生产安全事故、群体性事件、公共卫生事件、公权力形象、司法事件、经济民生事件、社会思潮、境外涉华突发事件等。

4.舆情报告

根据舆情分析结果生成舆情分析报告。舆情报告是针对某个主题或者事件的舆论信息,以报告的形式展示主题情况,客观真实地展现某主题或事件在大众社会的看法和态度反馈,是调查报告的一种。一般舆情报告分为三个部分。第一部分对事件或主题进行概括式描述和简要介绍,交代事件的来龙去脉。第二部分是基于查找到的与主题有关的信息,以列表、绘图等方式来展现舆情发展。第三部分是对舆情分析的总结和对事件的客观评论,为领导决策做参考。

舆情报告不比新闻稿,它的时效性并不是十分快速,可能当报告出来时,事件早已平息,不再热门。这就是舆情报告的独特之处,它不在热门的时候画蛇添足,而是等人们的热情退去,给人们带来更深层次的理性的思考。

1.3.3 网络舆情分析的常用技术

针对前文所述的舆情研究热点问题,常用的分析技术包括如下几种。

1.网络爬虫

网络爬虫又被称为网络蜘蛛、网络机器人,主要用于网络资源的收集工作。在进行网络舆情分析时,首先需要获取舆情信息内容,这就要用到网络爬虫这个工具,它是一个能自动提取网页内容的程序,通过搜索引擎从互联网上爬取网页地址并抓取相应的网页内容,是搜索引擎的重要组成部分。

网络爬虫是舆情分析工作必备的武器,舆情爬虫与其他的爬虫采集在范围上有点儿差异,舆情采集只关心媒体数据,这算是网络爬虫的一个垂直领域,媒体数据包括新闻、论坛、博客、微博、微信、贴吧、天涯等。除了范围不同,舆情网络爬虫另一个特点是需要更新及时,就是爬虫的周期要小,否则结果就没有意义了。

2.中文分词

分词是信息预处理时用到的技术。中文分词,顾名思义,就是借助计算机自动给中文断句,使其能够正确表达所要表达的意思。中文不同于西文,没有空格这个分隔符,同时在中文中充满了大量的同义词、相近词,如何给中文断句是个非常复杂的问题,即使是手工操作也会出现问题。中文分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、自然语言理解等中文信息处理领域的基础研究课题。对于中文分词技术的研究,对于我国计算机的发展有着至关重要的作用。

最早的中文分词方法是北京航空航天大学的梁南元教授提出的一种基于“查字典”的分词方法。该方法的思想是把整个中文句子读一遍,然后把字典里有的词都单独标示出来,当遇到复合词时,就找到最长的词匹配,遇到不认识的字符串就分割成单个文字。这种分词方法效率并不高,但它的提出为中文分词技术奠定了基础。在后续的近三十年研究中,许多研究者实现了中文分词基于词典和基于概率统计的很多算法。现在中文分词的算法主要包括基于统计的分词方法、基于理解的分词方法等。其中,基于词典的分词方法是当今的主流,可以说现在出现的分词系统,很多都是在基于词典的基础上再结合另外的一种或两种方法而成的。基于词典的分词方法又称机械分词方法,主要包括最大正向匹配、最大逆向匹配、最少切分法等。

中文分词有两大基本问题,也是中文分词的难点,一是歧义识别问题,二是未登录词问题。首先了解一下歧义识别问题,由于中文自身的特点,对于中文中的一句话不同的划分可能有不同的意思。例如,“乒乓球拍卖完了”,这句话可以划分成“乒乓球/拍卖完了”,也可以划分成“乒乓球拍/卖完了”。目前,尚未出现一个百分百的消除歧义的算法,但是已经出现了许多比较好的,且具有一定实际应用价值的算法,如:简单最大匹配算法、复杂最大匹配算法、神经网络算法等。未登录词也是分词的难点,未登录词又称为新词,语言的不断的发展和变化导致新词不断出现,同时词的衍生现象非常普遍,所以词表中不能囊括所有的词。最典型的是人名,例如在句子“李军虎去上海”中,我们可以很容易理解“李军虎”作为一个人名是个词,但计算机识别就困难了。如果把“李军虎”作为一个词收录到字典中去,全世界有那么多名字,而且时时都有新增的人名,如此一项巨大的工程即使可以完成,问题仍旧存在。例如,在句子“李军虎背熊腰的”中,“李军虎”又算词吗?新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等这些人们经常使用的词都是很难处理的问题,因此在信息搜索中,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

3.文本表示

要使得计算机能高效地处理真实文本,就必须找到一种理想的形式化表示方法,这种表示一方面能真实地反映文档内容(主题、领域或结构等),另一方面也要有对不同文档的区分能力。目前文本表示通常采用向量空间模型(Vector Space Model, VSM)。VSM是20世纪60年代末期由G. Salton等人提出的,是当前自然语言处理中常用的主流模型。

文本空间向量模型的主要思想是:将每一个文本表示为向量空间的一个向量,并以每一个不同的特征项(词条)对应为向量空间中的一个维度,而每一个维的值就是对应的特征项在文本中的权重。这其中涉及如下几个概念。

(1)文档(Document):通常是文章中具有一定规模的字符串。文档通常也叫文本。

(2)特征项(Feature Term):是VSM中最小的不可分的语言单元,可以是字、词、词组、短语等。一个文档内容可以被看成是它含有的特征项的集合。表示为一个向量:Dt1,t2,…,tn),其中,tk是特征项。

(3)特征项权重(Term Weight):对于含有n个特征项的文档Dt1,t2,…,tn),每一个特征项tk都依据一定的原则被赋予了一个权重wk,表示该特征项在文档中的重要程度。这样一个文档D可用它含有的特征项及其特征项所对应的权重所表示:Dt1=w1,t2=w2,…,tn=wn),简记为Dw1,w2,…,wn),其中,wk就是特征项tk的权重。

一个文档在上述约定下可以看成是n维空间中的一个向量,这就是VSM的由来,下面给出其定义。

给定一个文档Dt1,w1;t2,w2;…;tn,wn),D符合以下两条约定。

(1)各个特征项tk互异(即没有重复);

(2)各个特征项tk无先后顺序关系(即不考虑文档的内部结构)。

在以上两个约定下,可以把特征项t1,t2,…,tn看成一个n维坐标系,而权重w1,w2,…,wn为相应的坐标值,因此,一个文本就表示为N维空间中的一个向量。我们称D=Dw1,w2,…,wn)为文本D的向量表示或向量空间模型。

文本向量空间模型的构建通常遵循如下几个步骤。

(1)将文本的基本语言单位(字、词、词组、短语)抽取,组成特征项,用tk表示;

(2)将tk按在文本中的重要性给出权重wn

(3)将文本抽象为(t1,w1,t2,w2,…,tn,wn),简化为(w1,w2,…,wn)即为文本的向量空间模型。

特征项的权值wn的计算通常有如下几种方法。

(1)布尔权值:wn可取值1/0表示该特征是否在文本中出现。

(2)词频权值:wn用特征在文档中出现的频数表示。

(3)TF/IDF权值:TF(Term Frequency)指的是词频,即一个词语出现的次数除以该文件的总词语数。IDF(Inverse Document Frequency)指的是逆向文件频率,是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。例如,一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率IDF的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1000份文件中出现过,而文件总数是10 000 000份,其逆向文件频率就是log(10 000 000/1000)=4。最后的TF-IDF的分数为0.03×4=0.12。

除了VSM方法之外,还有一些其他的文本表示方法,例如,词组表示法、概念表示法等。词组表示法对文本分类效果的提高并不十分明显。概念表示法需要额外的语言资源,主要是一些语义词典,例如英文的Wordnet,中文的HowNet(即,知网中文词库)。一些研究认为,用概念代替单个词可以在一定程度上解决自然语言的歧义性和多样性给特征向量带来的噪声问题,有利于提高文本分类效果。

4.文本特征降维

如何有效地降低维数并尽可能地减少噪声数据对分类效果的影响是文本特征提取的关键问题。大量的文本在分词后的词汇量是数以万计或者更高的,在文本分析中就表现为数以万计的维数。要处理这么多的数据,需要大量的时间,在对时间复杂度要求较高的系统(比如:在线服务的系统)中这是无法忍受的。这就要求所选用的文本分析工具时间复杂度要低,尽可能地做到线性,但这是不现实的。因为现有的机器学习算法很少有随着数据维数的增长时间线性增长的,这种非线性增长对海量数据就造成了所谓的“维数灾难”。所以有效地降低数据维数,去除噪声数据是数据降维的主要目的。在文本分类中常用特征选择来进行降维,选取那些对分类贡献高的词作为特征,丢掉噪声和对分类贡献低的词。

5.文本分类

自动文本分类(Automatic Text Categorization)或者简称为文本分类,是指计算机将一篇文章归于预先给定的某一类或某几类的过程。相关的定义还有:

(1)文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。文本分类是文本挖掘的一个重要内容。

(2)所谓文本分类,是指对所给出的文本给出预定义的一个或多个类别标号,对文本进行准确、高效的分类。它是许多数据管理任务的重要组成部分。

(3)文本分类是指按预先指定的标准对文档进行归类,这样用户不仅可以方便地浏览文档而且可以通过类别来查询所需的文档。

(4)文本分类是指在给定的分类体系下,根据文本内容自动确定文本类别的过程。

20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。人工分类非常费时,效率非常低。20世纪90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣。目前,文本分类大致使用两种方法:一种是基于训练集的文本分类方法;另一种是基于分类词表的文本分类方法。基于训练集的文本分类方法使用较普遍,是一种典型的有监督的机器学习问题,一般分为训练和分类两个阶段,具体过程如下。

1)训练阶段

(1)定义类别集合C={c1,c2,…,ci,…,cm};

(2)给出训练文档集合S={s1,s2,…,sj,…,sn},每个训练文档sj被标上所属的类别标识ci

(3)统计S中所有文档的特征矢量Vsj),确定代表C中每个类别的特征矢量Vci)。

2)分类阶段

(1)对于测试文档集合T={d1,…,dr}中的每个待分类文档,计算其特征矢量与每个类别Vci)之间的相似度sim(dk,ci);

(2)选取相似度最大的一个类别作为dk的类别。

6.文本聚类

文本聚类(Text Clustering)是在没有学习条件下对文本集合进行组织或划分的过程,主要依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效的组织、摘要和导航的重要手段,为越来越多的研究人员所关注。

文本聚类方法通常先利用向量空间模型把文档转换成高维空间中的向量,然后对这些向量进行聚类。由于中文文档没有词的边界,所以一般先由分词软件对中文文档进行分词,然后再把文档转换成向量,通过特征抽取后形成样本矩阵,最后再进行聚类,文本聚类的输出一般为文档集合的一个划分。其文本聚类的过程如图1-2所示。

图1-2 文本聚类的过程

文本聚类大致可以分为基于划分的方法和基于层次的方法。K-Means(K-均值)是一种典型的基于划分的方法,是一种基于质心的聚类技术,其基本原理是首先选择k个文档作为初始的聚类点,然后根据簇中对象的平均值,将每个文档重新赋给最类似的簇,并更新簇的平均值,然后重复这一过程,直到簇的划分不再发生变化。基于层次的聚类算法将数据对象组织成一棵聚类的树。根据层次分解是自底向上还是自顶向下形成,层次聚类算法可以进一步分为凝聚的和分裂的层次聚类。凝聚的层次聚类,首先将每个文本对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有对象都在一个簇中,或者终止条件满足。分裂的层次聚类与凝聚的层次聚类相反,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者终止条件满足。

7.舆情情感分析

情感分析(Sentiment Analysis, SA)又称倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,如从大量网页文本中分析用户对“数码相机”的“变焦、价格、大小、重量、闪光、易用性”等属性的情感倾向;在网络舆情分析领域,可以利用文本情感计算技术深入分析人们对社会现实和现象的群体性情绪、观点、思想、心理、意志和要求。

目前多数情感分析主要集中在文章的正负面,较常用的技术是根据词性的正负性来判断文章的正负性,比如在一篇文章中出现的正向性词的权重大于负向性词的权重,则文章判断为正向性。关于词的正负性,则可以根据种子词来进行判断,通用的方法是根据要判断的词与种子词在语料库中的共现频率来进行判断,比如:“雷锋光荣”,如果种子词为光荣,则雷锋的词性为正向性。另一种方法是使用分类技术对文章的正负向性进行判断,常用的分类技术有SVM等。需要提到的是在上述方案中,是对一篇文章进行正负向性分析,而实际的文章中,可能会有多个片段,不同的片段可能具有不同的情感倾向,诸如一篇文章上半部分讲一款笔记本不错,下半部分说的是笔记本的缺点等,这篇文章就应该分成两个不同的情感或观点。

情感分析目前主要是基于词的正负向性来判断,缺少了语法、语义和语篇上的情感倾向性分析,这也是目前舆情分析中的不足。在自然语言处理领域,较于中文分词技术日渐成熟之外,针对语法、语义、语篇上的分析目前还不够成熟。