半岛官方体育汇集热门事变跟踪身手探索
半岛官方体育半岛官方体育半岛官方体育进行事件跟踪的主要目标是日益变化的信息流,对一个既定的主题事件进行追踪,从而发现与该主题时间相关的全部信息。从定义上描述,时间跟踪便是在依托于既定的追踪体系,从文本内容出发,将与其相关的所有内容全部自动确定下来。从数学层面上看,事件追踪实际上是一个映射过程,时间追踪以既定主题为标准,将未注明主题的文档对既定主题进行映射,这种映射过程可以是一对一的,也可以是一对多的,其原因在于一个未标明主题的文档可以同时关联多个主题。用数学公式进行表示为:f:A→B,该式中,A所表示的是将要对其进行追踪的文本;B所表示的是追踪体系中既定的主题。
本文主要对热点发现技术、事件跟踪技术以及舆情态势与预警技术进行了分析。在热点发现技术中运用了增量聚类算法,提升了聚类结果的准确率;事件法跟踪技术中运用可1-NN增量分类算法,解决了主题转移问题;预警技术中运用了 ARMA为基础的单因素预测与多元线性回归相结合的预警模型,提升了预警效果。
[1]余品锐,刘天桢.基于GARCH模型的网络新闻与舆情的波动性分析[J].计算机与现代化.2010.06(11):176-178.
现阶段,分析舆情态势的主要技术都是通过对话题热度的简单统计,再运用概率理论进行复杂性分析,这种方法没有针对舆情本身进行深入研究。主题检测与跟踪技术虽然可以通过自动聚类对社会热点与焦点内容进行追踪,但分析模式还只局限于热点与焦点,很难进行深化。
大体上看,可以从微观角度与宏观角度对舆情态势进行分析。从微观角度看,对舆情态势造成影响的主要因数有:文章数量、参与人数、发言频次、点击率、回帖率、时间因子、话题内聚度等;从宏观角度看,舆情重要程度主要运用热点与焦点进行判断,从深度分析的层面上看,影响舆情的主要因素还包括敏点、疑点、重点、难点、拐点等。根本上讲,舆情态势的宏观方面是以若干个微观方面为基础产生的。因此,在舆情态势的未来研究方向中,将会与多点关联分析技术为主。
一般而言,舆情分析系统获取信息的方式通常是定期更新,在数据更新完成以后,以原情况为基础的相关状态也需要进行更新。普遍运用以下两种方法来解决:其一,在更新以后的数据集上再次运用聚类算法;其二,针对更新完成以后的新增数据,可以运用增量式算法进行挖掘与更新[2]。在话题检测与跟踪测评过程中,一般运用Single-pass增量聚类法来实现检测功能。
热点事件的发现实际上就是将舆情事件放入到网络中,通过对网站内信息进行主题检测而完成自动抓取[1]。通常情况下,用于事件检测的网站主要有以下三种:其一,以人民网为代表的主流新闻网站;其二,以新浪网为代表的大型商业网站;其三,以BBS为代表的网络社区。
舆情事件可以大致分为以下四种类型:第一,新事件;第二,突发事件;第三和第四分别为热点事件与焦点事件,两者之间有一定的共同之处,因此放在一起论述。
进行主题追踪需要遵循一定的映射规则,系统以主题所提供的典型样本为追踪信息,对追踪的规律性进行总结,从而构建起与之相对应的判别规则以及公式,当遇到一个为表明主题的文本时,就可以依照已经构建起来的判别规则,对文本进行相关主题的确定。
与传统分类算法相比,事件跟踪技术的分类算法更有优势,可以将其看成是一种文本分类技术,需要遵循以下三方面约束条件:第一,进行训练的样本必须是与既定主题有联系的报道;第二,针对既定主题,如果产生了新的新闻文本,跟踪系统会针对这一文本给出一个肯定/否定的追踪判定;第三,在训练一个既定主题学习的过程中,系统会对其他无关的事件主题默认未知。
“热点发现”主要针对的是以前未知的热点,实际上,热点发现的过程是聚类过程,而聚类的过程与方法是多种多样的。“话题追踪”主要针对的是已知话题,对与其相关的事件进行全面追踪,而这一过程实际上是分类过程。在网络舆情分析中,热点发现与事件跟踪是最核心的两个功能,因此,本文对其进行重点研究。
事件跟踪的核心理念是:由人工选取一些报道当做训练样本,运用既定的公式进行主题追踪,以此来进行文本的计算与学习。如果出现新的数据,需要以计算公式为基础对新数据的分数进行计算,以事先设定好的阈值为依托,如果计算出来的分数比阈值大,便可以将该报道判定为与主题相关,也就是肯定判定;如果计算出来的分数比阈值小,便可以将该报道判定为与主题不相关,也就是否定判定。
1-NN增量分类算法是一种比较常用的时间跟踪算法,具体的思想有以下四个方面:
第一,选择初始样本。当前的主题追踪系统在训练样本方面普遍是由用户提供的,一般一到四篇不等,因为存在人为干预,样本也会出现质量的不同,这会对跟踪效果产生很大影响。如果系统中存在事件发现这一功能,无论既定主题还是训练样本便可以通过系统直接给出,但这样一来样本中的主题就有可能会转移,出现多个跟踪中心。
第二,初次训练。传统的计算方法一般运用的是余弦相似度方法,对任意一对样本进行相似度计算,通过计算所有样本的相似度平均值而获取该样本的分数。因为随机样本具有很大的不确定性半岛官方体育,有可能会出现一些样本之间相似度较高的情况,因此需要将一些重复样本淘汰,保留与主题核心内容相关的样本,这样可以在提升样本质量的基础上,使分类准确率得到一定程度的提升,还减少了相似度比对的次数。
【摘 要】对于网络上发生的事件,我们可以选取一些样本,既定的公式进行主题追踪,以此来进行文本的计算与学习,利用增量聚类算法,从而发现并确定网络热点问题,并对其进行跟踪与处理.
[2]邱立坤,龙志祎,程葳等.层次化话题发现与跟踪方法及系统实现[J].广西师范大学学报(自然科学版).2014.14(07):125-126.
突发事件最受重视的时期便是出现初期,这一时期对事件的关注人数与参与人数都会呈几何方式倍增,网民的意见也最为活跃,但与此同时,这一时期也是网民情绪变化与积累比较频繁的时期,需要特别关注与引导。所以,调查热点信息讨论时间是非常有必要的,对主要的活跃事件进行实时的趋势分析,还需要制定出有针对性的预警机制。
作者:小编