前言:我们精心挑选了数篇优质网络安全舆情分析文章,供您阅读参考。期待这些文章能为您带来启发,助您在写作的道路上更上一层楼。

关键词:大数据 网络舆情 数据抓取 数据存储 舆情分析
中图分类号:G206 文献标识码:A 文章编号:1674-098X(2017)01(c)-0108-02
S着新兴媒体的发展,互联网舆情已经在社会发展中扮演着重要的角色,它已不仅仅局限于个别范围的使用和拓展,而是演变为全民互动型的参与和讨论,所以如何在众多信息中获取最全面的舆情数据,并将舆情数据以最快的速度和最灵活的方式展现出来,使舆情在可控的范围内实现最大的社会和商业价值,显得尤为重要。
1 网络舆情
网络舆情不同于传统舆情,传统舆情是民意理论中的一个概念,是民意的一种综合反映。该文所提到的网络舆情,是未经任何中介包装和验证,直接于网上的社会舆情,并以互联网为载体,以舆论事件为核心,集民众情感、态度、意见、建议、传播互动和影响力于一身的集合。
因为网络舆情的传播介质是网络,网络既具有公开性又具有隐蔽性,同时需要事件、网民、网民情感,以及通过网络介质的传播和互动,所以在既公开又隐蔽的环境中,从众多的信息中捕获并抽取出复杂的网民情绪和态度非常重要。
2 舆情捕获
由于舆情具有自由性、交互性、多元性、偏差性和突发性,所以如何从众多舆情中获取实时数据并服务于大众,是新兴媒体所面临的严峻挑战和考验。
2.1 关键词确定
在互联网上传播的信息可以用海量来形容,如果针对舆情盲目进行检索,犹如大海捞针,不仅得不到我们想要的数据,还会浪费大量的人力、物力和财力来投入到数据的分析中。所以如何在海量的信息中获取用户想要的数据,“关键词”就显得非常重要,它不仅可以让我们精确地捕获到想要的数据,而且还可以减少脏数据的捕获,大大缩短了舆情分析的时间,提升了舆情分析的反应速率,下面就介绍几种关键词确定的方法。
夜上海论坛 (1)定制关键词。关键词的确定可以从舆情分析的发出者来反向提出,舆情分析的发出者一定是希望从网络舆情中得到某种相关信息,那么我们可以从需求提出者和需求分析者的角度来确定关键词,即关键词由用户提出,并通过需求分析将用户的表述发展为定制词语,并将其定义为用户定制关键词。根据用户定制的关键词来捕获数据,是最直接明了的数据捕获方式。
(2)热门舆情关键词。很多网站如百度、搜狐、Facebook、新浪等几乎所有的交互网站都会有热门指数,我们可以借助这些网站自身携带的热门指数,来确定关键词。因为通过热门舆情关键词来捕获数据,一定是网站热门数据,这样不仅可以节省我们分析确定关键词的时间,而且还可以用最短的时间获取最多的分析数据,提高大数据在舆情分析中的反应速率。
(3)热搜舆情关键词。热搜舆情关键词不同于热门关键词,由于舆情具有广泛传播性,很多人参与到舆情探讨中,都是通过网络搜索并定位的,所以热搜关键词就是根据搜索引擎的热搜排行榜,来确定舆情关键词,通过热搜排行榜,我们可以第一时间知道并了解网民想要了解的舆论事件。
(4)参考舆情网站。想要找到网络事件的发展状况和原由,最简单也是最直接的方式,就是找到舆情的网站,很多网站就是网络舆情事件的源泉。
2.2 数据抓取
当我们通过各种方式获取并确定了关键词之后,如何把关键词变成我们想要的精确数据,就显得非常重要。我们可以通过网络爬虫技术来获取舆情数据。
夜上海论坛 当前主流的数据抓取模式主要包含4个主要部分:网络爬虫技术(Spider)、数据处理技术(Data Process)、爬取URL队列(URL Queue)和数据。爬虫主要是从互联网上捕捉网页内容,并从中抽取出需要的内容。数据处理:对爬虫抓取的内容进行处理。URL队列:为爬虫提供需要抓取数据网站的URL。数据包含3个方面:(1)Site URL:需要抓取数据网站的URL信息;(2)Spider Data:爬虫从网页中抽取出来的数据;(3)Dp Data:经过dp处理之后的数据。
2.3 数据存储
因为网络舆情具有及时更新和海量的特性,所以我们如何将抓取到的数据实时保存起来,是非常关键的,它决定了最后舆情分析的全面性和精确性。一般通过IT技术可以将数据存储到数据库中,下面介绍一下当前主流的3种数据库及其区别。
Oracle数据文件都是采用二进制编码的文件,而且它可以对SQL在执行过程中的解析和优化指定统一标准,其中包括RBO、CBO以及HTNT规则,这些都会使在Oracle数据库中执行的SQL拥有极大的优化自由,同时也对CPU、内存、IO资源方面进行优化。
MySQL最大的特点应该属自由选择存储引擎。它的每一个表都是一个文件,都可以选择合适的存储引擎。但由于它的存储引擎是开放式的插件引擎,所以文件的一致性大大降低,并且在SQL优化方面,也会有一些不可避免的瓶颈,例如多表关联、子查询优化、统计函数等都是它的弱项,并且MySQL只支持极简单的HINT。
SQL Server的数据架构基本是纵向划分,分为:Protocol Layer、Relational Engine、Storage Engine、SQLOS。SQL执行都是逐层,其中Relational Engine中的优化器,是基于成本的,其工作过程跟Oracle是非常相似的。同时它也支持丰富的HINT,包括:连接提示、查询提示、表提示。
夜上海论坛 虽然,这3个数据库各具特色,但是,如果对数据安全、存储等特性没有特殊要求,通常我们会选取MySQL数据库,因为开源而且操作相对简单。
3 舆情分析
夜上海论坛 如果说舆情数据的抓取和存储目的是在数据获取方面下工夫,那么舆情分析就是通过比较、论证等方法把数据通过图形报表等更加简洁的方式呈献给用户。
每一个舆情事件的本身都有自己的特点,分析设计人员可以根据不同的特点选择舆情分析的方法或报表。通常舆情分析方法有连续接近法、举例说明法、比较分析法和流程图法等。通常图形报表也有很多种,如趋势图、比例饼图、百分比柱图、流程图、表格等,分析设计人员根据舆情的特点选择合适的图形呈献给用户。
4 结语
通过大数据相关技术对舆情进行全方位收集、存储和分析的过程中,我们既不修饰、篡改舆情事件的真实性,也不隐藏舆情事件的丑陋性,大数据的智能捕获分析,只是将网络舆情更加清晰形象地呈现给用户,使用户在第一时间获取民众态度,掌握民众意见或建议,并根据舆情报告的精准分析反馈,及时对舆情事件做出相应的政策,调整相关的策略,实现商业和政治利益最大化,创造更多的社会价值,并使网络舆情健康良性发展。
参考文献
夜上海论坛 [1] 王博.大数据时代网络舆情与社会治理研究[D].云南财经大学,2016.
[2] 杨旭东.网络舆情监控系统关键技术研究[J].信息网络安全,2016(9):251-256.
>> 公安院校民警培训课程建设的思考 对公安院校MOOC课程建设之思考 基于社团及网络平台的公安院校大学生廉洁教育研究 关于公安院校网络安全与执法专业建设的思考 公安院校推进精品开放课程建设和应用的思考 论公安院校成人教育课程体系建设的原则 关于公安院校选修课程建设的几点思考 加强公安院校学生忠诚教育的探索 公安院校开设警务监督课程的思考 浅谈公安院校的寝室文化建设 公安院校发展的专业建设引领模式探究 "互联网+"环境下公安院校的建设 公安院校英语微课资源建设与翻转课堂教学实践探究 发挥公安院校素质拓展训练课程德育功能探索 公安院校警察防卫控制课程教学方法探索 公安院校大学英语选修课程建设研究 浅谈公安院校警务英语课程教材建设 公安院校开展公安文化教育的思考 公安院校警体计划网络图的构建研究 公安院校诊所式法律教学方法的探索与创新 常见问题解答 当前所在位置:l.2016-01-22.
[2] 杜庆灵,李进.信息网络安全监管[M].北京:中国人民公安大学出版社,2015.
夜上海论坛 [3] 孔祥慧.思想政治教育在高校网络舆情中的导向功能研究[J].大学教育,2014(15):78-79.
[4] 徐迪. 《网络舆情理论与实务》课程建设实践的可行性探究[J].教育教学论坛,2014(45):152-155.
[5] 乔雪颜,翁书婧.网络舆情分析类课程的实验教学现状初探[J].求知导刊,2016(41):145.
[6] 陈柏龄.新媒体时代公安机关网络公关的现状及应对策略[J].福建警察学院学报,2015(1):43-47.
夜上海论坛 摘要:本文以基于数据挖掘的决策支持系统方法整合网络舆情信息,建立网络舆情信息仓库,对非结构化的模糊复杂的信息,运用数据挖掘中文本挖掘技术有效分析网络热点事件的舆情,及时发现重大突发事件,减少危机损失,提高政府管理和监控舆情危机的能力。
夜上海论坛 关键词:网络舆情 数据挖掘 决策支持系统
夜上海论坛 1、引 言
近几年,随着Web2. 0的兴起与普及,互联网已成为一个开放的、个性化的社会环境形态,对社会稳定和国家安全的维护带来了严峻挑战。但是现在我们政府情报机构网络安全管理和监控能力比较薄弱,难以适应复杂的环境。因此,建立基于数据挖掘的网络舆情预警决策支持系统,对非结构化的模糊复杂的信息,运用文本挖掘技术有效分析网络舆情事件,及时发现重大突发事件,减少危机损失,提高政府管理和监控能力势在必行。
夜上海论坛 2、基于数据挖掘的决策支持系统
决策支持系统(DSS) [1]是利用大量信息,数据结合众多模型,通过人机交互,辅助各级决策者实现科学决策的系统。它是融计算机技术、信息、技术、人工智能、管理科学、决策科学等学科和技术于一体的技术继承系统,包括数据仓库和数据挖掘分析系统,由以下三个主体[2]组成:
夜上海论坛 (1)模型库系统和数据库系统结合,作为该系统的基础,为决策问题进行模型计算和定量分析,提供辅助决策信息。
(2)知识库系统和数据挖掘的结合,从数据库和数据仓库中挖掘知识放入专家系统的知识库中,通过知识推理定性分析,辅助决策。
(3)数据仓库和OLAP,从数据仓库中提取综合数据和信息来反映了其内在本质。
3、基于数据挖掘的网络舆情预警决策支持系统的定位
夜上海论坛 从网络舆情预警决策支持系统的功能和实现方式对其定义:基于决策支持系统技术,将联机分析处理、数据挖掘模型(文本挖掘模型)、数据仓库、知识库、方法库等相结合,应用于情报机构的网络舆情预警中的人机结合系统。
3.1数据仓库
数据仓库[3]的设计要满足决策支持系统的要求,即数据要具备概括性、抽象性、统一性三个特点。所以图1中数据仓库和部门数据库加上一个虚拟层,实现数据挖掘的数据清洗,为数据仓库提取有用数据。
3.2数据挖掘方法
夜上海论坛 数据挖掘[4],简单点说,就是从大量数据中寻找规律的技术,通过处理海量的、不完全的、随机的、结构复杂的数据选择有用数据,建立知识模型。网络舆情预警决策支持系统运用数据挖掘中文本挖掘技术,包括自动分类技术、自动关联技术、观点挖掘技术、自动分词技术、结构化抽取技术以及自动摘要、关键词技术等。
夜上海论坛 图1 决策支持结构系统
4、基于数据挖掘的网络舆情预警决策支持系统的构建
夜上海论坛 基于数据挖掘的决策支持系统采集网络中的新闻网页、论坛、博客、新闻评论,贴吧等网络资源,发现突发性热点事件,进行热点跟踪定位和实时舆情预警,帮助政府及时掌握舆情动向,准确捕捉预警信息,对有较大影响的重要事件快速发现、快速处理,为政府决策提供信息依据[5]。
4.1数据准备
夜上海论坛 网络舆情预警需要多样化的信息,在整理信息的时候,需要做到全面、准确、及时。本系统涉及的信息有:
夜上海论坛 文本信息:新闻、博客、产品评论、论坛帖子等文本信息,包括主题、关键词、时间、URL等。
词汇信息:包括现在词典中的字或词和现在网络用语的语义、适用的语境和是否带有情感等。
图像信息:主要是新闻、博客、产品评论、论坛帖子等上的图片,包括主题、内容、时间、URL、浏览数量等。
视频音频信息:主要是新闻、博客、产品评论、论坛帖子等上的视频音频,包括主题、内容、时间、、URL、浏览数量等。
这些来自互联网的大量信息,通过收集、整理、存储、预处理在数据库中作为原始数据,这些数据是离散的、模糊的。
4.2系统功能模块
根据网络舆情预警的规划,如舆情分类、情感分类与趋势预测、舆情检索以及统计分析等,本系统建立了舆情信息采集管理系统、舆情分类管理系统[6]、舆情来源管理系统、舆情情感分类管理系统和用户管理系统。
夜上海论坛 ①舆情分类管理系统:舆情分类即对海量信息的自动(文本语义分析)分类。通过关键字样本、文件样本、自定义等把原始信息分类,形成分类别(危害国家安全、危害社会治安、扰乱社会秩序等)的分类库,分类管理可以对分类的类别数据进行增加、删除、修改等操作。
夜上海论坛 ②舆情信息采集管理系统:舆情信息采集管理系统对文本信息、图像信息、视频音频信息的来源,如新闻、博客、产品评论、论坛帖子、网站及其网站的权威性进行分析统计。
③舆情来源管理系统:舆情来源管理部门对文本信息、图像信息、视频音频信息的来源,如新闻、博客、产品评论、论坛帖子、网站及其网站的权威性进行分析统计。
④舆情情感分类管理系统:舆情分类管理部门从根据新闻、博客、产品评论、论坛帖子等收集的文本信息、图像信息、视频音频信息,经过预处理之后,通过观点挖掘方法对舆情信息的情感倾向进行分析,及时发现消极情感的信息,以便迅速做出反应。
⑤舆情统计系统:统计舆情分类管理系统和舆情情感分类管理系统的信息,为政府提供报表或报文,供政府决策使用。
5、结 论
基于数据挖掘的网络舆情预警决策支持系统可以有效解决现在网络舆情预警系统中存在的问题,通过文本挖掘技术对非结构化的模糊复杂的信息分析处理,及时发现重大突发事件,减少危机损失,提高政府管理和控制舆情的能力。
参考文献: