随着以微博、微信为代表的移动互联网终端的日益普及,“人人都有麦克风”的自媒体舆论场已经成为社会主流舆论的中坚力量。在这样的背景下,政法机关主动适应网络新媒体形势、顺应人民群众需求,不断拓宽微博、微信、新闻客户端等新媒体信息发布平台。 当前社会,各种舆论喧嚣尘上,各地论坛如雨后春笋。网友爆料、网民监督已成为披露重大事件、揭露社会黑暗的第一现场。网络舆论事实上已成为其他传统媒体的先导先驱。在这种形式下,各级政府机关对网络舆情给予以了高度关注,提出需要在第一时间发现舆情,第一时间跟踪舆情,第一时间对舆情所反映问题进行监督核查。然而,在浩如烟海的网络中如何第一时间发现网络舆情是摆在各级政府领导面前的一个难解的问题。
另一方面,政府机关作为国家机构,一言一行都会被社会放在“显微镜”、“聚光灯”下,稍有不慎就有可能被网络炒作。一条信息、一个帖子通过网络一夜之间就可能成为全世界的焦点话题。特别是负面报道和曝光,其引发的舆情危机给政府机关造成的负面影响是深刻的、深远的。面对负面舆情,如无法及时处置,其对政府机关的公信力损害巨大。如何对网络舆情实施科学有效的管理和控制?已成为政府机关亟待解决的一个崭新的课题。
为了及时掌握网络舆论动态,迅速发现舆情热点,政府机关需要对网络舆情做到及时发现、备案和处理。同时也需要对于互联网上热点舆情信息及时发现和掌握,上报领导和通知相关单位。
对于舆情监测的迫切需求,主要包括以下几个方面:
- 及时了解和掌握当地造成人员伤亡、产生恶劣社会影响、造成重大财产损失等网民关注的问题;针对本地区重大安全事件、生产事件、交通安全事件、污染事件等民生问题进行及时预警推送。
- 分析社会舆论对政策法规的态度、对政策法规的期望,监测是否存在对国家公职机关相关的不实信息、负面信息、谣言,并及时做出预警。
- 协助机关管理层及时、准确把握网络言论热点,了解公众对各类社会问题的需求、意见、思想动向,及时避免事件扩大化;了解是否存在对政府机关政策、人员执法等不满、不实、负面的舆论。
- 网络舆情事件追溯到事件起源平台,如贴吧、微博、微信朋友圈等经过众多转载的文章,追溯到最初信息发布平台;对网络舆情热点进行分析,可查询任意时间范围内的舆情统计数据。
唐妩作为国内搜索技术产品化的开创者,一直在该领域拥有先进的理念、成熟的技术和先进的信息检索、数据抽取识别和文本挖掘技术。唐妩搜索引擎产品通过在多个互联网运营项目上的成功应用,积累了丰富的行业实践经验。
唐妩结合互联网垂直领域的业务应用需求,依托自身搜索引擎产品和中文信息处理技术,推出全面的互联网舆情信息监控。
互联网舆情监测管理平台(舆情系统)是针对政府、公安、检察院、法院、企业推出的互联网信息搜索、分析监控,痕迹留存、来源追踪产品。可以有效地帮助政府部门掌握互联网的信息、舆论动向,热点新闻内容自动发现,通过预警机制可以预设敏感词汇,系统在发现可疑内容自动通过email或短信进行通知到达。该产品已经在多个政府部门和政府机关成功应用。
互联网舆情信息监测平台通过信息化手段增强对大中城市涉及互联网舆情信息进行有效管理,实现对大中城市网站信息发布以及互联网上涉及本市的信息进行全面掌控,尤其是敏感内容、违规内容和突发事件等信息。实现对互联网信息(新闻、论坛、博客、微博等)实时监测、采集、内容提取及排重和排序;并且对获取的信息进行全面检索、主题检测、专题聚焦、主题演化分析、话题传播分析;按照业务需求定制信息分类规则和排序;为用户辅助编辑提供信息服务,如信息预警、自动形成网络信息报告、追踪已发现的信息焦点等。及时发现不良信息,实现早发现、早报告、早处理,有效引导网上舆论,疏导热点,减少互联网涉及本地舆情不良信息的传播,净化网络环境,维护网络正常秩序和政府在互联网的话语权。 实用性原则:舆情监测系统的价值在于其实际运行效果。效果是舆情监测系统的灵魂,切忌华而不实。
节约性原则:合理控制项目规模,科学规划监测体系。集中部署,节约系统维护成本和网络、硬件等设备投入。
服务性原则:舆情系统应用的成功与否,取决于好的实施质量以及服务是否有持续的保障。
针对性原则:舆情系统最不可取的就是什么都想监测,结果什么都监测不到。想通过一套系统服务于所有用户,结果每个用户的效果都没法保障。各区县、各部门都有自己的舆情关注重点和监测方向。
数据永久性原则:互联网舆情信息被采集到本地后,在本地留有备份或快照,在源文地址失效或数据无法被二次采集的情况下,能够根据历史采集数据进行调取,以备政府机关进行相关的数据取证和分析。 唐妩舆情监测管理系统后台 采用 J2EE技术体系,前台采用Ajax开发技术,操作简单、易用、高效、稳定。系统所有功能均采用纯B/S结构设计,零客户端维护。
从上图中可以看到,唐妩互联网舆情信息监控构建于J2EE平台,继承了它跨平台和安全的特性。整个系统架构拥有很强的扩展性,并对用户开放web service接口以方便二次开发。
系统功能架构如下:
唐妩舆情监测管理系统采用软硬件结合的方式进行部署,硬件性能由用户监控的目标站点数目来决定,一般来说,监控目标数量越大则需要的硬件性能越高。
具体部署方式如下图:
唐妩互联网舆情监控产品包含四个功能子系统:舆情数据采集子系统、舆情数据处理子系统、舆情数据分析子系统、舆情门户展示子系统。
系统对信息的处理过程:
舆情数据采集子系统的数据采集对象主要是互联网网站和网页,数据源主要有两种,一是通过指定范围的网站对其进行抓取采集,支持新闻、博客、论坛、微博、贴吧采集;另一种是通过baidu、google、搜狗等搜素引擎根据关键词进行全网的数据采集。在多服务器状态下,支持对10000个以上的站点/栏目进行采集监控。
在数据采集过程中,包含了对于正文内容的自动识别、自动去除广告及干扰信息、文章去重与相似度分析、自动生成摘要和关键词等多项中文语言处理技术。
此外,数据采集子系统还能够针对网页中的图片、文档资源文件进行采集下载(默认情况下为节约磁盘空间和网络资源,不对非文字内容进行下载),具有生成网页图片和快照、实现网站自动登录、利用代理服务器下载、JS自动识别判断、分布式采集等多项功能。
在舆情数据采集子系统中采用了模版技术,系统内置数百个网站的模版,使得用户的配置过程相当简便,采集配置简单、易学;采集界面可视化、人性化。
- 定向采集:
- 全网监控采集
舆情数据管理:包括对于数据的整理、编辑、删除、新增等维护工作,支持通过关键词的自动分类,支持无限极分类体系。
门户信息配置:系统可以自动生成前端门户平台的信息,管理员也可以通过后台配置将需要重点呈现的信息置于门户中去,同时,管理员也可以对门户的一些频道、热词、专题进行管理和设置。
简报管理模块:通过设置舆情简报模版,可以按天、按月、自动生成舆情简报,也可以手动选择信息生成简报,同时对于已生成的简报提供可视化的编辑界面,用户可以编辑撰写。
舆情分析子系统功能分为统计和分析两部分。
统计主要是对于舆情内容的统计,信息站点分布统计、时间统计、具有折线图、柱状图、饼图多种表现方式。
舆情分析功能包括,自动聚类、热词发现;正负面信息研判;事件发展趋势分析;热点人名、地名分析; 根据舆情数据分析结果进行预警,通过页面弹窗、短信、邮件等方式将预警信息推送给用户。
舆情门户应用子系统是根据客户的行业特点与行业需求,定制的一个舆情展示、呈现平台,通过该平台可以将舆情系统中收集到的信息、分析结果、生成的简报、以图文方式进行展现,提供给用户和各级领导浏览、下载。 微博已经成为"新闻发布次阵地"与"新闻营销主阵地",微博赋予人们无限话语权。其传播面广、传播迅速、使用面广、不受时间空间限制和其放大镜特征将信息影响力成倍放大,尤其是一些敏感话题、焦点事件、热点问题、重大公共事件、突发事件一夕之间家喻户晓,或造成信任缺失、政府、企业形象受损、民怨沸腾……需要微博舆情系统时时监控其传播动态、发现重大负面事件,并积极疏进行疏导。
为解决以上问题,唐妩软件透析微博特点,充分运用自身搜索引擎技术、自然语言智能处理技术的开发优势,研发了唐妩微博监测系统,旨在深层次挖掘微博舆情价值,全天候并及时提供最新微博舆情信息。 唐妩微博监测系统根据用户预定的监测关键词在数分钟内发现新浪、腾讯、搜狐、网易等主流微博平台的舆情信息,客户通过系统完成大部分微博舆情监测工作,多维度查看不同阶段的微博舆情信息,追踪微博传播源头,发现突发事件和重大公共事件。并提供WEB、短信、邮件综合立体服务模式,为领导决策在第一时间提供舆情信息支持,为化解危机争取时间。 微博舆情概况:舆情走势分析、最热转播、最热评论、最新微博
舆情分析:常规分析、排行分析、类别对比、平台对比;转发排行、评论排行详细信息列表:采集后的信息舆情列表、原平台微博原展示、提供各种微博平台的高级筛选搜索(按时间、类别、议题、属性等)
预警信息:邮件、短信等预警方式的预警舆情详细展示
关键词设置:负面关键词、预警关键词展示 实时监测:系统7*24小时不间断运行,高效数据处理能力,数分钟收录客户自行定义重点监测关键词在微博平台上的有效信息。
舆情分析:多维度数据查询、多角度图表分析、多类别舆情信息对比,把握微博舆情动态,预测发展趋势。
分析报告:客户根据自己需求定制报告模版,建立舆情自动汇总分析报告,对数据进行准确的数理统计与舆情信息全面呈现。
及时预警:采用WWW、短信、邮件、app通知相结合的综合服务模式,突破时间和空间局限,随时把握舆情动态,打造高效的预警机制。 唐妩舆情监测移动客户端是一款个性化舆情监测移动终端,实现舆情监测PC端与移动终端的无缝链接,7*24小时全天候监测,弥补了传统舆情监测在内容、空间和时间上的死角。客户端以专业视角对全网舆情信息采集、监测,建立个性化舆情数据库。通过图表等展现方式,为单位或个人获取行业商机、监控行业舆情提供必要信息参考。 唐妩舆情监测移动客户端包括安卓客户端APP,此外,支持手机浏览器访问WAP版本。
移动客户端主要功能与PC端相一致。
- 7*24小时全网络舆情信息实时扫描
- 自身、竞品、行业...个性化舆情内容定制
- 重要舆情及时收藏追踪
- PC端与客户端数据实时同步
主题分析后,系统可以从多方面,多维度对舆情进行跟踪:
根据敏感词库,结合自动摘要、自动关键词提取、中文分词技术,实现进行主题的态度研判。
通过分析结果,进行红、橙、黄三级预警,并通过邮件、短信或其他方式给用户进行预警提示。
可以通过系统设置简报模版,及简报生成时间,自动生成舆情简报。
对于生成的简报,系统也提供了可视化的编辑功能。
另外,系统也支持根据用户不一样,生成不同的简报以供不同部门人员浏览下载。 舆情系统不仅可以针对特定网站进行监控,也可以利用360搜索、baidu、yahoo等通用搜索引擎的结果结合本身的技术,进行全网监控,达到舆情监控的全面性。 舆情系统支持分布式系统部署,这样可以提高整个系统的页面抓取能力,进而提高系统对于监控网站数量的支持。
- 海量网址库
选择整套软件平台系统,需要安装在多台服务器上,服务器硬件要求如下:
最低配置:
序号 | 产品名称 | 配置说明 | 数量 | 备注 |
1 | 索引处理服务器 | 8核2.2G*2颗/内存64G/硬盘1T/CENTOS7 | 1 | 可外接磁盘阵列 (500G保存3个月数据, 2T保存1年数据) |
2 | 数据库+ web服务器 | 8核2.2G*2颗/内存64G/硬盘容量200G /CENTOS7 | 1 | 可外接磁盘阵列 |
3 | 通用采集服务器 | 8核2.2G*2颗/内存64G/硬盘200G/CENTOS7 | 1 |
推荐配置:
序号 | 产品名称 | 配置说明 | 数量 | 备注 |
1 | 索引处理服务器 | 12核2.2G*2颗/内存128G/硬盘2T/ centos7 | 3 | 可外接磁盘阵列 (500G保存近3个月数据,2T保存1年数据) |
2 | 数据库+ web服务器 | 12核2.2G*2颗/内存128G/硬盘500G /centos7 | 1 | 可外接磁盘阵列 |
3 | 境内采集服务器 (定向) |
6核2.2G*2颗/内存64G/硬盘500G/ centos7 | 1 | |
4 | 境内采集服务器 (全网) |
6核2.2G*2颗/内存64G/硬盘500G/ centos7 | 1 | |
5 | 通用采集服务器 | 6核2.2G*2颗/内存64G/硬盘500G/ centos7 | 1 |
- 网络环境要求
主要参数 | 详细要求 |
支持最小数据量 | 单台服务器支持量≥200万 |
平均查询响应时间 | ≤1秒 |
每天监控网页能力 | ≥200万网页 |
数据更新间隔时间 | 30分钟 -- 12小时 |
可负载访问搜索量 | ≥100万PV/日 |
单服务器监控站点/栏目 | ≥8000 |
单台并发数量 | ≥1000 |
所有服务器只需接入局域网,配置固定内网IP地址,并能访问互联网。其中WEB服务器若需要提供互联网访问,需要配置互联网IP地址,或做端口映射.
序号 | 软件名称 | 数量套 | 说明 |
1 | 唐妩舆情监测系统 | 1 | 包括软件及相关配套模块 |
2 | Mysql数据库 | 1 | 免费软件 |
3 | 应用服务器Tomcat | 1 | 免费软件 |
4 | 操作系统Linux | 1 | 免费软件 |
1)需求调研和舆情规划
要监测那些网站、关注的关键词(规则)是什么、如何配合人工机制进行舆情监测、日常舆情报告的类型和报告的模板、舆情信息按照那些维度进行分类、提供哪些层面的统计分析数据、现阶段关注的重点事件和方向是什么… …
2)监测网站配置
定向监测:唐妩已经积累起来了大量监测网站配置库,比如全国性以及区域性比较有影响力的新闻、论坛、博客等网站。在具体的项目实践中,这部分网站能占到所监测网站总数的70%左右,剩下的部分,主要是一些针对本地区、本行业的一些网站,尤其是论坛、贴吧等。
全网搜索:通过定制包含与“我”相关的关键词和规则,“订阅”来自各大搜索引擎以及各种分类搜索和站内搜索提供的数据。
3)舆情应用和舆情知识库整理
唐妩有着成熟的舆情研判模型和理念,已经总结整理出了一套通用的舆情过滤、分析、研判知识库。在具体的项目中,再结合项目的地域和行业特点进行有针对性的扩展。这一部分舆情知识、一般都是由客户提出,唐妩进行整理。
4)产品安装、部署以及调试
系统在针对性配置完成以后,就可以正式移植在客户提供的服务器上,正式上线试运行。移植过程非常简单,一般项目远程都可以完成部署调试。
5)系统测试和重构
舆情系统上线以后,有一个测试和重构的过程,这个过程主要是根据实际运行的效果,进行监测网站的调整,各种关键词(规则)的调整。一般地,舆情监测系统在上线以后,经过半个月左右的迭代改进。就可以达到并固定下满意的舆情监测效果。
6)培训
唐妩建立了完善的培训和管理制度,由专业的培训教师对舆情监测系统的使用管理和维护进行系统培训。对于特定开发完成的系统,唐妩会进行必要的现场培训和试运行等帮助支持。
- 服务技术支持
唐妩舆情项目的日常运维服务包括:
- 监测网站的调整
- 各种关键词(规则)的调整
- 突发事件监测和预警
- 辅助监测和效果调整,包括周六日和节假日
- 辅助生成舆情报告
各类与用户单位相关的以及区域内有影响力的网站。
百度、谷歌等搜索引擎;
论坛搜索,博客搜索、微博搜索等专业搜索引擎;
重点网站提供的站内搜索等。
新浪、搜狐、网易、腾讯微博
- 用户单位网络舆情监测
- 用户单位负面信息预警
- 用户单位领导信息监测
- 用户单位下属各单位重点舆情监测
- 用户单位各政府部门舆情监测
- 用户单位主要企业舆情监测
- 自行设定的其他关注舆情
- 国内重点舆情参考
- 监测目标
- 完成全网和指定网站互联网信息监测,实时监测各网站的相关内容的舆论导向是否正确。
- 满足互联网舆情信息舆论监督管理的需要。
- 及时发现负面、最新、最热、最重要的网络信息。
- 对已经发生的舆情和事件,掌握其在互联网上的传播特点和发展趋势。
- 通过植入用户单位舆情知识工程,建立适合于用户单位舆情管理特色的舆情分析研判模型。
- 对重点事件、敏感事件的舆情进行回溯寻找舆情源头;跟踪舆情传播过程,进行传播趋势分析和统计;并全面监控舆情分布情况及处置结果。
- 做到实时监测,日日简报,月月专报,要事快报。
- 及时输出统计分析报表为领导辅助决策提供帮助。
