第43卷 第3期 河南科技学院学报 2015年6月 Vo1.43 No.3 Journal of Henan Institute of Science and Technology Jun.2015 doi:lO.3969 ̄.issn.1008-7516.2015.03.013 网络舆情智能分析系统的总体设计 李璀 (河南师范大学计算机与信息工程学院,河南新乡453007) 摘要:采用多服务器集群与分布式管理、网络爬虫与全文检索等技术,设计完成一套网络舆情智能分析系统.按 照软件工程原理,完成需求分析.对系统总体结构进行设计,分为网络舆情数据采集模块、智能全文检索模块、用 户界面模块.最后对系统进行仿真,结果表明系统能够达到对网络舆情进行搜索采集分析的要求. 关键词:网络舆情;智能分析;系统设计 中图分类号:TP393 文献标志码:A 文章编号:1008—7516(2015)03—0061—06 The overall design of the intelligent analysis system of network public opinion Li Cui (College of Computer&Information Engineering,Henan Normal University,Xinxiang 453007,China) Abstract:Intelligent design was completed by Internet public opinion analysis system,multi—server clusters and distributed management,web crawlers and full-text retrieval technology.In accordance with the principles of software engineering,requirements analysis was completed.The overall system architecture is divided into data acquisition module into the network public opinion,intelligent full-text search module,the user interface module.The simulation results showed that the system can achieve the network search collect public opinion analysis. Key words:network public opinion;intelligent analysis;system design 互联网舆情分析系统主要针对互联网上海量的数据信息,自动地进行收集和处理,并及时对互联网 舆情进行预测和监控.系统最终要实现对网络舆情信息进行及时有效的分析和监控,并将分析结果以多 种直观简洁的方式反映给用户I .同时系统的设计还需要考虑对各种不同网站页面结构的适应性,以及 作为系统的可扩展性和可维护性. 本文设计的网络舆情智能分析系统可以实现对网络舆情数据快速抓取、分析,及通过二次搜索方式 对舆情结果中的虚假信息进行甄别、对重点内容进行关注、有害信息进行分析预警等. 1需求分析 网络舆情分析系统需要满足下列功能:①跨平台,支持当前多数操作系统,如:Windows/Unix/Linux; ②面对网页信息的不同编码格式能够实现自主识别下载功能,并且可以人工设置解析格式,支持对多国 语言的网站解析;③能够实现对网页上各类网络舆情数据资源的下载,例如各种格式的图片、音乐、视频 等;④针对那些需要输入用户名、密码才能登录采集数据的网站,如人人网、微博等,可以自动输入用户 名与密码进行登录;⑤支持大数据的数据挖掘、信息采集、存储,服务器的管理模式使用分布式的配置, 尤其要求能够实现多台服务器通过共同协作、配置为服务器集群;⑥多个数据挖掘任务在同一个数据 采集服务器下可以同时并行运行;⑦每个搜情专题能够配置多个可采集的信息源,即同时可以从多个网 收稿日期:2015—04—28 作者简介:李璀(1990~),男,河南滑县人,硕士生.主要从事网络舆情分析研究 6l 2015篮 河南科技学院学报(自然科学版) 站采集信息;⑧信息采集自动更新策略.当被采集的网络原始信息发生变化时,系统能够自主识别并对 已采集到的信息进行更新;⑨严格整个舆情分析系统的权限管理.尤其是对数据挖掘服务器与用户配置 使用平台之间分配不同的管理权限,用以加强数据挖掘服务器的整体安全措施;⑩自主发现获取网络信 息中的图片.能够自动对图片进行下载,并将网络信息中的图片URL替换为本地的URL.⑩系统后台运 行监测平台可以对每台数据挖掘服务器的详细运行情况及系统资源是否得到合理配置使用等情况进 行监控,从而得出系统是否正常运行的结论,并形成报告. 2总体设计 通过上述功能需求分析,系统功能主要包括舆情数据采集、全文检索及用户界面.系统流程如图1 所示.舆情数据采集采用网络爬虫技术,把用户监控的网络网站中的文字信息抓取下来存储到舆情数据 库,对舆情数据库中的数据进行预处理,主要是把各类非结构化的舆情数据结构化并分类提取出标题、 全文、网址、时间等信息,把结构化的数据结果存储到预处理数据库中,输出到全文检索系统.全文检索系 统首先对网页文字信息进行分词、分类、文本挖掘、创建索引并存储在索引数据库中,然后按照用户采集 指令对索引数据库中的数据进行检索形成全文检索数据库中。通过全文检索API,对全文检索数据库数 据进行分析处理,根据用户需要,还可以对全文检索数据库中的数据进行二次检索,之后把结果反馈到用 户界面.通过界面完成系统配置、管理,并把结果展示给用户. 用户界面 用户界面模块 二钦检素 数据库 — 发 检索数据库 智能全文检索模块 布 索引数据库 采 集 指 令 预处理数据库 对 顺 舆情数据采集模块 舆情数据库 从互 蠢螽踟 图1网络舆情智能分析系统流程 Fig.1 Internet pubic opinion intelligent an ̄ysis system lfow 系统开发过程包括系统需求分析、系统总体设计、系统模块具体设计、系统编程实现、软件运行测 试、系统改进完善、系统完成及编写用户使用手册等环节.具体流程及生成的相应文档如图2所示. 62 李璀:网络舆情智能分析系统的总体设计 第3期 概要设计 《概要设计说明书》 j 详细设计 i 《详细设计说明书》 编码 I 测试 《测试报告》 I I 修改完善 l 《验收报告》 l验收 l r l维护 《用户手册》 图2网络舆情智能 分析系 统设计实现流程 Fig.2 Intemet public opinion intelligent analysis system design implementation lfow 3系统设计 3.1舆情数据采集模块 舆情数据采集部件通过爬虫把符合条件的舆情信息,如网页中的文字、图片、图表等等,进行预处理 并存储到数据采集数据库中.首先搜索并处理舆情数据,然后进行解析,对解析后资源进行修正,最后输 出任务要求结果.如图3所示,舆情数据采集模块数据流程如下:配置信息主要包括采集数据的保存路 径、采集循环的时间间隔、采集数据的预处理结果保存格式(包括文件格式和编码信息等)罔. 图3舆情数据采集模块流程 Fig.3 Public opinion data acquisition module lfowchart 3.2全文检索模块 全文检索模块主要分为两个部分,索引部分和检索部分,如图4所示.模块接收到舆情资源采集模块 获取的舆情信息后,首先在索引部分内对网页正文、标题等内容进行分词、建立索引.然后将索引结果输 63 2015丘 河南科技学院学报(自然科学版) 并对其系统功能进行了详细的介绍,对设计的网络舆情分析系统进行了仿真实现,基本达到了设计要求 参考文献: [1】殷卫东,朱晓华,赵俊凯.网络舆情技术浅析fJ1_信息网络安全,2012(3):5-9. 【2】张玉珠.基于K—means聚类的网络舆情监控系统fJ】.通信技术,2013,46(1):57—59. 【3张焕明.31网络舆情分析系统的研究与设计【J]_微计算机信息,2010(18):119—121. 【4]黄敏,胡学钢.网络舆情分析技术及系统构建【J】.山东理T大学学报:自然科学版,2013,27(1):25—29 【5】吴静.网络舆情信息采集系统的设计与实现【D].成都:电子科技大学,201 1. [6】喻思远.网络舆情系统的分析与设计[J].计算机光盘软件与应用,2014,27(5):60—62. 【7】李海燕.网络舆情爬虫系统的设计与实现【D].厦门:厦门大学,2014. 【8】王剑.舆情监控系统的设计与实现【D】.济南:山东大学,2012. (责任编辑:卢奇) (上接第60页) 【3]Mehdi K,Sergei 0 K,Amedeo N,et o1.Mining gene expression data with pattern structure in formal concept analysis[J].Information Sciences,2011,181(10):1989—2001. [4]Qu K S,Zhai Y H,Liang J Y,et a1.Study of decision implications based Oll formal concept analysis[J].Journal f oGeneral Systerns. 2007,36(2):147—156. 【5】Fethi F,Samir E,Ali J,et a1.Formal context coverage based on isolated labels:An efficient solution for text ature xtracti0n lJ1, Information Sciences,2012,188(1):198—214. 【66】 Godin R,Missaoui R,Alaoui H.Incremental concept formation algorithms based on Galois(concept)lattices【J1_Computational Intelligence,1995,11(2):246—267. 【7】李云,刘宗田,陈岐,等.基于属性的概念格渐进式生成算法fJ】./J、型微型计算机系统,2004,25(10):1768—1771. f8曲立平,81刘大昕,杨静,等.基于属性的概念格快速渐进式构造算法fJ1.计算机研究与发展,2007,44(s):251—256. 【9]张磊,张宏莉,殷丽华,等.概念格的属性渐减原理与算法研究『J】.计算机研究与发展,2013,50(2):248—259. 【l0】智慧来.概念格对象渐减维护与关联规则更新[J】.计算机工程与用,2014,50(1):21—23,35. (责任编辑:卢奇)