产品中心

《大数据》精华连载9:行业大数据——警务

日期:2022-06-29 21:17:58 作者:乐鱼在线 来源:乐鱼体育安卓版下载 阅读:6

  数据是科学的度量、知识的来源,随着互联别是移动互联网的发展,一个以信息爆炸为特征的大数据时代已经到来。这对公安机关来说既是挑战,也是机遇。对此,必须以创新的理念和思维,把深入实施科技强警战略、大力推进科技创新摆上更加重要的位置,努力提升公安工作的信息化、科学化和现代化水平。

  随着公安信息化建设的不断推进,如何有效实现传统警务向现代警务的转变,深入推进立体化社会治安防控体系建设,着力打造反恐维稳与应急处突的信息化手段,优化完善公安信息化整体架构,提高各警种各层级和各部门之间信息共享程度,深化应用发挥信息化建设成效,全面提升公安机关维护社会和谐稳定的能力和水平,正在逐渐成为公安信息化建设的核心任务[11]。特别是大数据技术的使用,为传统公安信息化的建设模式、方法、技术等方面带来了变革,通过对警务大数据的建设,使我国各级公安机关可以真正地围绕以应用驱动为根本导向、以基础设施建设为关键支撑、以大数据综合应用为发展龙头、以自主创新为重要途径、以信息安全为主要保障的业务目标,深化开展公安警务大数据应用的建设工作。

  大数据时代警务新模式是以互联网、物联网、云计算、智能引擎、视频技术、数据挖掘等为技术支撑,以公安信息化为核心,通过互联化、物联化、智能化的方式,促进公安系统各个功能模块高度集成、协调运作,实现警务信息“强度整合、高度共享、深度应用”之目标的警务发展新理念和新模式[12],标志着公安信息化正在走向数字化、网络化、智能化的高度融合。其运用先进信息技术手段,全面感测、分析、整合警务运行中的各项关键信息,通过对社会各个方面各个层次的公安需求做出明确、快速、高效、灵活的智能响应,为公安工作提供高效的警务管理手段和拓展便民服务的新空间。

  大数据时代,公安机关通过全面采集和整合海量数据,对数据进行处理、分析、深度挖掘,发现数据的内在规律,为预防、打击犯罪提供强有力的支撑。以大数据推动公安信息化建设,是提高公安工作效率的重要途径,也是公安信息化应用的高级形态。

  经过多年的公安信息化建设,各地公安机关已经建成了公安信息基础和业务系统,包括人口信息、在逃人员信息、违法犯罪信息、机动车信息、出租屋信息等,积累了大量基础和业务数据,但是由于地域或技术的限制,民警只在小范围内自己使用。在大数据背景下,可以使得大量数据能够进行共享使用,为跨区域的信息查询提供方便,节约警力,也提升了战斗力。

  计算机和网络的发展,给高智商、跨国犯罪提供便利。电信诈骗、网络犯罪、微信诈骗等一些违法犯罪不断出现,这种利用高科技犯罪闪得快、藏得深,容易造成大范围的危害。大数据是一种综合资源,包括互联网记录文本、图片、音频数据、网页浏览、视频监控、住宿登记等,有很多数据可以为民警所用,为侦查人员提供侦破案件的线索,提高破案效率,有效应对高科技犯罪。

  传统的公安情报工作,主要依托人力手段搜集情报,随着网络化程度逐渐提高,这种通过社会关系来搜集情报的方法产生很大的局限性。大数据带领我们进入用数据预测的时代,所谓“情报主导警务”,就是通过对海量数据的分析处理,掌握事件的关联性,从而揭示事件未来发展的趋势和规律,以此指导警务工作,使“捕捉现在,预测未来”成为可能。如香港警察就是通过搭建情报系统,以海量数据分析弥补传统线人工作的不足,有效提高侦查破案能力。

  在社会转型期,影响社会治安稳定的因素不断增加,各种社会矛盾集中凸显,特别是最近一段时期,活动频繁出现,给人民群众生命、财产造成巨大损失。大数据的分析和处理,能够时刻洞察社会秩序细小的变化,准确预测治安秩序的变化及动向,为决策者提供支持,也为采取行动赢得时间。

  大数据技术在创新社会管理模式,增强社会治理能力方面具有显著优势。大数据技术与公共危机管理的有效对接,能够强有力地推动公共安全信息网络完善,促进跨部门、跨区域管理信息协同共享,提升公共危机事件的源头治理、动态监控、应急处置和事前预警能力;大数据技术与互联网、微信、微博等新媒体的深度融合,可以突破时间和空间的限制,从更深层次、更广领域促进政府与民众之间的互动,形成政府主导、公众参与、多元协同治理的新格局;同时大数据技术也是维护国家数据主权、增强信息和网络安全的新引擎。如让世界震惊的美国“棱镜门”事件,敲响了世界各国维护信息安全的警钟,也再次证明了大数据技术在维护国家数据主权中的重要价值。

  警务大数据是面向各警种的大数据管理和分析平台,通过对海量数据的收集、整理、归档、分析、预测,从复杂的数据中挖掘出各类数据背后所蕴含的、内在的、必然的因果关系,找到隐秘的规律,促使这些数据从量变到质变,实现对海量数据的深度应用、综合应用和高端应用。通过大数据的建设,使新系统能够向各警种提供集中资源、集中管理、集中监控和配套实施统一的大数据应用环境,保障在今后一个较长时期内很好地担负起对全局各警实战应用的支撑、服务、保障作用。

  1)PB级数据存储管理。信息化建设在推进,数据规模随之飞速增长,为了满足大规模数据的存储和分析,存储系统规模应该在PB级以上,以满足未来数据爆发的存储需要。

  2)多种数据类型与协议支持。公安数据形式多样,包含文档、图片、视频、栅格、矢量等,因此该系统需要能够支持结构化、半结构化、非结构化等多种数据类型,提供NFS/CIFS/JDBC/ODBC等多种接口,以便业务对多种数据进行访问和操作。

  3)高质量的数据整合。好的数据质量是数据分析挖掘和有效应用的基本条件,面对公安行业交互复杂而繁多的系统,势必需要将这些多源异构的数据进行抽取、转换及装载,实现数据的整合、消重,提供高质量的数据,在此基础上进行关联、建模,为实战业务提供可用的数据。

  4)高效的数据分析能力。百亿条记录的检索、上千张表的碰撞、几百个小时的视频分析、大量的移动互联网和社交媒体数据处理等应用,无不对大数据系统的数据分析能力提出更高的要求。

  5)可管理和开放性。可管理、开放化、标准化的大数据技术体系架构,不仅可以为公安带来更高的性价比、更出色的扩展性,更能为警务建设在大数据平台上开展新探索、新应用解除后顾之忧。

  6)安全可靠。公安系统中很多数据关系着国家安全和人民生命财产安全,因此要求系统具备非常高的可靠性。同时,为进一步加强数据安全性,避免数据泄露,最好选用具备完全自主知识产权的国产设备和系统。

  根据云计算的分层体系并结合公安信息化建设需求,警务大数据系统的总体架构应如图10-27所示。

  警务大数据系统架构自下而上由IaaS层、PaaS层、DaaS层、SaaS层等组成。其中,IaaS层又细分为硬件基础设施层和基础设施管理层两个层次,PaaS层主要由平台支撑软件层构成,DaaS层为各类应用提供数据服务,SaaS层细分为共享服务构建层和云应用系统层两个层次。

  IaaS层包含了构成大数据警务大数据系统最重要的大量硬件基础设施和物理资源,构成了各部门和各种警务应用系统共享使用的硬件资源池,主要包括计算资源、存储资源和网络资源。为了能有效调度和共享使用资源池中的物理资源,需要使用虚拟化软件对大量的物理计算服务器、存储服务器以及网络资源进行虚拟化。同时,为了能给应用系统提供动态和弹性扩展的资源分配能力,还需要使用基础设施管理软件对各种虚拟化资源和物理资源进行统一管理、调度分配和使用监控。

  PaaS层主要提供各种完成云计算和云存储所必需的平台支撑系统软件,主要包括云存储系统和云计算系统两大部分。云存储系统需要提供结构化数据的存储和快速查询能力,以及大量非结构化和半结构化海量数据的存储和处理能力。云计算系统主要用来进行海量数据的并行处理,完成各种海量警务数据的分析和挖掘,目前最为成熟的海量数据并行处理软件是开源的Hadoop,它提供了MapReduce、Spark等并行计算框架。

  在PaaS层和SaaS层之间包含了一层基于云存储系统的警务应用DaaS层,其中包括各类共享数据资源、道路监控、图像监控、云搜索等海量云应用数据服务。

  在DaaS层之上是SaaS层,主要包含了各类警务应用系统所公用的服务资源和警务大数据应用系统。警务大数据应用系统所公用的服务资源包括为各个系统所使用的门户服务、消息服务、地理信息服务、数据抽取集成服务、查询服务、统计分析和数据挖掘服务、安全服务,以及统一数据资源访问等公用服务模块和程序。

  当我们对公安数据进行初步归类整合后,可以发现依旧是海量且缺乏直观联系关系,无法为警方提供研判依据,为此需要借助专业的数据挖掘算法对这些数据进一步分析、整合。常用的数据挖掘方法有分类分析、回归分析、聚类分析以及关联分析。

  根据一定的分类准则将具有不同特征的数据划分到不同类别的过程。以某地区团伙作案为例,该区域近一段时间是团伙犯罪高发期,警方对该区域以及邻近区域娱乐场所以及出租屋的人员进行集中排查,采集到大量的身份证信息和手机串号信息。通过对午夜时段的身份证号以及手机串号进行碰撞,可以筛选出一批经常出入于犯罪高发区的可疑人员名单,进而帮助警方缩小排查范围。

  通过对自变量和因变量做一定的相关性分析,由此建立回归方程,用以预测变量的依赖关系。加利福尼亚警方曾利用火灾预警系统来预测建筑物火情以及分析纵火案。

  如图10-28所示,加利福尼亚警方通过将一年内火灾案件与当天天气、建筑物自身因素等资料数据化,形成了一套火灾级别与火灾因素的拟合函数,当火灾因素点越丰富时,拟合出来的火灾隐情拟合函数曲线就越细腻平滑,精准度也就越高,进而形成经验数据,有效提升火灾预警能力。同时,警方也不放过那些异常点,因为往往异常点代表着具有“人为纵火”嫌疑,警方再通过对这些异常点的分析,找出隐藏在火灾背后的案情。

  不同于分类分析,聚类分析没有先验知识,一般是将一堆看似毫无规则的数据根据某种特征进行划分,不同属性的数据分到不同的组。警方可以根据时间或者空间为基准属性,对采集到的身份证号,报警信息,手机串号等进行分组,进而发现可疑线索。

  例如,某文物保护单位午夜时分发生文物盗窃案件,通过对该单位近一周内的监控录像、手机串号等数据的采样,警方首先将可疑牧宝锁定在午夜时段出现的四个手机串号上,因为该时段不可能是正常游客参观时段,具有可疑性,但由于作案人带了头套和手套,未能取得有价值的作案监控录像。警方再对其余时间进行排查碰撞发现,在案发前三天,可疑目标手机串号出现在文物展览时段,通过对该时段的监控录像与手机串号进行排查定位,就可以有效缩小排查范围。

  用于在大量杂乱无章的数据中寻找有价值数据间的相关关系。通过分析犯罪嫌疑人的基本信息、亲朋好友、交通工具、银行账户以及出行记录等,就能绘制出一张犯罪嫌疑人的关系网,进而为警方快速掌握犯罪嫌疑人动向提供有力线)技术难点与突破方向

  大数据本身是针对数据的存储、检索、关联、推导等有价值的挖掘,这些数据本身来说是通用的。但在公安领域,哪些数据是有用的,哪些是我们需要关心和提取的,这是目前在摸索的问题。也就是说,当前的困难在于如何让技术热点和相关业务进行结合,以提取更有价值的数据。

  第一个方面是如何从非结构化的数据中提取结构化的数据出来。所谓非结构化的数据是指在视频里面进行特征的提取,这些可能是人不能理解和不能处理的;结构化的数据则是人可以理解和处理的,比如在视频里有几个活动目标、是人还是车。如果是人,身上穿的是什么样的衣服;如果是车,车牌号是多少、什么样的品牌型号、颜色、行进速度、方向等数据,这些都是可以转化为结构化数据为人所用。目前,公安的数据很多涉及到视频数据,而视频数据本身是不能够被结构化的数据,也就不能被计算机直接所处理。所以未来摆在技术人员面前的课题是如何把视频数据转换成计算机能够处理的结构化或者半结构化数据。

  第二个方面是寻找这些数据之间的关联和价值。数据是有关联没关联之分的,我们只能通过工具来找。所有这些存储的特征数据,包括公安行业、平安城市中每天产生的海量视频数据,可以为很多案件的侦查提供有价值的线索。现在技术需要攻克的难题就是能不能把这些数据通过相应的工具模块,通过大数据技术把原来被忽视的数据信息关联起来,找到或提取这些数据之间的相关性,为案件的侦破和方案决策提供科学的数据依据。

  虽然地震仍然极难预测,但余震预测相对容易得多。每当地震发生,在一定的空间和时间内发生余震的可能性相对较高,犯罪数据就表现出了这种类似余震的模式,每当某个犯罪被实施时,就会在犯罪实施的空间和时间周围出现更多的犯罪行为。洛杉矶警方使用的大数据犯罪预测模型[15]由乔治·赫尔教授据此理论开发,他们将过去80年内的约1300万个犯罪数据输入至这个模型,利用庞大的数据集展现洛杉矶的犯罪热点所在,并预测可能发生犯罪行为的地区。

  在试点项目启动之初,警方曾犹豫是否要使用该程序,也怀疑一个数据模型是否比他们自身经验更能预防犯罪。在一次实验中,分配了一个约500平方英尺的区域,模型预测该区域在12小时内可能发生犯罪,在这12小时内,警察在该区域内增加巡逻频率,寻找犯罪活动或犯罪活动即将发生的证据,洛杉矶犯罪监控中心也同时进行实时监控,实时监控结果证实了模型的有效性。随着程序的应用,犯罪确实在减少,如今该模型正实时升级,同步更新犯罪数据,以提高大数据的预测准确性。目前该模型已可识别犯罪热点地区,并服务于警方的日常工作。

  纽约和圣地亚哥等城市利用大数据技术,通过分析数据可以查明犯罪可能发生的区域,警方也可以据此加强对这些区域的巡逻,并采取一系列措施来预防犯罪,如调整器材设施、改善街面路灯照明、增加视频监控等。这种方法的主要难点是,必须全面收集历史犯罪案件并利用历史犯罪数据,但这在很多区域却不具备这样的条件,因此需要建立一种风险等级模型,通过分析某一区域的周边环境和某类案件发生的可能条件,从而对犯罪发生进行预测。该模型通过对犯罪高风险区域,如黑暗街巷或步行较长的道路进行分析,为警方提供犯罪可能发生区域的信息,其在预防犯罪方面发挥着奇效,而且通过现有的数据可以提供警力部署方案,以更好地维护社会公共安全。

  底特律犯罪委员会由前FBI探员、密歇根州警察、底特律警察组成,主要打击密歇根州东南部的犯罪活动,该委员会的一个关键策略就是确定那些众所周知的从事危险犯罪活动的群体。因此,底特律犯罪委员会需要整合私有的、公共的与犯罪有关的数据来辅助调查,他们需要一个可以快速方便整合数据,进行信息分析并能够预测犯罪行为的解决方案。经过对大数据分析工具的分析研究,底特律犯罪委员会建设了自己的大数据分析系统,用来整合、分析、可视化大数据。该系统能够处理数据分析过程中所有的关键任务,可以从结构化和非结构化的数据源中快捷的提取大量的信息,支持快速分析和可视化结果展示,这样能够识别人与犯罪之间的关系,而这些关系以前通过简单的查看表格是看不到的。

  第一、以应用为导向。公安行业的大数据应用不是搞底层研发,是要解决实际问题,大数据在公安行业现实的应用场景到底有哪些,这是我们要好好思考的问题。结合目前的应用实践来看,规律总结、人物刻画、趋势预判这三个方向是可行的,这个分类可能不是很合理,可能有交叉的地方,但是这三个方面是具备实践条件的。

  第二、关于数据以及来源问题。这个问题非常关键,大数据没有可信的数据支撑,就会精确误导,如果只靠考核,靠搞大规模会战去搞数据,显然是不能满足大数据应用的需要的,目前我们具备大数据特征的数据有“人车物”动态轨迹、行为日志、音视频文件、传感器等数据。公安行业玩大数据,不能光靠自己的力量,要学会找到社会公众、包括其他单位部门的利益驱动点,发动大家来参与,围绕数据做文章,特别是学会跨领域使用数据。

  第三、关于智库的共建与共享。发动公众参与的过程中,大家都会产生一些创意,我们要把这些创意集中起来建库管理,要进行归类、分析、优化、整合,最终形成大数据应用的一个知识库(智库),这个知识库是开放式的,大家可以去共享,可以去评价,去推荐。

  第四、关于工具手段支撑。当前大数据应用要成功,肯定首先是“海量数据+简单算法”的成功,这是一个目前已经证实的可行套路。大数据应用在业务逻辑层面不必想得太复杂,更重要的是大数据的建模工具,其中重点包括数据资源组织与预处理、分布式计算、流式计算等内容;还有就是大数据模型的标准化,大数据的模型一定要做到可复制,可扩展,可移植,这样才有应用的生命力。

乐鱼在线
乐鱼在线 @ 版權歸所有 乐鱼在线