当前位置:首考文秘网>范文大全 > 教学设计 > 刑侦数据仓库模型设计与数据挖掘技术应用

刑侦数据仓库模型设计与数据挖掘技术应用

时间:2023-06-09 09:00:06 教学设计 来源:网友投稿

摘 要:针对当前刑侦海量档案数据信息,首先在分析其数据跨平台、复杂化和多样性特点的基础上,设计了刑侦数据仓库的概念模型、逻辑模型和物理模型;接着针对刑侦数据仓库及数据挖掘技术,对已有的刑侦档案数据进行信息整合和数据挖掘,获取大量的有用知识,这些知识在促进刑侦研究工作的同时,对一线的实际刑侦工作具有很大的参考价值;最后,文章给出了面向刑侦档案数据信息的仓库模型,针对其数据挖掘系统框架提出了相应的数据挖掘方法,为进一步的刑侦数据信息联机分析处理和有用信息挖掘以及为公安安全防范决策服务。

关键词:刑侦数据仓库;模型设计;主题事实表;数据挖掘

中图分类号:TP311.1 文献标识码:B

Model Design and Application of Data Mining Based on the Data

Warehouse of Criminal Investigation

WANG Yunfeng1,NING Xiaoxi2

(1.Key Laboratory of Evidence of Science and Technology Research and Application,Institute of Public Security Technology,Gansu Institute of Political Science and Law,Lanzhou 730070,China;

2.Academic Research Division of Gansu Institute of Political Science and Law,Lanzhou 730070,China)

Abstract:Firstly the conceptual model,logic model and physical model of the data warehouse of criminal investigation are analysis and designed by characteristic of the data of criminal investigation;then according to the data warehouse and data mining technology,information integration and data mining on archives of criminal investigation which have been done,and plenty of useful knowledge is obtained,and which might have great value for criminal investigation study and on site work.Last system framework and data mining method based on the data warehouse of criminal investigation have been gave,which beneficial to online analytical processing,useful information mining and public security making.

Keywords:data warehouse of criminal investigation;model design;fact table of theme;data mining

1 引言(Introduction)

目前,随着社会政治、经济和科学技术的高速发展,现代犯罪行为表现出了速度化、智能化、高科技化的特点[1],国际上目前状况的安全信息化技术发展迅猛,公安信息化技术的发展使公安刑侦数据仓库模型设计成为刑侦数据仓库研究的核心问题之一,而与数据仓库技术发展相辅相成的数据挖掘技术,虽然在很多领域的研究取得了进展,但在我国公安刑侦工作的研究中尚处于初级阶段[2]。因此,面对我国目前的这种情况,将数据挖掘技术应用于刑侦工作,及时发现新的规则,以提高执法效率与快速反应能力、及时的预防与打击犯罪行为,成为公安工作中急需解决的问题[3]。但是公安工作具有其自身的规律和特殊性,当前在实际刑侦工作中针对公安刑侦数据仓库及其数据挖掘算法的应用较少,需要加大对其的研究工作,解决目前面临的诸多问题。本文首先针对公安刑侦数据信息复杂化多样性的特点,提出利用当前公安现有计算机信息系统资源及其网络,形成统一标准,将公安各类档案数据信息有机结合起来,构建具有统一标准,覆盖范围广泛,信息准确,反应迅速,各部门相互协调运行的跨地区、跨部门的信息交换和共享平台,形成用于公安刑侦的数据仓库操作平台;接着,针对数据挖掘技术在刑侦工作中存在的问题进行了分析研究,并在此基础上建立一个基于数据挖掘技术的刑侦档案信息整合及综合查询/查证和分析系统,帮助一线民警对跨地区、跨部门的刑侦档案数据进行检索和挖掘,从已有的刑侦档案数据信息中找出相关的犯罪线索及规律,为刑侦档案数据的信息处理提供科学依据,提高整个公安系统的整体协调能力和工作效率,有利于进一步的刑侦数据信息联机分析处理和有用信息挖掘以及为公安安全防范决策服务。

2 数据仓库与数据挖掘有关概念(Relevant concepts

on data warehouse and data mining)

我们知道,数据库是用于事务处理的,而数据仓库是由大量的相关数据集成而来的,是用于决策分析的。数据仓库将大量的数据库的数据按决策需求进行统一、综合和重新组织,然后以数据仓库的形式进行存储。目前,用于刑侦数据仓库涉及到的数据量极为庞大,并且根据案件的情节和后果,如何查明案件性质、作案过程以及案件反映当事人和社会等相关更深层次的问题,传统的数据库数据建模方法已经显得过于陈旧,无法适应当前现状。传统数据库那种面向事务型分析处理工作的数据建模方法显得力不存心,而数据仓库数据的建模是面向数据分析为决策提供服务的,它包含大量的历史数据、当前细节数据以及综合数据,因此,其采用多维数据模型的数据建模方法,完成对数据仓库中数据的建模和组织。数据挖掘是从大量数据中,根据某种算法及规则,提取出隐藏在数据中的有用及人们感兴趣的信息,为人们的正确决策提供服务。用数据库管理系统来存储数据,用机器学习方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据挖掘技术的产生[4,5]。

3 刑侦数据仓库模型设计(Model design on Data

warehouse of criminal investigation)

3.1 概念模型设计

3.1.1 确定主题域及其内容

面对目前刑侦数据信息的复杂化多样性,构建刑侦数据仓库需要对刑侦数据信息特点及对刑侦数据仓库进行具体的研究和分析,需要首先从目前刑侦档案数据的实际情况,将其从现场实际进行具体抽象,也就是将现实的决策分析环境抽象成一个概念数据模型的过程分析。然后,将此概念模型逻辑化[6]。通过分析及研究,刑侦数据仓库中的主题域定义如下,如图1所示。

图1 刑侦数据仓库主题域

Fig.1 Subject fields of data warehouse

(1)人员:指刑侦数据仓库中所有案件所涉及到的相关人员。

人员主题分析:在此处我们将人员分为数据仓库的所有全部人员和涉及到违法犯罪的有关人员。

(2)物证:指在现场侦查过程中,能够在依法情况下搜集到的各种客观存在的物品或痕迹,其外部特征、物质属性、所处位置以及状态能够证明案件事实情况。

物证主题分析:在侦查破案中,物证起着非常关键的作用,对案件的侦破速度、案件性质和相关结果往往能起到决定的作用。以物证为主题,能为查明案件事实提供线索和依据的同时,发现许多相关隐藏的潜在关系,对案件的串并、数据挖掘及刑侦研究提供支持和保障。

(3)案件:指刑侦业务数据库内所有涉及到的案件。

案件主题分析:案件主题分为未破案件和已破案件两类,在刑侦工作中案件的侦破是目的,数据仓库中以案件做主题进行数据组织,便于对案件进行特性分析统计及数据挖掘,可以完成逻辑模型向数据仓库模型转化,为数据仓库概念模型设计、逻辑模型设计和物理模型设计提供了可靠的设计方案。

(4)组织:指刑侦数据仓库中违反犯罪涉案人员所在的组织。

组织主题分析:组织主题分为团伙犯罪,同监舍关系和社会关系三种类型。组织主题发现许多相关隐藏的潜在关系,有利于案件的串并、数据挖掘及刑侦研究。

(5)地域主题:指有关案件发生的地域。

地域主题分析:地域主题有利于实际工作中犯罪的预防、现有警力的合理配置和领导的安全防范决策。因为不同的地域违法犯罪具有不同的特性,地域主题使地域性、区域性的犯罪特征和犯罪趋势等相关规则通过数据挖掘得以实现。

3.1.2 确定系统边界

对于当前刑侦数据仓库的模型设计,必须根据现实情况,在明确需求分析的情况下,首先要下大工夫实地考察调研等,确切刑侦案件办案的整个具体流程,通过流程显示系统所实现的功能,然后确定系统边界,如图2所示。

图2 刑侦案件办案流程

Fig.2 Criminal investigative processes

其次通过系统需求分析,明确系统相关业务部分的业务流程和功能需求情况,将刑侦案件办案流程中所需信息资源和整个案件的所有数据信息进行定义,进行数据的抽取、转换和装载,通过E-R模型来实现本刑侦数据仓库的概念模型。数据仓库为不同的用户随时提供各种辅助决策的随机查询、综合数据或趋势分析等信息,以数据仓库为基础,结合联机分析处理和数据挖掘为不同目的的决策提供支持。综合刑侦数据仓库数据的多维特性及联机分析处理,传统的数据流图描述已经不能满足需要,因此系统采用多维立方体模型来描述[7]。

3.2 逻辑模型设计

对于刑侦数据仓库的数据信息来说,针对其信息组织特点和概念模型的多维特性,一般采取星型模式来实现刑侦案件数据集市和刑侦案件数据仓库逻辑模型设计[8],如图3所示。

图3 刑侦数据仓库逻辑模型

Fig.3 Logic model of data warehouse

星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。在该模式中,中间是事实表,周围是维表。星型模型逻辑模型设计阶段,主要进行的工作是针对刑侦数据仓库的事实数据进行主题域分析、确定当前要装载的主题、粒度层次划分、关系模式、数据分割策略、定义记录系统等。通过确定决策分析需求,从需求中识别出事实,确定维表等,就可以用包含主题的事实表和多个维表来执行侦查、分析及安全防范等决策支持的相关查询。具体内容如下:

比如针对报警人、受害人及案件操作等的维表:

报警人信息维:报警人身份证号、报警人姓名、报警人性别、报警人电话号码、报警人年龄、报警人职业、报警人地址、报警人报警时间等。

受害人信息维:受害人唯一编号、受害人身份证号、受害人姓名、受害人性别、受害人电话号码、受害人年龄、受害人职业、受害人地址、受害人物品等。

案件操作历史维:操作权限、系统操作序号、案件编号、操作时间、操作记录、操作人编号或姓名等。

同理也可描述事实信息维表:

案件基本信息维:案件负责人编号、案件编号、报警人姓名、受害人编号、案件登记时间、案件操作号、案件操作记录等。

案件流程信息表:案件编号、案件当前状态、案件操作号、案件操作记录等。

针对完成的刑侦案件各部分概念结构模块,需要进一步分析各模块对刑侦数据仓库总体框架的匹配及功能服务,符合需求分析后就可以进行数据仓库的设计及实现,当然,也可以相对独立的开发其相关独立的或从属的数据集市。众所周知,就当前的绝大多数的刑侦数据仓库,其数据来源不一而足,有针对一个省或市的信息,也有来自不同的区域或部门的,更有来自不同平台或不同系统的。因此,要构建数据集市或数据仓库,首先要对这些数据进行统一的规格化处理,经过统一的格式对数据进行抽取、清洗、转换及装载等过程,才能构成数据集市;而相关独立的或从属的数据集市的完成,可升级到完整的刑侦数据仓库。

3.3 物理模型设计

从逻辑模型即星型模型到物理模型设计的转换完全遵循传统的数据库设计方法。针对刑侦数据仓库的数据,其物理模型设计需要确定一个最适合应用要求的物理结构,即估计存储容量、确定数据的存储计划、确定索引策略、确定数据存放位置及确定存储分配等。在星型模型中,不管是其综合事实表还是其维表,一般情况下都是转变为对应的物理数据库表进行存储,但由于刑侦数据仓库的综合事实表包含涉案案件的众多基本信息,其数据量庞大,而其维表虽然包含各方面的具体细节信息(如受害人信息),但其数据量相对来说不是很大,因此在物理模型设计过程中,完成前面描述有关内容外,还需要认真解决多维数据库管理系统对数据的访问的效率及灵活程度,所以要用多种数据挖掘方法对数据进行切片、分割、钻取和旋转等,以便动态地考察汇总数据和细节数据的关系,为安全防范决策提供技术支持。

目前,高速存储设备(如硬盘)已成为主要存储媒介,其存取速度不但与数据存放的位置有关,而且还与存储设备本身的存取速度有关。因此,对于刑侦数据仓库中其记录庞大的事实表,其涉案案件的基本数据信息按其多维性可以考虑分区存放,而反映其细节数据的各种维表,则可以比较集中的存放于相对独立的某个表空间。一般情况下还必须建立相关表的索引,但索引也是在消耗大量的磁盘空间的基础上,提高数据的读取速度,同时,索引也会带来数据更新速度降低的问题。因此不同系统物理模型设计应根据具体的硬件环境和决策需求合理地进行选择,在首先要保证数据仓库稳定性及有效满足仓库应用者需求的基础上,尽量减少有用信息获取时间,提高数据仓库的应用效率,为进一步的刑侦数据挖掘或相关决策指挥服务。综上所述,针对公安数据信息分布性共享的特点,刑侦数据仓库物理模型一般采取分布存储方式。

4 刑侦数据仓库的数据挖掘(Data mining on Data

warehouse of criminal investigation)

对于刑事案件信息数据仓库的数据挖掘,首先要明确数据挖掘的任务或目的,如要进行数据的分类、聚类、关联规则发现或序列模式发现等达到什么样的目的。目前,我们可以分别进行犯罪嫌疑人基本信息、作案规律特点有关信息、损失物品信息、现场痕迹物证信息等的数据挖掘,同时,如果与被盗抢机动车信息和CCIC(中国国家犯罪信息中心)连接的话,将可以进行更深层次的数据挖掘。有了确定的数据挖掘目的,才能针对其挖掘任务有选择性地决定使用什么样的挖掘算法才能达到更好的目的。比如对于犯罪嫌疑人信息的数据挖掘,我们可以对数据进行切片、分割、钻取和旋转等操作,进行作案规律特点库和现场痕迹物证库等的信息分析比对,实施相应的数据挖掘算法,获取有用的模式,为打击违反犯罪及公安安全防范提供决策服务。刑侦数据仓库的数据挖掘方法如图4所示。

图4 刑侦数据仓库的数据挖掘

Fig.4 Data mining on data warehouse

5 结论(Conclusion)

随着犯罪信息的数字化和网络化,在现代刑事侦查及公安工作中,利用数据仓库与数据挖掘技术进行侦查破案,运用系统科学优化数据仓库以及多层多目标交互式决策建立和优化数据仓库等,显得越来越重要;而将数据挖掘技术这门新兴科学有效地应用于刑侦工作不但是顺应潮流,而且是目前公安工作现实斗争的迫切需要。在我们实际的刑事侦查工作中,各地区一线的刑侦部门已经积累了大量的刑侦档案文件,这些数据通过刑侦数据仓库的模型设计,实施其跨平台的海量数据的信息整合和数据挖掘,然后就可以获取大量的有用知识,这些知识不仅对于刑侦研究还是对于一线的刑侦工作,具有非常深刻的科学理论意义和重要的实用价值。本文针对刑侦档案数据,对刑侦数据仓库模型设计和数据挖掘进行了初步的探讨,同时,面向刑侦数据仓库,给出了刑侦数据挖掘的系统框架及挖掘方法。我们将针对刑事侦查研究与实际工作中的一些实际问题,在未来的研究中,逐步完善试验平台,结合科学技术的发展,尝试给出不同的解决方案,进一步深入研究相关算法在实际中的应用。

参考文献(References)

[1] 李小青.论公安刑侦数据仓库建模[J].广州市公安管理干部学

院学报,2008,67(1):18-24.

[2] 黄维金,顾益军.刑侦档案文本挖掘系统平台中的文本精炼初

探[J].中国人民公安大学学报(自然科学版),2006,48(2):75-77.

[3] 张辉.数据挖掘技术及其在刑侦工作中的应用[J].信息技术与

信息化开发与应用,2005,4:111-113.

[4] 麦永浩.数据仓库和数据挖掘方法研究及其在公安信息建设

中的应用[D].华东理工大学博士学位论文.2000:102-105.

[5] 李敬社,张小木,黄泽贵.数据挖掘技术的方法和最新进展[J].

现代电子技术,2004,(6):54-56.

[6] 陈海燕.基于HIS的数据仓库的建设及数据挖掘[D].2004.6-10.

[7] 金光,等.基于数据挖掘决策树的犯罪风险预测模型[J].计算

机工程与应用,2003,2:112-114.

[8] 金光,等.数据挖掘技术在犯罪行为分析中的应用[J].宁波大

学学报(理工版),2002,15(3):56-58.

作者简介:

王云峰(1968-),男,工学博士,副教授.研究领域:公安技

术,模式识别,智能控制,信息安全.

宁晓希(1972-),男,工学硕士,讲师.研究领域:网络安

全,信息安全.

推荐访问:刑侦 数据仓库 模型 数据挖掘 设计

版权所有:首考文秘网 2015-2024 未经授权禁止复制或建立镜像[首考文秘网]所有资源完全免费共享

Powered by 首考文秘网 © All Rights Reserved.。备案号:冀ICP备15026071号-91