摘 要
随着数据库技术在税务系统应用的不断深入,潍坊市国税局积累了大量的税务管理信息。如何能够实现对这些信息的深层次分析利用,是潍坊市国税局一直关注的问题。OLAM(OLAP Mining),联机分析挖掘,是一种将OLAP技术和数据挖掘结合起来,集中了数据仓库、OLAP和数据挖掘技术的优势的技术,它使得挖掘能够在用户的指挥下,在数据库或数据仓库的不同部分,在不同抽象层次上进行。这种技术对解决税务机关的数据分析利用问题提供了很好的解决途径,本文就此作了初步的研究。
关联规则分析是联机分析挖掘研究的一个重要内容,其目的是找出给定的数据集中项之间的有意义的联系。关联规则挖掘最经典的算法是Apriori,适合于在事物数据库中挖掘单维、布尔型关联规则。如何实现多层多维关联规则的挖掘是近年来研究比较多的一个问题,本文提出了一个在关系数据库中挖掘多维关联的基本算法multidimerule和一个基于约束的多层和多维关联规则挖掘算法taxrule。算法taxrule引入了用户交互的概念,通过设定属性列表和元规则,由用户参与关联规则的分析挖掘过程。同时,利用元规则的约束,只分析用户感兴趣的规则,使算法的针对性加强,效率得到了提高。
联机分析挖掘的应用是一个复杂的系统工程,实施这样一个工程需要花费很多的时间、人力和财力。本文提出了一个基于OLAM技术的税收分析与决策支持平台的基本框架,用于指导税务系统联机分析挖掘项目的开发。这个框架包括税收业务源数据层、分析数据存储层、联机分析挖掘层和用户交互层四个层次。税收业务源数据层是指各单位现有的数据资源,通过数据的ETL操作后,将所需数据放入数据仓库,即分析数据存储层。通过分析数据存储层的建立和使用,对数据进行分析分析挖掘,最后利用用户交互层展现分析挖掘的结果。
关键词:联机分析挖掘、关联规则、算法、税务管理信息
ABSTRACT
With the application of database technologies,an enormous amount of data about taxation management is stored at WeiFang National Taxtation Bureau.More and more taxcollectors pay their respect to analyse this collected data and mining interesting knowledge from it. OLAM(OLAP Mining) is a mechanism which integrates on-line analytical processing with data mining so that the quality and efficiency of mining can be improved. In this paper,we discuss how OLAP mining should be applicated in taxation management.
Association rules mining is one of the important functions of data mining,which discovers a set of interesting association from relevant set(s) of data in a database. Algorithm Apriori is the most famous methed for mining single-dimensional and Boolen association rules from transaction databases.The problem is how to mine multi-dimensional and multi-level association rules from relational databases.In this paper,an algorithm based on meta-rule constraint of multi-dimensional and multi-level association rules,taxrule,is introduced.It’s efficientment is realized by the ‘instruct’from user such as attribution list, meta-rule and so on.
The works of applicating OLAP mining technology is so complex that a great deal of time,money and manpower will be spended,then,a platform of taxation analysis and mining is introduced in this paper to direct the process of OLAP mining works.On this platform,there are four levels:(1)tax source data,(2)data store,(3)LOAM engine and (4)users interface.The analyse needed data is loaded into data warehouse from tax source data by ETL orperations according rules.With the help of OLAM engine,users can analyse and mine easily.At last,the result of OLAP mining will be shown to users by some tools.
Key-words:OLAP mining association rules algorithm taxation management data
目录
摘 要 1
ABSTRACT 2
第一章 绪论 6
1.1 论文选题的来源和意义 6
1.2 OLAM技术的发展与研究现状 7
1.3 论文研究内容及组织 10
第二章 多层和多维关联规则挖掘 11
2.1 引言 11
2.2 关联规则的形式描述[3] 12
2.3 关联规则的分类 13
2.4 关联规则挖掘 14
2.4.1 核心算法Apriori[4,5,14,15,16] 14
2.4.2 基于OLAM技术的多维关联规则挖掘 18
2.4.3 基于约束的多层和多维关联规则挖掘 29
第三章 OLAM技术在税务领域的应用 34
3.1 体系结构 34
3.2 税收业务源数据层 35
3.3 分析数据存储层 35
3.3.1 数据仓库平台选型 36
3.3.2 确定分析挖掘内容 36
3.3.3 模式设计 37
3.3.4 数据获取 38
3.4 联机分析挖掘层 47
3.5 用户交互层 54
第四章 全文总结 57
4.1 论文内容总结 57
4.2 下一步的工作 58
参考文献 60
致 谢 63
第一章 绪论
1.1 论文选题的来源和意义
潍坊市国税系统从八十年代中期开始探索计算机技术的应用,经历了用PC机填开税票、在局域网上建立小型税务管理信息系统,到今天的基于大型关系数据库和广域网的税务管理信息系统。经过近二十年的不断探索,特别是从2001年开通了金税工程、启用了中国税收征管信息管理系统(CTAIS,China Taxation Administration Information System)以来,潍坊市国税局积累了大量的原始数据,其中包括增值税专用发票、纳税人档案、申报征收数据、专用税票、税收会计统计报表、重点税源监控数据和各类税收调查资料数据等,这些数据已经成为税务管理和税务决策的宝贵资源。但由于这些数据是基于多种平台(如DOS、UNIX、Windows等),具有不同结构(如Oracle、Sybase、SQLserver等)的;由于业务的变化、OLTP系统的升级和更新换代,使得数据具有多种存储形式,表达方式不统一;由于数据分散,管理者和决策者很难以一个统一的视图来获得整个国税局的全局信息,而且存在数据缺损和不完整的问题,从不同角度和口径得到的统计结果可能出现不一致,很难为决策支持提供可靠的依据。如何充分地利用这些数据资源,从中及时发现有用的知识,提高信息的利用率,已经成为税务系统计算机应用的一个新课题。OLAM技术的不断发展和成熟,为解决这一问题提供了有效的手段和方法。

您当前的位置:
