登陆注册
13518700000013

第13章 数据存储与数据挖掘(5)

6.统计分析方法

在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计(求大量数据中的最大值、最小值、总和、平均值等)、回归分析(用回归方程来表示变量间的数量关系)、相关分析(用相关系数来度量变量间的相关程度)、差异分析(从样本统计量的值得出差异来确定总体参数之间是否存在差异)等。

7.模糊集方法

即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上,提出了定性定量不确定性转换模型———云模型,并形成了云理论。

3.4.5数据挖掘中的关键技术

数据挖掘在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。

1.数据的抽取

数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。

2.数据的存储和管理

数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。

3.数据的展现

在数据展现方面主要的方式有查询、报表、可视化、统计输出、挖掘结果等。查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计输出:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘结果:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。

3.5数据挖掘与智慧城市

3.5.1智慧城市建设中数据挖掘的任务

数据挖掘技术的应用将会渗透到智慧城市的建设的多个方面和领域,为智慧政府、智慧交通、智慧教育、智慧社区等的发展提供重要的技术支持。在智慧城市的建设中,数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。

1.关联分析(Association Analysis)

关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。

2.聚类分析(Clustering)

聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。

3.分类(Classification)

分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。

4.预测(Predication)

预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。

5.时序模式(Time‐series Pattern)

时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。

6.偏差分析(Deviation)

在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

3.5.2数据挖掘在智慧城市的应用

数据挖掘应用范围比较广泛,在智慧城市建设中,将主要应用于金融、电信、证券、商业、市场营销、政府等部门。目前,CRM(客户关系管理)利用了可视化数据挖掘技术,已有许多很成功范例。数据挖掘成功的两个关键因素是:一个大且完整的数据仓库和一个可挖掘的定义、理解都明确的商务流程,如客户展望、保持,商业活动管理,等等。一些成功的应用案例包括:

1.制药公司

一家制药公司可以分析他最近的销售行动及其结果以改进高位值医师的目标市场,并决定哪些市场活动将在后续的几个月有最大的效果;数据需要包括竞争对手的市场活动,信息和当地医疗系统的信息一样;结果可以通过广域网分发到各销售队伍,它可以使地区代表从决策过程中关键属性的视点来检视这些建议;随着这一过程的进行,数据仓库的动态分析允许来自整个组织的最好的实践应用于特定的销售环境。

2.信用卡公司

一个信用卡公司可利用他的巨大的客户交易数据仓库来确定客户对新的信用卡中最感兴趣的产品;使用一个小型的测试邮件,就可以确定一个客户对新产品的亲和力属性。最近的研究已经表明,采用超常规的方法对指定目标的邮寄活动,可以节省20倍的费用。

3.运输公司

一家拥有很大的直销队伍的多样化的运输公司,可使用数据挖掘以确定其服务的最好模式,用数据挖掘来分析他自己的客户体验,还可以建立唯一的分段以确定高位值的预期。对诸如由Dun&;Bradstreet提供的那些一般商务数据使用这些分段可以产生一张按地区排列的优先列表。

4.货物包裹公司

一个大的消费者货物包裹公司可以利用数据挖掘来改进对零售商的销售流程。来自消费者组织、运输商以及竞争对手活动的数据,可以用于理解打上印记和仓储转移的原因。通过这些分析,制造商可选择能最好地运抵目标客户地区的运输商推荐策略。每一个这样的例子有一个共同的清晰的基础,他们利用在数据仓库里隐藏的关于客户笃信的知识,来减少费用并改善客户关系的价值。这些组织现在可以集中精力于最重要的客户和有前景的商务,并设计可以最好实现这些目标的市场策略。

同类推荐
  • 中国农产品对外贸易保护政策研究

    中国农产品对外贸易保护政策研究

    本书内容包括:经济全球化中的国际农产品贸易、发达国家农产品对外贸易保护政策及其实施、多边体系下国际农产品贸易保护政策的发展趋势、中国实施农产品对外贸易保护政策的现实基础等。
  • 刺桐梦华录

    刺桐梦华录

    本书分为“过程:中古闽南的经济周期”、“空间:闽南的区域系统”、“结构:闽南经济的交易成本分析”三部分,共11章。
  • 成渝经济区会展业发展研究

    成渝经济区会展业发展研究

    本书以区域经济一体化和产业关联理论为基础,从理论角度深入分析了会展业在调整产业结构、助推区域经济一体化发展方面的作用机理。同时,结合成渝经济区会展业发展环境,本书阐述了成渝经济区整体及各区县会展业发展概况,并对区域会展业发展趋势特征进行了初步总结。在此基础上,本书定量分析了成渝经济区会展业关联效应,并定性探讨了区域会展业在会展企业、活动、人才及管理等方面存在的瓶颈问题。
  • 中国利用FDI的经济效应及对经济安全影响的评价

    中国利用FDI的经济效应及对经济安全影响的评价

    本书内容包括:改革开放30年中国利用FDI的总体概述、FDI进入中国的影响因素分析、中国利用FDI引发的争议、FDI对中国经济增长影响的实证分析、FDI对中国对外贸易影响的实证分析、中国利用外资的对策与建议等。
  • 现代酒店经典管理制度1001例

    现代酒店经典管理制度1001例

    我国成功的加入WTO,既给我国酒店业的发展带来了前所未有的繁荣契机,同时也给我国原本存在局限发展的酒店业带来了空前的挑战。本书根据国际和国内酒店业发展过程中所积累的经验,尤其借鉴了邀请到的中外50位世界顶级酒店专家的成功管理经验,和对世界500强酒店企业进行的深入调查和研究,并对他们的管理经验进行了客观的分析和总结,把这些先进的经验和成功的方法,运用最佳的方案,最佳的管理策略总结和表现出来,从而形成了这套健全的现代酒店经典管理制度。
热门推荐
  • 乙肝自控自防自疗

    乙肝自控自防自疗

    本书是《家庭养生保健必备》系列丛书之一,此丛书对三十种常见癌症从病因、病症表现、实验室检查、药膳方精选、并发症以及辩证等方面进行了详细的讲解。让人们对癌症有正确详细的理解,从而使患病者能够摆正心态,走上健康之路。
  • 阴阳乱

    阴阳乱

    千秋一月,万里同明,梦里江山谁曾有?百年豪杰,一纸丹青,笔下风流曾记否?
  • 仙剑裂天

    仙剑裂天

    他身怀异宝,却生性柔弱;他天赋秉异,却为情所困;他杂念重生,却踏途修真;情感究竟是羁绊,还是道法之源?她天真烂漫,道法精深;她名门之后,闭月羞花;她玉壶冰心,涅火重生;仇恨究竟是魔障,还是剑心初觉?问情几许,仙剑裂天。
  • 念笙箫

    念笙箫

    身为女儿身,却有一夫人!夫人很娇弱,动不动就晕!本着好丈夫的形象,却躲不掉真命天子的到来……“相公,您怎可断袖?”“啊!相公您居然是女儿身!……”“夫人,莫晕,这是善意的谎言……”“柔儿,你什么时候把你家的白兰花丢弃再来寻我!……”一张薄纸,她的真命天子弃她与不顾,不过这没关系,丢了天子还有夫人!怎料,他竟然却扮作女子来做她妾……
  • 无限宠婚,萌妻认栽吧

    无限宠婚,萌妻认栽吧

    钱霏所有的甜蜜和烦恼,都是关于任安辰。她绞尽脑汁,千言百计要与这个冷峻的男人发生一点“瓜葛”。司湛,他的强势涉足,于她而言是一场飞来横祸。雨夜,他如一缕幽魂跟随而来,俊颜扭曲:“姓任的,我如果容我的女人怀了我的孩子跟你去私奔,他妈|的我就是天底下最大的软蛋!”他慢慢占据她心扉的时候,却狠决离开她。她捏紧拳头,一手遮天毁掉了我生活的人是你!在我一无所有的时候遗弃我的也是你!简直欺人太甚!我们之间没完!
  • 神偷寄兴—刀剑梅空设鸳鸯计

    神偷寄兴—刀剑梅空设鸳鸯计

    刀剑梅,他专门惩罚有钱有势,有武力的贪官。不知道他的来历,他成为朝廷最痛恨的罪犯,也是百姓们的希望。偶然的机会他与司徒夜剡的女儿婳袆相遇,并陷入爱情。9岁时的苍瞳凯目睹父亲被杀,失忆了,后来成为了玄炎彬的养子,被取名玄莞辰。偶然恢复了记忆,对亲生父亲的死开始怀疑,玄莞彬成为了江湖上有名的刀剑梅。而他与箜铭、婳袆、钰彤之间的爱、恨、情、仇,也将热烈展开。“有样东西,我必须要找到,在找到他之前我不会被抓。”玄莞彬“哪怕只是一次,请你把面纱揭开吧。”婳袆。“像人一样生活的路只有一条,那就是疯狂的抓住你,刀剑梅。”箜铭。“我知道你心里在想什么,之前的生活是多么的艰辛,现在开始我会保护你。”钰彤
  • 我是大尸兄

    我是大尸兄

    丧尸(Zombie)是一种不死生物。丧尸与僵尸有本质的不同,丧尸一般是由活人直接转化,而僵尸必须是由死人转化。丧尸移动缓慢,看到活人血肉时,速度极快。丧尸已知能力:听声辩位、无痛、第六感、水下行走、怪力、无限体力。一场突如其来的灾难过后,整个世界的变成了地狱。我,是大尸兄李毅然。一场突如其来的灾难,让我变成了一个丧尸。
  • 中华诗词精典

    中华诗词精典

    中国是一个诗词的国度。几千年来,古诗词以其简练的语言、和谐的音韵、绝妙的境界表现着各个时期如画的风景、多彩的生活、丰富的人生以及深刻的哲理。
  • 张良修仙录

    张良修仙录

    一代传奇神算谋士张良,在黄石公的指点之下,毅然决然的踏上了一条飘渺无常的修仙道路、、、乾坤笔下仙魔殇,宇内幻镜仙魔陨!仙魔两界吾为尊,浩瀚苍穹称主宰!......
  • 群仙之巅

    群仙之巅

    一位出身匪夷所思的少年,因无法修炼武功内力,阴差阳错的修炼了一本神秘秘籍,没想到这本秘籍竟然是一位修仙者为了炼制分身灵躯所创…他该如何化解被抹杀意识之危,并踏上修仙之途?开灵失败?那就继续炼体!看我手握时空之力,诛群仙,创纪元!