拥有多年互联网和银行系统性能测试开发经验,对性能瓶颈诊断定位和优化领域有较多研究。
重回互联网行业,性能测试开发、自动化测试开发、Java开发
BI商务智能解决方案及讲解
上一篇 /
下一篇 2012-07-26 14:23:53
/ 个人分类:银行软件系统产品管理和研发
一个典型的BI系统介绍
商业智能系统应具有的主要功能:
读取数据——可读取多种格式(如Excel、Access、以Tab分割的txt和固定长的txt等)的文件,同时可读取关系型数据库(对应ODBC)中的数据。
分析功能——关联/限定关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。
数据输出功能——打印统计列表和图表画面等,可将统计分析好的数据输出给其他的应用程序使用,或者以HTML格式保存。
定型处理——所需要的输出被显示出来时,进行定型登录,可以自动生成定型处理按钮。以后,只需按此按钮,即使很复杂的操作,也都可以将所要的列表、视图和图表显示出来。
以国外的一个BI系统为例,我们来介绍一个BI系统的主要功能,这个系统主要包含数据仓库管理器(Warehouse Manager)、数据复制(Data Propagator)、多维数据库(OLAP Server)、前台分析工具(Wired for OLAP)以及数据挖掘(Intelligent Miner)、On Demand。
数据仓库管理器(Warehouse Manager)
它主要由以下几部分功能组成:数据访问,数据转换,数据分布,数据存储,靠描述性数据查找和理解数据,显示、分析和发掘数据,数据转换过程的自动化及其管理。它缩短了复杂的海量数据与有洞察力的商务决策之间的差距,有助于公司更进一步了解其业务、市场、竞争对手和客户。
数据复制(Data Propagator)
Data Propagator提供的复制功能允许从一个数据源读取数据并把它送到另外一个地方,而且可以是双向的。当发生冲突时,可自动检测出来并进行补偿。此外,它还有以下特色:
1)Pull Architecture Through Staging Tables(分级表牵引式体系结构):二个组成部分---- Capture和Apply。Capture部分在源数据库服务器上运行,它捕获要被复制的数据,并把数据放入服务器分级表中;Apply部分在目标机上运行。在用户定义的时间间隔里或某个事件发生后,它连到源数据库中,并从分级表中抽取所需的数据。这种被动的“牵引式”体系结构减少了数据源的额外开销,能够支持数据源及目标机的独立运作性以及新一代流动计算机作为目标机的数据复制。这种体系结构还支持中介分级表,其中最初的源可以复制到区域目标中,然后再复制到各区域内的目标机上。
(2)支持更新和修正:既支持更新也支持修正复制。Apply可以完全替换目标数据或者仅仅修正上次复制以来所发生的改变。
(3)改变事务运行记录的Capture:捕获数据修改。它从数据库运行日志(LOG)中读出修改,从而抓取用于复制的数据修改,进而安排好这些数据。这就减少了对源的额外开销,不需要另外处理如触发器。甚至可以直接从内存中读运行记录,以减少I/O。
(4)加工数据:数据首先要从运行记录移到分级表,所以能在复制之前加工或处理它;由于分级表是数据库表,使用标准SQL就能定义加工处理功能。除了通过SQL来构造子集,汇总并连结表以外,分级表还能提供基于时间分析源数据改变的方法。这要考虑到整个新一类的应用包括检查跟踪,历史分析,"asof"查询等等。
( 5)GUI管理机构:通过图形用户界面可以定义和管理数据拷贝,定义代码和触发器没有专门语言。这样最终用户就有权定义和管理,而不仅仅是DBA和程序员的范围。
多维数据库服务器(OLAPServer)
该工具在商务智能中扮演着重要角色,可以深入最终用户的业务,对桌面上的数据进行实时操作,能够快速地分布传统监视和报告范围之外的应用程序数据。
数据挖掘工具(IntelligentMiner)
当用户的数据积累到一定数量时,这些数据的某些潜在联系、分类、推导结果和待发现价值隐藏在其中,该工具帮助客户发现这些有价值的数据。
Wired for OLAP
使用该功能可以提高信息技术组织的效率。信息技术人员可以让用户利用分析和报表的功能获得他们所需的信息,而不会失去对信息、数据完整性、系统性能和系统安全的控制。
(1)强大功能的报表
繁忙的信息技术部门可以在几分钟内创建用于在企业中分发的完善的报表。,决策人员可以从该Web页面上找到可用的一系列报表。
(2)图形化分析
远远超出对数据的静态图形化视图,提供强壮的图形化OLAP分析。决策人员可以根据需要排序、分组数据并改变“图表”(Chart)的类型(直方图、饼形图、线图、堆积图)。图表中的元素可以被“钻取”到其他的细节层次,并可以返回来恢复一个概要性的视图。
(3)多种图表视图:直方图、线图、组合图、饼形图、堆积图和离散点图
(4)可在任何地方“钻取”没有路径的预先定义
(5)完善的报表:复合报表通过用各种不同的形式(交叉表、图表、表格或以上几种形式的组合)来表现分析结果,对工作进行概括;优美格式的商用报表。
(6)交互式的、立即的“所见即所得”(WYSIWYG)显示
OnDemand
该工具提供给客户一套高性能的解决方案来进行在线捕获、存储和重取计算机输出的文档。它使得落后的纸张文件搜索和使用缩微胶片阅读器搜索称为历史。有了OnDemand,客户可以立刻发现特定的信息并且很容易地浏览它,而不用在庞大的数据和纸张中苦苦寻找;存储、重取和分发企业产生的信息比以前更加方便和易于接受。
泰康人寿以BI实现战略转型
泰康人寿保险公司从建立之初,就意识到信息化建设对企业发展的重要性。为促进业务的开展,泰康人寿已经建立有多个业务信息系统,主要包含:财务系统、个险系统、团险和银行险系统,呼叫中心以及用于开展电子商务的泰康在线交易系统。这些系统从企业不同需求层面很好的支持了泰康人寿的业务运营。但由于各个系统都有自己的数据,如何将分散在不同系统的客户数据集中起来有效使用,为各部门提供数据分析能力,为决策提供依据,成为目前需要解决的问题。 为此,泰康人寿希望建立一套以CRM为核心的商务智能系统(BI),使公司管理人员能够对与客户(现有客户以及潜在客户)有关的各种要素(需要、方式、机遇、风险、代价等)和企业运营当中各项关键指标(KPI)做出分析与评估,以便于为本企业赢得最大的回报。
泰康人寿商务智能项目最终选择了Sybase寿险行业IWS解决方案,并以此为基础整合原有的五大业务系统,实施九项业务分析主题。
在实施方法上,泰康保险采用了增量式开发,也就是整体设计、分布实施的策略,这可以使泰康人寿能够边实施边见效,并且使用过程中的反馈信息将有助于下一步的开发工作,因此极大地提高了开发的效率。BI项目分成两个主要阶段:第一阶段,完成BI项目的一个或二个分析主题。第二阶段,以第一阶段建立的分析环境为原型,进行更进一步的需求调研,完善和明确BI项目的业务需求,全面地进行IWS的客户化工作。
商务职能系统能够使泰康人寿在成本、收入和战略方面获益。
成本方面:借助商务智能系统,泰康人寿可以得到完整的视图,来分析成本构成,改变成本管理现状,降低业务运作成本。通过CRM系统提供的各项分析数据,泰康人寿能在商业活动中,以更低的风险,做出最明智的决策。
收入方面:通过对营销员和营销机构产能的分析、利润的分析,可以大大改进泰康人寿在营销过程中的效率,加速产品上市时间,获得更精确更全面的市场和客户信息,实现与合作伙伴之间更好的合作,提高团队效率,保证将重要客户信息提供给需要方而提升交叉销售业绩。
战略方面:借助商务智能平台,泰康能对不断变化的市场环境、客户需求做出更快的反应。从历史数据中选择不同的角度考察消费行为,评估客户价值,细分客户群;针对不同的客户群发掘消费特点,建立数据模型,对不同的客户群做出预测;估计对收益或利润的影响,对市场活动的效果进行预测,通过设置商业规则,进行复杂的市场划分;最终帮助泰康实现从以产品为中心的战略,转换到以客户为中心的战略。
Session1:医院智能分析业务与需求
Session2:解决方案技术框架与Demo效果;
Session3:关键技术和实现;
ETL-如何确定起始来源数据
How is the system-of-record determined?
如何确定起始来源数据?
答:
这个问题的关键是理解什么是System-of-Record。System-of-Record和数据仓库领域内的其他很多概念一样,不同的人对它有不同的定义。在Kimball的体系中,System-of-Record是指最初产生数据的地方,即数据的起始来源。在较大的企业内,数据会被冗余的保存在不同的地方,在数据的迁移过程中,会出现修改、清洗等操作,导致与数据的起始来源产生不同。
起始来源数据对数据仓库的建立有着非常重要的作用,尤其是对产生一致性维度来说。我们从起始来源数据的越下游开始建立数据仓库,我们遇到垃圾数据的风险就会越大。
ETL架构师面试题(中文)
ETL架构师面试题(中文)
本部分的题目来自Kimball的ETL Toolkit著作,原著未直接给出答案。这里的中文题目和答案是我参考其原著按自己的理解整理而来的,仅供参考。对于其中不确切的地方,欢迎大家一起沟通。有兴趣的朋友可以直接阅读原著。
-----答案持续更新中,点击题目可见答案。
分析
1.什么是逻辑数据映射?它对ETL项目组的作用是什么?
2.在数据仓库项目中,数据探索阶段的主要目的是什么?
3.如何确定起始来源数据?
架构
4.在ETL过程中四个基本的过程分别是什么?
5.在数据准备区中允许使用的数据结构有哪些?各有什么优缺点?
6.简述ETL过程中哪个步骤应该出于安全的考虑将数据写到磁盘上?
抽取
7.简述异构数据源中的数据抽取技术。
8.从ERP源系统中抽取数据最好的方法是什么?
9.简述直接连接数据库和使用ODBC连接数据库进行通讯的优缺点。
10.简述出三种变化数据捕获技术及其优缺点。
数据质量
11.数据质量检查的四大类是什么?为每类提供一种实现技术。
12.简述应该在ETL的哪个步骤来实现概况分析?
13.ETL项目中的数据质量部分核心的交付物有那些?
14.如何来量化数据仓库中的数据质量?
建立映射
15.什么是代理键?简述代理键替换管道如何工作。
16.为什么在ETL的过程中需要对日期进行特殊处理?
17.简述对一致性维度的三种基本的交付步骤。
18.简述三种基本事实表,并说明ETL的过程中如何处理它们。
19.简述桥接表是如何将维度表和事实表进行关联的?
20.迟到的数据对事实表和维度表有什么影响?怎样来处理这个问题?
元数据
21.举例说明各种ETL过程中的元数据&
收藏
举报
TAG:
cocayang
Java性能、DB、 MiddleWare、Solaris and Linux 、网络瓶性能颈诊断定位、优化领域有多年实施经验
标题搜索
日历
|
日 |
一 |
二 |
三 |
四 |
五 |
六 |
| 1 | 2 | 3 | 4 | 5 | 6 |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | | | | |
数据统计
- 访问量: 101531
- 日志数: 485
- 书签数: 1
- 建立时间: 2008-02-26
- 更新时间: 2016-04-13