商务智能复习
什么是商务智能
- 商务智能完成数据到信息的转变,将不同系统的数据汇聚成一个单一且可获取的数据源(数据仓库),向客户提供工具包对数据仓库中的数据进行分析并可视化展示
- 商务智能通过访问、钻研、分析和挖掘数据获取启发和了解,(改善数据访问),从而提供更完善、更全面考虑的决策支持(提供决策支持)
事务处理环境不适宜分析型应用的原因
- 事务处理和分析处理的性能特性不同
- 事务处理每次操作时间短,数据量小,频率高,并发度大
- 分析处理每次运行时间长,数据量大,频率低,没有并发要求
- 数据集成问题
- 分析处理的数据源广泛,事务处理只关注业务相关的细节数据
- 数据集成中会遇到“蜘蛛网”问题,数据不一致性问题,缺少外部数据等
- 分散而复杂的数据会造成重复计算,降低分析处理效率,也加重程序员负担
- 数据的动态集成问题
- 用于决策的数据必须动态集成,事务处理环境不支持
- 历史数据问题
- 分析处理更看重历史数据,事务处理只需要当前数据
- 事务处理环境无法保留所有历史数据记录
- 数据的综合问题
- 事务处理系统含有大量细节数据,不具备对数据进行综合的能力
- 数据的访问问题
- 事务处理需要提供多种数据访问操作,需要实时更新
- 分析处理以读操作为主,不需要实时更新,需要定期刷新
什么是数据仓库
- 数据仓库就是一个面向主题的、集成的、非易失的、时变的数据集合,用于支持经营管理过程中的决策制定
- 面向主题:数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息
- 集成的:数据仓库的数据必须从多个数据源中获取
- 非易失的:数据仓库的数据与操作性数据环境隔离
- 时变的:数据仓库中的数据通常都带有时间属性,必须以一定时间段为单位进行统一更新
数据刷新的方法
- 时间戳:数据库中的记录有时间属性时可使用
- DELTA 文件:使用基于 OLTP 数据库的操作型应用程序在工作过程中形成的 DELTA 文件,效率高
- 建立映象文件:比较数据库快照,占用大量系统资源
- 日志文件:使用 OLTP 数据库的日志信息,效率更高
ETL 技术是什么,在数据仓库架构中完成了什么任务
- 数据的抽取/转换/装载技术
- 将各种数据源中的数据经过处理后集成到数据仓库中
什么是数据仓库的粒度,为什么使用多重粒度
- 对数据仓库中数据的综合程度的一个度量
- 使用多重粒度,应对不同级别的粒度要求
- 大粒度数据:快速存储设备,提高性能
- 小粒度数据:低速存储设备,满足细节查询
数据仓库有哪些数据组织形式
- 简单堆积文件
- 轮转综合文件
- 简化直接文件
- 连续文件
为什么要建立数据集市,如何建立数据集市
全局性数据仓库往往太大,在实际应用中将它们按部门或个人分别建立反映各个子主题与区域的局部性数据组织,即数据集市
数据集市的数据来源于数据仓库,专门用以满足特定商务单元、商务程序、或商务应用的需求
自顶向下的结构
- 建立数据集市能够减轻 DW 访问负载
- 各部门可以任意处理数据
- 数据转换和整合在 DW 阶段统一完成
- 具备数据缓冲功能
- 成本高、见效慢、数据集市间不共享资源
自底向上的结构
- 见效快、启动资金少
- 各个部门都要进行数据清理整合
- 可能造成“蜘蛛网”、数据不一致等问题
- 并且总体上没有节约资金
总线结构的数据集市
- 共享维表和事实表,解决了建立数据集市的许多问题
- 这种结构基于多维模型,应用限制于OLAP
- 多个数据源直接影响多个集市,造成数据仓库结构不十分稳定
企业级数据集市结构
- 略
如何提高 ROLAP 中的处理效率
- 采用物化视图方式
- 采用特殊的索引与集簇方式,以加速星型模式内表的连接速度
- 尽量采用并行操作方式
- 采用 OLAP 中的查询优化技术,如共享排序技术等
- 采用增量技术,在 OLAP 数据更新时保留不变的数据,仅更改变动的数据以加快数据更新速度
数据仓库物理模型设计的优化技术
- 合并表
- 建立数据序列
- 引入冗余
- 表的物理分割
- 生成导出数据
- 建立广义索引
数据仓库设计的原则
- 面向主题原则
- 从用户决策的主观需求(主题)开始
- 以主题为起始点,进行相关数据的设计,最终建立起一个面向主题的分析型环境
- 数据驱动原则
- 从已有的数据库系统出发
- 按照分析领域对数据及数据间的联系重新考察
- 利用数据模型有效识别原有数据库中的数据和数据仓库中主题的数据的“共同性”
- 原型法设计原则
- 从构建系统的基本框架着手,不断丰富与完善整个系统
- 数据仓库系统的开发是一个经过不断循环、反馈而使系统不断增长与完善的过程