欢迎来到Doc100.Net免费学习资源知识分享平台!
您的位置:首页 > 程序异常 >

数据仓库施行之三 使用ssis创建etl解决方案

更新时间: 2014-01-05 02:29:04 责任编辑: Author_N1

 

数据仓库实施之三 使用SSIS创建ETL解决方案

SSIS以及ETL介绍

ETL的选择

  • SSIS
  • 导入和导出工具
  • T-SQL
  • BCP实用工具
  • 复制

什么是SSIS

SSIS是SQLServer的一个组件,作为SQLServer最重要的ETL操作平台,包含了控制流引擎和数据流引擎。SSIS最小的但是是包(package),包可以单独部署。比包更大的是SSIS项目,一个项目可以包含多个包,项目可以部署到SSIS Catalog。SQLServer 2000版本的DTS包不能直接升级到package,SQLServer 2005 以及以后的版本都可以使用向导升级工具来生成新版本的包。

浏览源数据

为什么要浏览源数据

  • 理解业务数据
    • 业务数据需要展现的内容是什么
    • 怎样注释业务值和代码
    • 业务实体之间的关系
  • 检查源数据
    • 数据的数据类型以及长度
    • 数据的大小以及疏散程度
    • 数据质量问题

实施数据流

链接管理器(connection manager)

  • 能链接到一个数据源或者数据目标
    • 桥接器(ADO.NET,OLE DB,等)
    • 连接字符串
    • 验证
  • 项目级别或者是包的级别
    • 项目级别的管理器
      • 可以供项目内所有的对象使用
      • 在解决方案浏览器里面显示
    • 包级别的管理器
      • 供包内的对象使用
      • 只在包内显示

数据流

在大多数的SSIS包中,数据流都是最重要的环节。在数据流中,我们可以对数据进行转换,清洗以及加载。大致可以分为6类处理

  • 行的转换
  • 行组的转换
  • 分割和连接转换
  • 审计
  • 数据清洗
  • 自定义操作

优化数据流的效率

  • 优化查询
    • 仅查询需要的行和列
  • 避免不必要的排序
    • 尽量使用已排序的数据
    • 把IsSorted属性设置为可用
  • 配置控件属性
    • 缓存的大小
    • 临时文件储存
    • 并行
    • 优化模式

 

上一篇:上一篇
下一篇:下一篇

 

随机推荐程序问答结果

 

 

如对文章有任何疑问请提交到问题反馈,或者您对内容不满意,请您反馈给我们DOC100.NET论坛发贴求解。
DOC100.NET资源网,机器学习分类整理更新日期::2014-01-05 02:29:04
如需转载,请注明文章出处和来源网址:http://www.doc100.net/bugs/t/10344/
本文WWW.DOC100.NET DOC100.NET版权所有。