欢迎来到Doc100.Net免费学习资源知识分享平台!
您的位置:首页 > 程序异常 >

数据仓库将来发展

更新时间: 2014-01-05 02:28:50 责任编辑: Author_N1

 

数据仓库未来发展
昨天无意中看到有人提出数据仓库正在吸收并采纳一些云计算有关的思路进行整合,各位大虾有研究么?可否分享下?多谢了!
--参考方法--
引用
2010数据仓库与BI趋势:云计算以及“数据云”

云计算和BI

  云计算已经成熟,正迅速与新时代的参与者如亚马逊、谷歌和Salesfore.com一起向更多既定的IT供应商进军。为了不被淘汰,Kognitio正在通过英国的服务供应商2e2来大力提升数据仓库,以此作为一项服务(DAAS)。术语之间的战争仍在进行。GreenPlum公司吹捧它在福克斯互动媒体(FIM)的企业数据云(EDC)仓库平台,称其有高度分布式数据仓库,巩固了点击流处理和社交分析网络(例如MySpace)。就其本身而言,Aster Data Systems公司利用谷歌的MapReduce功能和Gartner公司对它的评论,使其“前线数据仓库”成为品牌产品,因此提供了可信度和赞赏的声音。

  数据云

  在一个完全独立的领域,数据云将对医疗保健和公共领域产生重大的意义。国家卫生信息网络(NHIN)主要依赖于由付款人、供应商和管理人员构成的健康信息交换的关键路径。这是一个重要的用例,其数据高度分散、计算密集,并且在关键路径上建立电子医疗记录(EMR)和医疗保健分析以支持业绩进行评定。不过,云基础设施最终将作为企业之间重要的功能区分。

  数据仓库的提示和建议:不要混淆了工具与加速器。工具可取代数据集市或数据仓库;加速器被安装在现有的系统上,它是不会消失的。后者获得了SAP的商业仓库系统的后端缓存频繁执行的资源密集型的查询牵引。Oracle RAC似乎也受益于加速器的倾向。

  基于列的数据库几乎可以自负盈亏。根据该方案。因为基于列的数据库在本质上缩减了保存数据的所需要的空间大小,因此组织可以大大节省存储开销。这可在应用先前的压缩算法之前发生。需要注意的是,由于您的具体情况可能会有所不同,所以还是需要引起注意。此外,几乎没有企业会让他们的络网中心处于一种辐射型结构。不过,从性价比的上涨幅度上可以看出一些供应商(例如,ParAccel2009年6月21日基准[www.tpc.org])向工具方面和标准关系型数据仓库方面发展。

  如果你正在考虑用一个数据仓库工具执行已经准备好了的估价。如果你的公司只有有限的技术经验(或者没有),就得做好充分的准备工作。说出关于公司使用新新技术的能力的真实情况。新技术往往产生新的角色和职责。性能创新能够使业务处理流程有新的进展。该技术集成,人员和流程需要计划,或者获取和安装“货架软件”的风险成为现实。这适用于与任何新技术相结合。

  该中心辐射型架构仍然是最灵活的。数据集成的一般原则是通过减少系统接口的数量来尽量减少成本,以支持和维护。点对点是最没有效率的。在这种情况下,基于列的分析型数据库和工具将成为整个网络的节点,而不是中心,这在企业数据仓库在标准关系数据库方面仍然是至关重要的。

  通过相同的数据集市处理程序来管理基于列的型数据库和数据仓库工具。尽管分析型数据库(例如ParAccel)提供了高可用性的功能,因为分析应用程序始终具有至关重要的使命,服务水平协定仍然没有严格执行你的业务的交易系统。

  各个击破。处理大量数据,经过验证的可扩展性的路径在于通过并行处理-每一个多线程服务器都有一个自己的存储器与高性能网络连接,这就好像作为一个单一系统呈现给最终用户。其他创新是在数据存储器地址空间里达到了较大的数据缓存。他们将减少或消除磁盘的写入与输出,还有异步事务,但事务处理对存储区域网络进行严格地写入操作。

  云计算和相关的“数据云”适合分布式数据和分布式企业。创业和那些喜欢研究样机的人也将受益于云模型。云计算把软件看作是一种服务(SAAS),网格计算和虚拟化达到了一个新水平,提取支持计算资源的零售的整个数据中心所实现的接口。在许多情况下,这是不恰当的。最终,数据云将在跨部门、分散式的企业内部变得至关重要。


引用
面向列的数据库

  面向列的分析型数据库正在引起轰动。简明扼要地说,面向列的数据库将行分解成多个数据元素,并且储存的数据库元素对应于所有的行。由于许多商业事业数据含有冗余,这种分解的方法本质减少了存储量----甚至比压缩算法更好。然而,此数据接口仍然是标准的SQL,且数据库模型是公开的,不要求用户管理指示器或外边的导航。这给一些产品注入了新的推动力,如SybaseIQ、Sand Nucleus、Vertica和Alterian,也包括如BMMSoft的组件,特别值得一说的是,BMMSoft的层元数据和功能性都在SybaseIQ之上。还有,一新后起之秀如ParAccel和InfoBright正在分别为面向列的并行处理和元数据的数据挖掘可能性进行重新定义。

  数据仓库设备

  数据仓库设备市场发展势头依然强劲。Dataupia,GreenPlum公司和Netezza公司提供的产品进一步缩减份额,同时考虑标准的关系型数据库。现在,追赶上最新的数据库机产品和相关架构是一项专门的工作。而甲骨文顺利收购Sun之后将使其获得能够应用到其关系数据库中完整的技术方案,并使其“设备化”。

--参考方法--
GreenPlum打造新一代数据仓库和云平台
近日,GreenPlum公司推出了最新的GreenPlum Database 4.0数据库和首个商用企业数据库云端运算平台GreenPlum Chorus。GreenPlum的数据库仓库产品采用了MPP(Massively Parallel Processing)并行处理的架构,数据库引擎是基于软件的引擎,不依赖一些专有硬件平台,同各种硬件和操作系统平台有很强的兼容性,可以很轻易地使用10G的以太网络、SSD存储还有虚拟化技术来服务于数据分析。同时该架构具有很强的伸缩性,支持从几个TB的数据到几个PB(1PB=1000TB)的数据。

MPP中所使用的MapReduce是一种新的处理技术或者说是一种新的处理的框架,是谷歌发明的一种主要用于文本的分析检索功能,使用这种技术,只需要增加节点就可以线性地提高系统的存储容量和处理能力。Luke Lonergan说,为了充分发挥MapReduce这种特性,在GreenPlum数据库系统中提供相应的API可供不同的编程语言调用。

除此之外,新产品在工作负载管理、自我恢复容错和数据分析方面有了重大的突破。工作负载管理就是既要保证工作负载的全部完成,又要保证处理的优先级。Luke Lonergan说,工作负载管理利用资源队列管理实现按用户组的进行资源分配,比如: 保证公司的高层管理人员早晨一到办公室就能够拿到数据,同时保证其他被分配的任务全部顺利完成,而且还有防止低质量的SQL对系统资源消耗的管理。

在数据分析方面,GreenPlum Database 4.0增加了更快的单行操作(选取、更新、插入和删除)等的优化,加强了深度分析功能,引入新的分析方法。更为突出的是,是对在混合工作环境下的服务级别协议和请求的优化,Luke Lonergan说,当前越来越多的客户在做数据分析处理的同时,也在做在线交易的处理,即OLTP(在线事务处理)和OLAP(在线分析处理)同时进行,GreenPlum数据库能够进行不同的分类和重新导向以便有效地加速交易处理的速度。

对于云端数据库平台Chorus,Luke Lonergan说,Chorus是一个具有数据库能力虚拟化的云平台,企业用户可通过GreenPlum的数据库和Chorus,建设强大的企业级的数据“云”系统: Chorus包括了三个主要的功能,自助服务供应、数据库实例(DataBase Instance)、数据集市管理。
上一篇:上一篇
下一篇:下一篇

 

随机推荐程序问答结果

 

 

如对文章有任何疑问请提交到问题反馈,或者您对内容不满意,请您反馈给我们DOC100.NET论坛发贴求解。
DOC100.NET资源网,机器学习分类整理更新日期::2014-01-05 02:28:50
如需转载,请注明文章出处和来源网址:http://www.doc100.net/bugs/t/10295/
本文WWW.DOC100.NET DOC100.NET版权所有。