联系
我们
投稿
反馈
评论 返回
顶部

内容字号: 默认 大号超大号

段落设置: 段首缩进取消段首缩进

字体设置:切换到微软雅黑切换到宋体

星环科技创始人兼CTO孙元浩:现代数据仓库的技术演变和关键特性

2016-03-29 17:29 出处:互联网 人气: 评论(
璧山红岩网 丫环好狡猾 龙修天下 多力一锭醒 赵蓬洋 揭开尼斐塞特的秘密 咏弓下半句 冯月平 阿健与干妈 色品西游 www.caizi919.com 间桐樱淫虫

【CSDN现场报道】2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会 (Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。

2015中国大数据 技术大会首日全体会议中,星环科技创始人兼CTO孙元浩带来了名为“现代数据仓库的技术演变和关键特性”的主题演讲。期间,星环科技创始人兼CTO孙元浩首先介绍了传统数据仓库面临的问题: 数据量增长过快,导致运算效率下降;数据抽取处理的代价过高,无法在统一的视图下处理;无法处理多种类型的数据;不具备进行搜索或关联分析以发现隐藏关系的能力;不具备数据挖掘等高级分析的能力。随后,他详细介绍了新时代逻辑数据仓库需要具备的特性:数据、计算均分布化;需要具备对多种关系数据库和Hadoop数据源进行交叉查询、聚合、以及关联操作等能力;混合负载和多租户SLA管理能力。在多租户资源管理用例中,孙元浩指出2014到2015资源调度框架之争,Mesos和Kubernetes逐渐占据优势,YARN被边缘化。


星环科技创始人兼CTO 孙元浩

以下为演讲实录

今天非常高兴来到讲台上面。首先,一句话介绍一下星环科技。星环科技是一家专门做Hadoop发行版和基础软件的一家公司。目前在Hadoop之上的SQL引擎以及流处理引擎在技术上面已经远远领先于国外的同行,同时我们覆盖的行业也是最多。


下面我来介绍一下数据仓库的演变。十年前,MPP数据库诞生,它的目标是替换和革原来数据仓库技术的命,然而却一直未能成功,国外的MPP数据库厂商也已基本被收购。四年前,迈克·奥森宣布利用Hadoop进攻数据仓库市场,四年间虽在数据揭示上小有成就,但在整个数据仓库市场上并没有得到广泛应用。随着SQL-on-Hadoop技术的成熟,Hadoop技术已逐渐进入到数据仓库的领域。所以我们现在来具体看下什么是数据仓库。数据仓库有各式各样的表现形态,有的是一个数据库(或数据库管理系统),有的是一体机,如Teradata一体机,然而这只是它们的表象,实质上可能并不一定是一个数据库的形态。如左图,有人认为它是一个酒杯,有人认为它是两个人脸的侧面像,同理,只从表面看,很多人可能会以为数据仓库就是一个数据库,但是它本质上是一个集中化的数据平台,把所有数据都集中在一个平台上面,进行数据的加工、处理和挖掘。这使得现在Gartner把数据仓库慢慢改变名称,以前是数据仓库数据库管理系统魔力象限, 从2015年开始改成数据仓库和数据管理系统魔力象限,不再局限于数据库,这也意味着在数据仓库当中要引入一些新的技术,特别是像Hadoop技术来作为数据仓库。引入它的重要原因就在于传统的数据仓库已碰到些许瓶颈。

传统书籍仓库面临的问题

接着我们来看一下传统数据仓库的构成。企业客户会把数据分成内部数据和外部数据,内部数据通常分为两类,OLTP交易系统以及OLAP分析系统数据,他们会把这些数据全部集中起来,经过转换放到数据库当中,这些数据库通常是Teradata、Oracle、DB2数据库等。然后在这上面进行数据的加工,分三种角度,客户、利润以及内部风控,建立各种主题模型,再提供报表做进一步的数据挖掘,这就是传统的数据架构,但随着演变也渐渐发生了一些限制。

第一点,数据量的增加非常迅速,使得原来数据仓库或者数据系统的技术不能够有效的处理复杂的数据。比如有的客户数据量大概在十几TB左右,这就需要很长的时间才能完成,它需要一个更强大的技术来替代原来的数据仓库,来进行高效的数据处理,扩展原有的数据系统建立新的数据仓库,这是目前较为迫切的需求。

第二点,它的数据源非常多,过去建数据仓库是想要把所有的数据都统一到一个数据平台上面,但现在发现并不现实。通常一个稍微大型的企业内部会有几百个数据库,几乎无法统一。这种情况下就需要一个数据库的虚拟化,把所有的数据都统一到一个思路上进行分析,但在过去就没有这样的技术,同时把数据分析与批处理能力结合起来,这是第二个原因。

第三点,问题在于一直在增加的数据类型,不仅是结构化数据,也有非结构化数据,对于非结构化数据的处理、存储和分析是传统数据库所不具备的,所以企业要寻求新的方法来建造数据仓库。

第四点,过去的数据库技术并没有为搜索,为分析,为数据挖掘来设计更多能力。这方面现在刚开始出现这种趋势,特别是一些金融机构要做非常复杂的风控,过去都是使用规则引擎,现在他们更多的希望用新的方法来进行风险控制,这就需要全新的技术手段来解决这些问题。


正是上述四大问题使得传统数据架构发现巨大变化,这也是Gartner在几年前提出的逻辑数据仓库的概念。逻辑数据仓库大概包含六个部分。

第一部分,它需要有一个集中的存储,这个存储当中不仅是要有结构化数据,也要有非结构化数据。其中,大概20%为结构化数据,80%为非结构化数据,但在价值上,20%的结构化数据却拥有80%的价值,80%的非结构化数据拥有20%的价值。我们需要建造系统把所有数据都集中起来,能够进行分析,这就需要一个仓库把它存起来。

第二部分,它需要数据联邦或数据库虚拟化技术去便利访问现有的数据库。很难有一个数据库技术能够把所有的数据都集中起来,因为它不是技术原因,而是管理或者系统的问题导致的。很多系统虽然有大量的交易信息系统,在数据分析的过程中临时需要数据时,比如CRM系统数据,有能力直接访问原来的数据库系统,这是它的第二个特点。

第三部分,它需要采用分布式计算方法。由于目前数据量增加是逐级的,过去单机扩容的方法已无法完成,它的性能很难再扩展,所以需要全新的技术来进行高度的横向扩展,解决数据量大带来的问题。同时,他们注重数据的格式,很多文本数据可能在读的时候才能抓到它的情况,所以需要一种更加灵活的数据模型来定义。   

分享给小伙伴们:
本文标签:

更多文章

相关文章

评论

发表评论愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。

  • 蛮便宜
  • 抠门网
  • Copyright © 2002-2014 版权所有
    加入
    我们
    投稿
    反馈
    评论