点击这里给金令牌猎头顾问发消息
 金令牌首页 金令牌猎头 十佳职业经理人评选 最佳雇主评选 加入俱乐部 《职业经理人周刊》 会员区   薪酬调查报告登录  
Rss订阅
《职业经理人周刊》 猎头公司
职业经理人俱乐部首页 >> 经理人资讯 >> 技术研发 >> 今日视点 >> 正文

数据湖正在成为新的数据仓库


  《职业经理人周刊》   猎头班长v微博   微信:AirPnP   2020/6/4
猎头职位搜索
猎头|自助猎头
兼职|推荐人才

时过境迁,曾经如日中天的数据仓库现在怎么样了?是大势不减还是已经奄奄一息、苟延残喘?如果你对这个问题感到困惑,那也是情有可原的。一方面,数据仓库的发展势头强劲。作为一个行业的长期观察者,我目睹了这个行业不断涌现的创新活动。这种趋势是从 10 年前“Applicance Form Factor”成为数据仓库主流开始。几年前,随着市场转向新一代的云数据仓库,这种势头进一步获得了新的动力。

著名猎头机构推荐金领职位
金令牌搜索企业 职位 经理人 专访 社区 会员
军工仪器研发制造--电子工程师/项目经理30-50万北京
电网侧储能初创公司-全钒液流储能-收购德国技术团队--CEO150-200万 北京 深圳
央企背景-全钒液流电池电堆设计高级工程师(全钒液流储能)40-70万河北 深圳
新药/仿制药-研发系统-制剂部负责人CSO 60-70万北京 成都 江苏
光电通信芯片-INP光芯片设计资深专家80-150万深圳 青岛
语音操作系统产品经理(人工智能) 40-70万北京 天津
香港AI机器人-研发项目经理-图像处理/计算机视觉/机器学习算法60-100万香港 海外
中国著名航空材料公司-冶金(金相)专家 150-300万北京 西安

数据仓库黯然失色

另一方面,数据仓库的市场份额被其他技术蚕食,比如大数据、机器学习和人工智能。这种趋势给我们造成了一种印象,即数据仓库在企业 IT 中的优先级地位正在下降。但实际上,大多数企业现在仍然至少需要一个(甚至多个)数据仓库来为下游的应用程序提供服务。

数据仓库是企业的核心工作负载,这也就是为什么几年前我就开始思考为什么数据仓库离“死”还很遥远。或许,这也解释了为什么其他观察者认为他们必须重新定义数据仓库的概念,让它能够在数据湖和云计算时代继续存在下去。

实际上,数据仓库不仅在蓬勃发展,而且被认为是云计算时代的一个核心的增长前沿。如果你的眼球只盯着像 Snowflake ,可能会错过很多东西。

数据湖的崛起

人们所说的“数据湖”正在迅速演变成为下一代数据仓库。数据湖是指一种包含多结构数据的系统或仓库,这些数据按照各自的格式和模式进行保存,比如大对象、文件等。

数据湖通常被作为整个企业的存储中心,包括原数据系统的原始数据和转化过的用于报表、可视化、分析和机器学习的数据。它们包含了分布式文件或对象存储、机器学习模型库、高度并行化处理集群和存储资源。数据库不强制使用通用的 schema 和语义,而是在读取数据时使用 schema 和统计模型来抽取有意义的模式。

所有这些都不违背 Inmon 和 Kimball 有关数据仓库的核心概念。从根本上说,数据仓库的存在是为了聚合、保留和管理“单一版本的事实来源”数据。这个概念与使用数据的特定应用程序或用例无关

下一代数据仓库

在过去的一年里,行业里出现的一些东西表明数据仓库的角色已经发生了转变。尽管决策支持仍然是大多数数据仓库的核心应用场景,但我们也看到了决策自动化正在发生稳步的转变。换句话说,数据仓库现在正在为构建基于数据驱动的推理的机器学习应用程序提供支持。

新一代数据仓库实际上就是数据湖,其首要设计目标是用来管理用于构建和训练机器学习模型的数据。例如,在去年秋季的亚马逊 发布了 AWS Lake Formation个服务旨在简化和加快数据湖的构建过程。AWS Lake Formation 具备云数据仓库的所有特征,尽管 AWS 没有把它叫做数据仓库。

AWS Lake Formation 的行为看起来很像是数据仓库。事实上,AWS 对它的描述很容易让我们将其与数据仓库做对比:“数据湖是一个集中式的安全数据库,它存储所有数据,包括原始数据和转换过的数据。数据湖可以帮你打破数据孤岛,将不同类型的分析结合起来,从中获得洞见和更好的商业决策指导。

事实上,AWS 将 AWS Lake Formation 描述为一种用于决策支持和人工智能决策自动化的超级数据仓库。AWS 还特别强调,该服务旨在管理数据,“然后用户就可以选择他们的分析和机器学习服务,如 Amazon EMR for Spark、Amazon Redshift、Amazon Athena、Amazon SageMaker 和 Amazon QuickSight”。

值得一提的是,Databricks 最近发布了 Delta Lake 开源项目。Delta Lake 的目标与 AWS Lake Formation 类似:聚合、清理和管理数据湖中的数据集,以便更好地为机器学习提供支持。

Delta Lake 位于数据中心或云平台的数据存储平台之上,比如 HDFS、Amazon S3 或微软 Azure 大对象存储,这些数据存储都可以被 Spark 访问。Delta Lake 使用 Parquet 格式来存储数据,Databricks 将其称为“事务存储层”。Parquet 是一种开源的列式存储格式,Hadoop 生态系统中的每一个项目都支持这种格式,不管使用的是哪一种处理框架。它通过乐观并发序列化、快照隔离、数据版本、回滚和强制 schema 来支持 ACID 事务。

Delta Lake 和 AWS Lake Formation 之间的一个关键区别是 Delta Lake 可以支持批次数据和流式数据。另外,Delta Lake 支持 ACID 事务,可以支持数百个应用程序的并发写入和读取。开发者还可以访问早期版本的数据湖,进行审计和回滚,或者重现 MLFlow 机器学习的结果。

从广泛的层面来看,Delta Lake 似乎要与已经被广泛采用的 Hive 展开竞争。Hive 极度依赖基于 HDFS 的存储,而且直到最近才开始支持 ACID 事务。一年前,Hive 3 将 ACID 事务支持带到了基于 Hadoop 的数据仓库上。Hive 3 可以为 CRUD 操作提供原子性和快照隔离。

基于人工智能驱动的决策自动化基石

行业最近发布的这些东西——AWS Lake Formation、Delta Lake 和 Hive 3——预示着数据湖将成为所有决策支持和决策自动化应用程序和所有事务数据应用程序的治理中心。要加快这种趋势,Hive 3 和 Delta Lake 等开源项目需要进一步吸引供应商和用户的眼球。

“数据仓库”一词的定义可能会发生变化,主要指用于管理商业智能多结构数据的数据存储。不过,底层的数据平台会继续演化,为基于云的人工智能管道提供数据管理基础。

人工智能,而不是商业智能,正在推动着企业数据仓库的演变。

(来源:百度 百家)


我们尊重原创者版权,除非我们确实无法确认作者以外,我们都会注明作者和来源。在此向原创者表示感谢。本网转载文章完全是为了内部学习、研究之非商业目的,若是涉及版权等问题,烦请联系 service@execunet.cn 或致电 010-85885475 删除,谢谢!

发表评论:
主题:
内容:
匿名发表 验证码: 登录名: 密码:   个人 企业
发帖须知:
一、请遵守中华人民共和国有关法律法规、《全国人大常委会关于维护互联网安全的决定》《互联网新闻信息服务管理规定》
二、请注意语言文明,尊重网络道德,并承担一切因您的行为而直接或间接引起的法律责任。
三、管理员有权保留或删除其管辖留言中的任意内容。
四、您在本站发表的言论,本站有权在网站内转载或引用。
五、发表本评论即表明您已经阅读并接受上述条款。
金令牌猎头
企业找猎头   职业经理人找猎头
CTO相关资讯
更多>> 
CTO焦点企业对话
更多>> 
CTO相关猎头职位
更多>> 
十大猎头公司推荐金领职位
关于我们 | 招聘猎头 | 猎头 | 自助猎头 | 悬赏招聘 | 十佳职业经理人评选 | 年度最佳雇主评选 | 会员登录 | 企业 | 职位 | 设为主页
联系我们 | 法律声明 | 搜索 | 猎头招聘 | 猎头公司 | 《职业经理人周刊》 | 职业经理人俱乐部 | 沙龙活动 | 资讯 | 刊例 | 收藏本站
Copyright® 版权所有  猎头服务热线:010-85885475 E-MAIL:club@execunet.cn
京ICP备05025905号-1   京公网安备 110105001605号
点击这里给金令牌猎头顾问发消息 猎头顾问