猿人部落 › 主页 › 资讯 › 查看内容

数据湖正在成为新的数据仓库

2019-7-26 17:51 发布者: 晚起的虫子1 评论 0 查看 986

像公有云数据湖和 Delta Lake 如许的平台指出了一个中心数据枢纽的趋势，用来支持决议和AI驱动的主动化决议。数据堆栈是否再次到场这股海潮呢，大概会渐渐死亡？假如你不清楚这个题目的答案也很正常。数据堆栈在

像公有云数据湖和 Delta Lake 如许的平台指出了一个中心数据枢纽的趋势，用来支持决议和AI驱动的主动化决议。

数据堆栈是否再次到场这股海潮呢，大概会渐渐死亡？

假如你不清楚这个题目的答案也很正常。数据堆栈在一方面如今仍处于热门阶段。笔者作为一个长期的行业观察者，看到了在不绝创新和创业活动海潮下行业的快速发展。

这种趋势根本上始于十年前尺度装备进入数据堆栈主流，然后随着市场向新一代云数仓转移渐渐得到了新动力。在已往几年中，一个云数仓供应商（Snowflake）在市场上得到了非常多的支持。

数据堆栈的衰落

但在另一方面，数据堆栈也不绝被行业中的新事物所打击，比方大数据、呆板学习和人工智能。这种趋势造成了数据堆栈在企业IT优先级降落的印象，但究竟上大多数构造至少有一个大概多个数据堆栈服务于各种卑鄙应用步伐。

数据堆栈不停作为企业焦点工作服务，是几年前我以为数据堆栈远未死亡的缘故原由，这也大概表明了为什么其他观察者以为他们必须重新界说数据堆栈的概念，以使其在数据湖和云盘算期间保持干系性。

数据堆栈作为一种实践，不但发达发展，而且如今已被视为云盘算行业的紧张焦点增长。但是，假如你只是关注以此数据堆栈标签进入市场的那些平台（比方Snowflake），你也将错过这个范畴大部门的动作。

数据湖的鼓起

很多人以为“数据湖”正在灵敏发展成为下一代数据堆栈。对于那些不熟悉这个概念的人来说，数据湖是多布局数据的体系或存储库，它们以原始格式和模式存储，通常作为对象“blob”或文件存储。

数据湖通常用作全部企业数据的单个存储，包罗源体系数据的原始副本和用于天生陈诉，可视化，数据分析和呆板学习等任务的转换数据。它们包罗分布式文件或对象存储，呆板学习模子库以及高度并行化的处理处罚和存储资源集群。而且，数据库通常在读取时利用模式，并利用统计模子从中提取故意义的干系性和模式，而不是对它们存储的对象欺凌实行通用模式和语义。

这些都与Inmon和Kimball焦点概念差异等，这些概念为大多数专业职员的数据堆栈方法提供了信息。从根本上说，一个数据堆栈紧张用来聚合，保存和管理官方承认的“单一版本的真实”数据记载。此概念与所管理数据的特定应用步伐域以及利用它的特定用例无关。

假如你猜疑我在谁人分数上说的话，请看看Bill Inmon对数据堆栈的界说以及Inmon和Ralph Kimball框架的比力。数据堆栈通常都是关于数据驱动的决议支持，这使得它可以很好地扩展到AI驱动的推理的新天下。

下一代数据堆栈

在已往的一年中，一些备受瞩目标行业公告标记着数据堆栈脚色的变化。只管决议支持（也称为贸易智能，陈诉和在线分析处理处罚）仍旧是大多数数据堆栈的焦点用例，但我们看到了其向决议主动化的稳步变化。换句话说，数据堆栈如今正支持着数据科学管道，为数据驱动的推理构建了呆板学习应用步伐。

新一代数据堆栈现实上是数据湖，对那些用于构建和练习呆板学习模子的洗濯，整合和验证的数据举行管理。比方，客岁秋日在Amazon re：Invent 大会上，亚马逊网络服务公布了AWS Lake Formation。这种新的托管服务的明白目标是简化和加速安全数据湖的设置。然而，AWS Lake Formation 拥有云数据堆栈的全部特点，只管AWS并没有如许称呼它，现实上已经提供了一个面向决议支持应用步伐的经典数据堆栈。

AWS Lake Formation的架构和功能类似于数据堆栈。现实上，AWS以这种方式来形貌它：“数据湖是一个会集的，策划的和安全的存储库，它以原始情势存储全部数据并为分析做好准备。通过数据湖，您可以分解数据孤岛并组合差异范例的分析，以获贸易洞察力并引导更好的业务决议。“

另一个例子是 Databricks 近来公布的 Delta Lake开源项目。 Delta Lake的明白目标（如今可以在Apache 2.0答应下利用）类似于AWS Lake格式：通过对数据湖中维护的数据集的聚合，洗濯，管理和管理，以支持呆板学习。

Delta Lake 位于现有的内部摆设或云数据存储平台之上，可以从Apache Spark访问，比方HDFS，Amazon S3或Microsoft Azure blob存储。 Delta Lake将数据存储在Parquet中，以提供Databricks所称的“事件存储层”.Parquet是一种开源的列式存储格式，无论数据处理处罚框架的选择怎样，都可用于Hadoop生态体系中的任何项目。它通过乐观并发可串行化，快照隔离，数据版本控制，回滚和模式实行来支持ACID事件。

Delta Lake和AWS Lake Formation之间的一个关键区别是 Delta Lake 处理处罚该管道中的批量和流数据。另一个是Delta Lake支持全部数据的ACID事件，答应数百个应用步伐同时举行多次写入和读取。别的，开发职员可以访问每个Delta Lake的早期版本，以举行审计，回滚或重现其MLFlow呆板学习实行的结果。

在最广泛的层面上，Delta Lake似乎与利用最广泛的开源数据堆栈项目 Apache Hive 竞争，只管 Hive 完全依赖基于 HDFS 的存储，而且直到近来才管理对ACID生意业务的支持。Hive 3一年前被公布终于为基于Hadoop的数据堆栈提供ACID支持。 Hive 3利用delta文件为事件CRUD（创建读取更新删除）表提供利用的原子性和快照隔离。