您的位置: 首页 >泉州新闻 > 科技 >

Alluxio发布统一的数据目录和转换服务

2020-03-25 17:36:50 来源:

Alluxiooffers是一个数据编排层,基于开放源码的内存文件系统技术的同名。去年7月,我报道了当时的新版本Alluxio 2.0,并详细介绍了平台的功能。今天,Alluxio发布了它的2.2版本(企业版和社区版),其中包含了一些非常有趣的数据管理新功能。

Alluxio已经做到的是通过一个可通过文件系统API(应用程序编程接口)寻址的内存缓存,在不同的数据库和存储之间提供对数据的统一访问。虽然这种统一的数据访问是打破数据竖井的好方法,但它回避了如何打破其他竖井的问题,比如每个远程平台的元数据库。虽然内存缓存是提高性能的好方法,但它也引出了一个问题:如何优化数据的物理存储(特别是针对计算),甚至在将数据加载到缓存之前。Alluxio 2.2的结构化数据服务(SDS)解决了这两个问题。

Alluxio首席执行官Steven Mih在电话简报中向ZDNet详细说明了新功能。Mih解释说,虽然统一筒仓数据很好,但是每个统一的平台可能都有自己的元数据管理层。例如,Apache Hive有自己的metabase,这也是presto和Spark SQL都利用的。与此同时,Amazon Web services (AWS)上的各种数据和分析服务可能会转而使用AWS Glue的数据目录。如果Alluxio打算为这些环境提供一个统一的数据访问层,那么它难道不应该统一配置数据库吗?SDS在Alluxio 2.2中的目录服务就做到了这一点。

使用数据湖的另一个方面是:它们管理数据物理存储的方式对于快速性能来说可能不是最优的。首先,很多数据以CSV格式存储(简单的文本文件,数据行由逗号分隔),对这些文件的访问可能很慢。此外,对于csv格式的数据以及以更易于分析的格式(如Apache Parquet)存储的数据,单个数据集可能存储在许多小文件的集合上。SDS的转换服务解决了这两个问题。

目录服务提供了一个由Alluxio协调的远程平台中的底层转移集的统一视图。因此,开发人员只有一个接口和API来查询他们要查询的数据集的模式。转换服务提供了一个Coalesce子服务,用于将多个小文件合并成单个大文件;将CSV数据转换为拼花格式的格式转换子服务;以及用于对特定键上的数据进行排序的排序服务,从而以类似于数据库中的索引的方式加速访问和简化聚合。

实际上,传统数据库的比喻很好地描述了使用SDS的Alluxio给数据湖世界带来的东西。虽然湖泊主要基于对象存储系统中的物理文件,为经济存储进行了优化,但SDS提供了一个具有合并、排序表和正式模式的接口,为计算和查询性能进行了优化。从本质上说,Alluxio提供了一种结构化数据抽象,它覆盖了数据湖的非结构化世界,这使得结构化数据服务的名称非常合适。

除了Catalog服务和Transformation服务之外,SDS还为Presto提供了一个新的连接器,允许该SQL引擎充分利用Alluxio提供的统一访问层。最重要的是,我在这里讨论的功能将于今天发布,而不仅仅是宣布:Alluxio 2.2社区版和企业版(每个版本都包含SDS)一般都可以在今天下载。

精彩推荐

图文推荐

点击排行

Copyright 泉州广播网 All Rights Reserved 版权所有 复制必究 联系QQ:127 3992 928  

所刊载内容之知识产权为界限网络及/或相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。