您的位置: 首页 >泉州新闻 > 科技 >

Alluxio 2.0旨在统一分散的数据生态系统

2020-03-25 17:38:36 来源:

Alluxio是一家数据编配层基于开源内存文件系统项目Tachyon的公司,它上周在纽约市的AWS峰会上发布了其产品的2.0版本。Alluxio 2.0提供了很酷的东西,包括与Amazon Web服务的弹性MapReduce (EMR)服务的集成。这篇文章介绍了这些新的2.0特性,以及Alluxio有趣的基础。跳过下面的“新,在v2”部分,了解新闻,首先是概念方面的内容。

现代的开放源码数据栈是一个分散的、松散联合的开放源码项目集合,与一些商业产品配对。一个可能难以忽视的事实是,这种现象导致了一个包含大量数据筒仓的堆栈。更大的挑战是,使用云对象存储进行分析和数据湖的增长势头减慢了速度。将数据缓存在内存中可能有所帮助,但它不是万能药,因为每个计算框架都倾向于以自己的方式这样做,这只会加剧筒仓问题。

另一方面,大多数数据框架都知道如何访问文件系统,包括Hadoop分布式文件系统(HDFS)、Amazon Simple Storage Service (S3)、Azure Blob/数据湖存储(WASB/ADLS)和云中的谷歌云存储(GCS)。因此,实现通过公共文件系统api访问的内存缓存似乎是统一分散的生态系统的好方法,以一种加速数据访问并允许在框架之间共享数据的方式(这就是数据湖结构的全部内容)。

这就是速子/冲流项目的用武之地。这个项目是在UC Berkely的AMPLab孵化的,这个组织孵化了现在的Apache Spark。Haoyuan (H.Y.)当时还是博士的李是这个项目的发起人,他创立了Alluxio(最初的速子连接),目前担任首席技术官。Crunchbase的数据显示,该公司已经通过两轮融资获得了1600万美元的资金,最近一次是在2019年1月获得850万美元的B轮融资。

您可以将Alluxio看作内存缓存,它在社区和企业版本中都可用。数据虚拟化网关将是另一个恰当的分类。您也可以将Alluxio看作一个文件系统——它与以CSV和Parquet等文件格式存储的独立数据集的数据湖结构相一致。对于有关系数据库背景的人,Alluxio说可以把它看作RDBMS缓冲池的继承者。不管您怎么想,它都支持HDFS、S3、POSIX和Java文件系统接口,为客户端(包括Spark、Presto和Hive)进行了优化。

通常,数据源使用Alluxio作为数据上的内存文件系统缓存抽象,加速数据访问性能并简化到数据本身的连接。虽然Alluxio可以以独立的方式获得和实现,但现在也可以以OEM的形式获得。上个月,Alluxio宣布,该产品现在可以从Starburst获得,并与该公司的商业Presto分发系统集成,这样Alluxio和Presto工作节点就可以同时定位,从而优化数据位置,提高整体性能。

Alluxio的版本2已经发布到通用可用性(GA),它支持一系列特定于aws的集成。首先,该产品可以以Amazon机器映像(AMI)的形式进行评估和部署。这是一种很好的入门方式,但更好的是,Alluxio可以部署到EMR集群中。这是通过EMR引导操作完成的,允许在EMR集群首次提供时在其上安装Alluxio。

在特定的供应商生态系统之外,Alluxio现在已经将基于rest的服务添加到其支持的数据源列表中。当与该产品对Tensorflow深度学习框架的支持相结合时,这将产生有趣的AI实现,包括在Kaggle(谷歌拥有的数据科学站点)和data.gov(美国政府的开放数据门户)等网站上的数据上构建模型。

V2还添加了策略驱动的特性来支持数据分层,允许“热”、“热”和“冷”数据分别驻留在内存、固态硬盘(SSD)介质或旋转硬盘(HDD)基础设施中。虽然这对于本地工作非常好,但是v2还添加了一个数据服务,它可以促进数据在不同的公共云存储层之间的移动。

其他特性,包括集群分区、自适应复制和称为嵌入式日志的高可用性模式,以及用于分层元数据存储的RocksDB和用于集群内部通信的gRPC的集成,使2.0版本更加完善。

当超光速粒子出现时,在内存中建立一个文件系统似乎是一个很酷的想法,而且通常很有用。在当时,它的明显效用主要是一种直觉判断。但是随着数据湖在公共云之间的移动,以及数据计算框架和查询引擎的不断扩展,对Alluxio的需求似乎更加具体了。

是的,开源和初创数据世界已经交付了创新技术,以应对现有企业数据仓库和BI平台的霸权。但是在这样做的过程中,它忽略了这些单供应商平台所提供的集成和优化的价值。其结果是数据筒仓的荒谬扩散。值得庆幸的是,包括Alluxio在内的一些参与者正试图解决和减轻现代数据堆栈的复杂性。我们早就摒弃了脱钩的纯粹主义概念——一切都是前进的方向。像Alluxio这样的平台试图让我们找回被业界愚蠢地忽视和拒绝的凝聚力。

精彩推荐

图文推荐

点击排行

Copyright 泉州广播网 All Rights Reserved 版权所有 复制必究 联系QQ:127 3992 928  

所刊载内容之知识产权为界限网络及/或相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。