您现在的位置是:首页 >互联网 > 2020-12-30 14:00:50 来源:

Alluxio扩展虚拟文件系统以支持数十亿个文件

导读 用于数据科学和分析工作负载的虚拟分布式文件系统的制造商Alluxio Inc 周三发布了一个新版本,该版本扩展了其元数据服务,并实现了跨混合

用于数据科学和分析工作负载的虚拟分布式文件系统的制造商Alluxio Inc.周三发布了一个新版本,该版本扩展了其元数据服务,并实现了跨混合云和多云的统一管理。

用户现在可以使用数十亿个文件来管理名称空间,而无需使用第三方工具,而新的管理控制台可以更轻松地将分析集群连接到云中和本地的多个数据源。

该公司表示,Alluxio专门针对数据科学和分析用户,并已跻身前十大互联网公司中的七家。它的技术对数据进行抽象和虚拟化,以传送到流行的开源分析引擎,例如Apache Spark,Presto,Flink和Hive。它使用全局名称空间,缓存和内存中元数据来跟踪数据源的位置和数据更改,从而避免了复制的需要。

加州大学伯克利分校的一名研究生与人共同创建了该技术,他说,使用Alluxio可以使数据建模人员的生产力提高四倍。他说:“训练模型的成本从一百万美元到二十万美元不等,所需时间从一年到三个月不等。”

扩展的元数据服务使该产品远离其Hadoop根源,并改善了对云原生和基于容器的部署的支持。“我们从Hadoop世界开始,因此要求用户具有这种依赖性,” Li说。“现在它已被完全删除。”

管理中心提供了一种基于向导的方法,可跨多个位置连接数据源以及配置和监视Alluxio群集。这样就可以合并来自Hadoop HDFS,Amazon Web Services Inc.的S3和Google LLC的Cloud Storage等来源的数据。

为了减少采用的障碍,控制台还简化了配置和启动集群的过程,并改善了监视以降低运营成本。李说,Alluxio以前带有一个开源控制台,该控制台只有基本的监视功能,没有配置选项。

对Terraform(一种用于将基础结构作为代码进行管理的开源工具集)的新支持现在使通过单个命令以编程方式启动预先配置的群集变得更加容易。此版本还与Vault集成,以跨云和数据中心提供安全,集中的敏感信息管理。其他增强功能包括更简单的集群管理和对Java 11的支持。