您现在的位置是:首页 >生活 > 2021-04-16 09:31:41 来源:

Google通过新的云功能加速客户数据处理

导读 Google正在通过即将推出的名为Cloud Dataflow Shuffle的功能,让云客户更快地处理数据以进行分析。它的设计目的是通过应用技术巨头内部开

Google正在通过即将推出的名为Cloud Dataflow Shuffle的功能,让云客户更快地处理数据以进行分析。它的设计目的是通过应用技术巨头内部开发的技术,使消费流和批量处理数据的速度比以前快5倍。

Google通过新的云功能加速客户数据处理

该功能专为Google的Cloud Dataflow服务而构建,该服务可帮助客户在将数据输入数据库,机器学习应用程序和其他系统之前对其进行处理。客户使用Apache Beam SDK编写的管道在Cloud Dataflow中设置处理任务,然后Google处理处理这些任务所需的计算资源的配置和扩展。

Cloud Dataflow Shuffle通过使用Google制造的系统来管理随机操作,从而对来自多个计算节点的数据进行排序,从而加速了这些管道。当这个推出时,客户将获得免费的优惠。所有这一切都是可能的,因为Google管理Cloud Dataflow服务,并且能够在必要和可能的时候交换新功能和组件。

该功能还可以帮助吸引和留住可能选择在其他地方运行Beam管道的客户。在Google创建SDK的同时,用户也可以在其他位置运行的Apache Flink,Spark,Apex和Gearpump集群上部署管道。

根据Google云平台团队的产品经理William Vambenepe的说法,Cloud Dataflow Shuffle的价值取决于Beam管道依赖于shuffle操作的程度。

“你的管道几乎没有任何洗牌,”他说。“如果不洗牌,只会有很多洗牌加速器。”

然而,他说,许多运行时间最长的管道需要大量使用随机操作。在这些情况下的客户将获得免费的速度提升。

谷歌知道一些关于洗牌操作的事情。该公司的工程师曾经在新建的谷歌数据中心内的服务器上运行了50PB(1PB即1,000TB)的洗牌,然后才上线进行测试。