您现在的位置是:首页 >互联网 > 2021-01-05 11:28:01 来源:

Databricks简化了BI和ML的数据管理

导读 大数据公司Databricks Inc 希望帮助客户简化商业智能和机器学习操作的数据管理,以消除孤岛。为此,该公司今天宣布了一个新的 Databricks

大数据公司Databricks Inc.希望帮助客户简化商业智能和机器学习操作的数据管理,以消除孤岛。

为此,该公司今天宣布了一个新的“ Databricks Ingest”平台,该平台使客户可以将数据加载到单个存储库中,该存储库可用于BI和ML工作负载。

Databricks还宣布了一个新的数据集成网络,该网络由数据集成合作伙伴组成,包括Fivetran Inc.,QlikTech International AB,Infoworks.io Inc.,StreamSets Inc.和Syncsort Inc.,它们将提供与Databricks Ingest的内置集成以自动执行数据加载任务。

以前,公司被迫将其数据分为传统的结构化数据和非结构化的大数据,然后分别在BI和ML工作负载中使用它们。这种方法行之有效,但同时也会导致数据孤立,处理缓慢,并且往往以结果不完整而告终,Databricks说。结果,公司没有使数据的价值最大化,而这正是Databricks Ingest旨在解决的问题。

“这是向'Lakehouse范式'转变的众多推动因素之一,该计划希望将数据仓库的可靠性与数据湖的规模相结合,以支持各种用例,” Ali Ghodsi-Databricks的创始人兼首席执行官。

Ghodsi提到了Databricks的新概念“ Delta Lake” ,这是去年4月启动的一个开源项目,旨在提高企业数据湖的效率。

Ghodsi说:“为了使这种体系结构正常工作,需要轻松提取每种类型的数据。” “ Databricks Ingest是实现这一目标的重要一步。”

借助Databricks Ingest,客户将能够从一系列常用来源加载数据,包括Salesforce,SAP和Google Analytics等应用程序,Oracle,Cassandra和MySQL等数据库以及Amazon S3和Azure Data等文件存储服务湖泊存储。

合作伙伴网络很重要,因为这意味着公司可以确保将其数据连续加载到Delta Lake中,而无需设置和维护时间表的任何工作触发器。设置完成后,所有新数据都会在创建后立即自动拉入Delta Lake。

Constellation Research Inc.分析师Holger Mueller说:“企业需要更快地获取更多数据,他们需要能够将其传递到ML运行的地方。” “在此方面,Databricks的合作伙伴网络可能是一个很好的差异化因素。数据和ML的成功结合是企业加速发展的关键推动力,每个公司都必须实现这一目标,才能生存和发展。”