您现在的位置是:首页 >互联网 > 2021-01-19 13:53:55 来源:

Databricks平台更新可加快AI和机器学习工作量

导读 大数据分析公司Databricks Inc 加强了对人工智能工作负载的关注,今天宣布对其Unified Analytics Platform进行重大更新,该更新应有助于

大数据分析公司Databricks Inc.加强了对人工智能工作负载的关注,今天宣布对其Unified Analytics Platform进行重大更新,该更新应有助于解锁为这些工作负载提供动力并简化机器学习流程所需的孤立数据。

Databricks表示,它已经发现了一些导致组织无法成功利用AI技术进行创新的主要问题。

Databricks联合创始人兼首席执行官Ali Ghodsi(如图)在接受SiliconANGLE采访时说:“我们正处于机器学习革命的风口浪尖,并且看到越来越多的公司开始进行项目。” 他说,结果是,他们需要工具来简化大规模的机器学习,而不必雇用非常稀少和昂贵的数据科学家。

Ghodsi说,问题在于企业被迫使用大量未连接的工具来实现这一目标。但是,不同的工具会同时造成组织和技术孤岛,从而导致摩擦,从而减慢了AI项目的进度。

Enterprise Strategy Group Inc.高级分析师Mike Leone说:“组织被告知要利用AI,机器学习和深度学习,但是目前该领域的复杂性从未如此高。”为满足每个特定用例的通用工具包和框架,对简化现有功能的需求不断增长。对于那些刚刚开始采用或在采用过程中处于早期阶段的组织而言,这尤其重要。”

该公司表示,训练机器学习算法的主要问题之一是开发过程仍然是临时的,几乎没有可用的工具来再现结果,跟踪实验和管理模型。为了解决这个问题,Databricks引入了一个新的机器学习工具包,称为“ MLflow”,该工具包旨在帮助公司更好地打包机器学习代码,执行和测试它,并最终将其部署到生产中。

Databricks首席技术专家Matei Zaharia说:“没有用于机器学习的工具包,这迫使组织将关键解决方案拼凑在一起,并确保高度专业化的技能来实现AI。” “ MLflow是一个统一的工具包,用于以可重复的方式开发机器学习应用程序,同时可以灵活地跨多个云环境可靠地在生产中进行部署。”

Ghodsi说,Zaharia过去一年一直在开发的工具包已经引起了大型企业的兴趣。“我们希望MLflow将成为机器学习的标准语言”。

Leone表示:“有了MLflow,组织将能够从头到尾管理ML生命周期,包括通过不言而喻地标准化现有工具包/框架(跨首选部署选项)到模型的生产和部署到生产中。” 。“与处理互操作性问题相反,您将能够直接进入ML测试阶段。”

Databricks已经确定的第二个问题与深度学习有关,深度学习是用于训练应用程序(例如自然语言处理,图像分类和对象检测)的AI的子集。但是,将这些模型改进到可以使用的唯一方法是为它们提供越来越多的数据,这需要花费大量时间。Databricks表示,企业已使用Tensorflow,Keras和Horovod等各种深度学习框架来帮助加快速度,但发现自己笨拙得多,难以应付。

为了帮助组织更好地处理此问题,Databricks推出了一项名为“ ML的运行时”的新功能,该功能提供了与这些流行框架集成的用于深度学习的预配置环境。该公司还增加了对Amazon Web Services和Microsoft Azure云上的图形处理单元芯片的支持,使数据科学家能够在单个统一引擎上训练,评估和部署其深度学习模型。

Leone说:“ ML的运行时将有助于跟踪和重现实验,从而加快模型构建的速度。” “对于部署,MLflow将使组织能够以所需的方式轻松地部署ML模型(无论是本地部署还是跨云部署),并在部署后提供集成和监视。这不仅可以解决组织在将ML模型移入生产环境而且要维护它们时面临的困难。”

Ghodsi还强调了Databricks的 Delta数据仓库的功能,该数据仓库可用于清理和准备数据,从而可以用于训练AI模型。例如,苹果公司已将其用于所有内部威胁和异常检测,每周收集近PB的新数据。Ghodsi表示,他认为Delta将是六年多来最大的技术进步,它是实现更快的机器学习和深度学习的最大技术进步,它将在本月底全面上市。

与SiliconANGLE隶属于同一公司的Wikibon分析师James Kobielus表示,这些更新意味着Databricks现在是极少数可以帮助开发人员从准备到建模一直从事机器学习,深度学习和其他人工智能项目的公司之一以及在复杂的混合云中进行操作培训。他还称赞了新功能为开发人员提供的敏捷性。

Kobielus说:“开发人员可以在Databricks环境中使用他们选择的领先建模框架,从而使他们能够有效地扩展具有事务完整性的数据工程。” “他们可以并行执行和比较数百个并行AI建模/培训'实验',并利用此管道中的任何硬件或软件平台。他们可以将训练有素的模型部署到各种生产服务器平台和云。通过这些公告,Databricks满足了当今开发人员对简单,健壮和工业级管道的需求,以支持最苛刻的AI项目。”

最新版本的Databricks的Unified Analytics Platform提供了这些新功能。

Databricks在八月份筹集了1.4亿美元的后期阶段资金,最近一直很忙。3月,该公司将其旗舰分析平台作为Azure中的一项集成服务(称为 Microsoft Azure Databricks)提供, 以帮助客户更好地处理在那里存储的大量数据。