真正的大数据问题以及为什么只有机器学习才能解决它

2021-01-08 13:57:05 来源：用户：

为什么这么多公司仍在努力建立从数据到见解的平稳运行的管道?他们投资于大肆宣传的机器学习算法，以分析数据并做出业务预测。

但是，然后，他们不可避免地意识到算法不是魔术：如果将垃圾数据提供给他们，他们的见识就不会那么出色。因此，他们聘用了数据科学家，他们花费90%的时间在数据清洁自助洗衣店里清洗和折叠，而只剩下10%的时间去做被雇用的工作。

这个过程的另一个缺点是，公司只会为在线端算法的机器学习而感到兴奋。Tamr Inc.联合创始人兼首席执行官安迪·帕尔默(Andy Palmer)表示，他们应该在清理的早期阶段就自由地应用机器学习，而不是依靠人们来处理庞大的数据集，这有助于组织使用机器学习来统一他们的机器。数据孤岛。

许多公司已经在用于大数据收集的系统上花费了大量金钱。他们对数据量超过质量的重视显而易见。帕尔默说：“在这些大公司之一工作的任何人都可以告诉你，他们从大多数内部系统中获得的数据都是简单明了的。”

Tamr的联合创始人兼首席技术官Palmer和Michael Stonebraker(如图)与 SiliconANGLE Media移动直播工作室CUBE的联合主持人Dave Vellante 和Paul Gillin进行了交谈，该会议涵盖了最近在马萨诸塞州剑桥举行的MIT CDOIQ研讨会。他们讨论了大数据清洗中的机器学习，以及为什么Tamr毫不奇怪地相信初创企业提供的技术要比传统公司更好，更具扩展性的大数据解决方案(请参阅此处和此处的全文访谈 )。

本周，CUBE在其每周启动功能中聚焦Tamr Inc.。

大数据?大呼啦

多年来，帕尔默和斯通布雷克一直在努力消除大数据的炒作泡沫。一直追溯到2007年，他们预测Apache Hadoop大数据框架不会提供如此多的预期结果。

帕尔默说：“迈克实际上非常激进地说这将是一场灾难。”

并不是说大数据集是坏的。显然，它们对于训练分析模型和人工智能是必不可少的。有一种观点认为，只要数据量很大，其余的分析或AI片段就会落在原地，这让很多公司都幻灭了。

企业现在意识到数据质量不可忽略。他们还知道，数据科学家不必花费80%至90%或更多的时间来清理和整理数据。必须有一种更好，更快的方法来准备好数据以供分析和AI使用。

答案是开始将机器学习视为完成这些笨拙，繁琐的任务的高度实用的工具。因此，许多供应商都使用机器学习使预测，推荐引擎等软件营销更具吸引力。Tarr将其用于最没有魅力的东西：在任何人使用任何东西进行分析，预测，营销或出售之前，都要清理和整理大数据。它。

机器学习提示规模

市场并不完全缺乏针对数据交换问题的建议解决方案。大量的科技公司正在将它们带出或更新其原始产品。Stonebraker指出，这些系统中通常使用的主要技术存在关键缺陷。这些传统技术包括提取，转换，加载系统和主数据管理系统。

Stonebraker说：“一个肮脏的小秘密是技术无法扩展。”

ETL的前提是，真正聪明的人会为用户想要的所有数据源提供一个全局数据模型。然后，人员与每个业务部门进行面谈，以查看他们拥有的数据，如何在全局数据模型中获取数据，将其加载到数据仓库中，等等。过程是人类密集的往往不是规模，按照斯通布雷克。他补充说，他们通常在数据仓库中集成10或20个源。

这足够吗?让我们看一个现实世界的公司。Tamr客户 Toyota Motor Europe在不同国家(有时是州)设有分销商。如果有人在西班牙买了一辆丰田汽车，然后搬到法国，那法国公司对车主一无所知。

总计，TME 拥有250个独立的客户数据库，以50种语言记录了4000万条记录。该公司正在将它们集成到单个客户数据库中，以解决此客户服务问题。机器学习提供了一种可行的方法。 “我从未见过能够处理这种规模的ETL系统，” Stonebraker说。

Stonebraker解释说，MDM无法扩展的原因基本上是因为它基于规则。另一个Tamr客户，通用电气公司(General Electric Co.)，希望进行支出分析。从前一年开始，它有2000万笔支出交易。它试图将所有这些分类为基于规则的层次结构。

他说：“因此，通用电气制定了500条规则，这几乎是任何一个人都能武装起来的规则。” “牛逼帽子分为20万次交易的200万美元。您现在有18了。另外500条规则不会给您200万条规则。

他指出，这就是收益递减的规律。斯通布雷克说： “你将不得不编写大量没人能理解的规则。” “如果您不使用机器学习，那绝对是敬酒。”

文化商

Stonebraker承认，机器学习不是万灵药。要成为真正的数据驱动者，就需要进行技术和文化调整。实际上，根据NewVantage Partners LLC的研究，接受调查的高管中有77%的人表示，企业对其组织难以采用大数据/人工智能计划。尽管有大量新软件涌入市场，但仍比去年有所增加。

这些高管列举了许多阻碍采用的障碍，其中有95%是文化或组织上的，而不是技术上的。“组织……需要制定计划才能投入生产。Gartner公司分析师Nick Heudecker表示： “大多数人都不将大数据作为技术零售疗法来对待和计划。”

尽管如此，技术仍然在一定程度上影响着文化，反之亦然。以上案例说明了数据科学家如何花90%的时间进行筛选和排序-而不是帮助实际的混合动力设备得到维修或开发燃气轮机。根据Stonebraker的说法，如果大数据对现实世界的企业来说可行，那么机器学习是前进的方向。

他说：“您必须用机器学习代替人类…… 人们意识到，大规模地使用传统的数据集成技术是行不通的。”

年轻的公司正在解决这个问题，并将机器学习融入其产品的核心。Stonebraker说：“传统的供应商总体上比时代落后了10年，如果您想获得最前沿的产品，就必须去创业公司。”

这些“最前沿”的东西是否为数据货币化提供了简便的途径?它会弥补因数据沼泽而在沮丧中所花费的时间吗?帕尔默指出，我们正在进入一个阶段，可以更快地使数据“消耗”。

“这一阶段会最终达到20年前30年来企业数据仓库设定的高期望吗?” 他说：“我不知道。但是我们肯定会越来越接近。”

标签：真正大数据问题

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！