您现在的位置是:首页 >互联网 > 2020-11-06 11:36:37 来源:

微软启动在线研究中心以共享AI和科学数据集

为了促进科学合作,Microsoft Corp.今天启动了一个在线中心,该中心将为研究人员提供共享他们作为工作一部分而生成的数据集的场所。

该公司以身作则。在启动时,Microsoft Research Open Data门户将包含数十个由其自己的员工作为已发布的研究报告的一部分而产生的数据集。该信息库涵盖了从计算机科学到生物学的各个领域。

微软首席研究员约翰·克鲁姆(John Krumm)评论说:“经常有人要求我分享研究数据,而过去所做的公开分享很受欢迎。” “与Azure一起在一个地方对这些数据集进行协调和分类将对内部和外部研究人员都有帮助,使他们易于访问,鼓励协作,并提供基于云的便捷访问方式,以访问Microsoft Research共享数据。”

Microsoft Research Open Data具有强大的计算机科学倾向,尤其侧重于人工智能领域,例如自然语言处理。考虑到该公司的研究部门近年来将大部分工作投入这些领域,这不足为奇。微软正在大力投资以增强 其AI功能,而Alphabet Inc.等竞争对手也是如此。

新数据中心的专用于其他领域(例如物理学)的部分目前仅包含少量项目。但是随着微软努力从其外部吸引研究人员,这种情况可能会随着时间而改变。添加更多特定领域数据集的另一个强烈动机是,此类信息在AI项目中可能非常有用,主要是在训练模型方面。

微软希望该中心将补充现有的现有研究数据存储库。 微软数据科学推广总监瓦尼·曼达瓦(Vani Mandava)在博客中写道:“目标是为微软研究人员和合作者提供一个简单的平台,以共享数据集以及相关的研究技术和工具。”

“ Microsoft Research Open Data旨在简化对这些数据集的访问,使用基于云的资源促进研究人员之间的协作,并实现研究的可重复性,” Mandava补充说。

为了帮助研究人员使用数据集,该中心提供了与Microsoft Azure云平台的集成。用户可以将信息下载到具有流行数据科学和开发工具的预配置虚拟机上。

微软并不是唯一公开内部AI数据集以推进研究的科技巨头。字母在这方面也很丰富,对计算机视觉,自然语言处理和地理空间分析等领域做出了贡献。