您现在的位置是：首页 >动态 > 2021-04-10 20:36:30 来源：

IBM研究人员开发了一对低功耗高性能的计算机视觉系统

导读近年来，机器学习算法有了突飞猛进的发展。例如，像Facebook这样的先进系统可以在一小时内训练图像分类算法，而不会牺牲准确性。但是他们

近年来，机器学习算法有了突飞猛进的发展。例如，像Facebook这样的先进系统可以在一小时内训练图像分类算法，而不会牺牲准确性。但是他们中的许多人都接受过具有强大GPU的高端机器的培训，随着物联网(IoT)行业向边缘计算发展，对低功耗人工智能(AI)模型的需求越来越大。

IBM的有前景的研究为更高效的算法奠定了基础。在本周于犹他州盐湖城举行的2018年计算机视觉和模式识别会议上，该公司的研究科学家正在发表两篇关于图像分类的论文。

第一个标题为“ BlockDrop：残余网络中的动态干扰路径 ”，建立在微软2015年发布的残余网络工作的基础上。残留网络(简称ResNets)引入了神经网络中各层之间的身份连接，使他们能够学习训练过程中的增量或残差表示。

IBM将这一想法更进一步。科学家们引入了一个轻量级的二级神经网络 - 在本文中称为“策略网络” - 在预先训练的ResNet中动态删除了残余块。为了确保性能增益不以精确度为代价，政策网络经过培训，使用最少数量的块并保持识别准确性。

“一般来说，如果你为模型添加更多层，你可以提高它的准确性，但是你会增加计算成本，”IBM研究经理Rogerio Feris在电话采访中告诉VentureBeat。“今天大多数现有模型的一个问题是，你有一个适合所有人的网络，其中相同的计算应用于所有图像。[我们]系统更有效地分配资源，并且[可以]准确地识别图像。“

BlockDrop平均加快了20%%的图像分类，在某些情况下加快了36%%，同时保持76.4%%的准确度 - 与实验的控制相同。

改善立体视觉

第二篇论文“ 低功耗，高吞吐量，基于全事件的立体声系统 ”解决了图像处理中的另一个问题：立体视觉。

正如IBM研究员Alexander Andreopoulos解释的那样，人类的眼睛彼此相距几厘米，从不同的角度看世界。大脑的视觉皮层无缝地将来自双眼的图像合并为一个，使我们能够感知深度，但是双摄像机器人系统具有更难以协调差异的时间。

“在计算机视觉的情况下，相机镜头会出现异常，这会导致噪音并使问题复杂化，”Andreopoulos说。

研究人员的解决方案：运行在IBM的TrueNorth神经形态芯片上的系统，该芯片具有针对机器学习模型优化的高度并行化架构。使用一组九个处理器，一对基于事件的摄像头(在检测到运动时仅拍摄图像的摄像头)，以及将计算分配到上述芯片的笔记本电脑，捕获并处理400(最多2,000)每秒视差图。

Andreopoulos解释说，基于事件的摄像机的使用大大减少了带宽和能源使用。“立体声算法已经存在了30多年，但大多数这些系统......都采用积极的方法来感知世界。我们使用被动方法。

总体而言，与具有高帧率相机的最先进系统相比，该系统在每个视差图的每像素功率方面表现出200倍的改进。

Andreopoulos说，这些结果为依赖于低功耗，低延迟深度信息的机器人系统带来了前景。“[我想]它被用于老人的伴侣机器人...... [提供某种行动助力。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：