搜索
当前位置: sk彩票 > 对象式设计 >

设计用于根据类型标记视觉场景的系统也可以检测特定对象

gecimao 发表于 2019-04-13 16:11 | 查看: | 回复:

  物体识别 - 确定物体在数字图像中的位置 - 是计算机视觉中的一个核心研究课题。

  但是,一个看图像的人会自发地对整个场景作出更高层次的判断:它是一个厨房,一个露营地,或一个会议室。在计算机科学研究人员中,被称为“场景识别”的问题受到的关注相对较少。

  去年12月,在神经信息处理系统年会上,麻省理工学院的研究人员宣布编制了世界上最大的根据场景类型标记的图像数据库,有700万个条目。通过利用被称为“深度学习”的机器学习技术 - 这是神经网络的经典人工智能技术的复兴 - 他们用它来训练最成功的场景分类器,其中还有25%到33%以上比其最好的前辈准确。

  在本周末举行的国际学习代表大会上,研究人员将展示一篇新论文,证明在学习如何识别场景的过程中,他们的系统也学会了如何识别物体。这项工作意味着,场景识别和物体识别系统至少可以协同工作。但它也证明了它们可以证明是相辅相成的可能性。

  麻省理工学院计算机科学与工程副教授,新任高级作者安东尼奥托拉尔巴说:“深度学习非常有效,但很难理解它为何起作用 - 网络正在构建什么内部表征。”纸。“可能是场景的表现形式是没有任何意义的场景的一部分,如角落或物体碎片。但它可能是它的目标:要知道某些东西是卧室,你需要看到床; 要知道某个东西是会议室,你需要看一张桌子和椅子。这就是我们发现的,网络真正找到了这些对象。“

  第一作者,电子工程和计算机科学研究生Bolei Zhou加入了Torralba的新论文。主要研究科学家Aude Oliva和麻省理工学院计算机科学与人工智能实验室的访问科学家Agata Lapedriza; 和Aditya Khosla,Torralba小组的另一名研究生。

  与所有机器学习系统一样,神经网络尝试识别与人类执行的注释相关的训练数据的特征 - 例如,语音记录的转录,或与图像相关联的场景或对象标签。但是,与生产当今手机中常见的语音识别软件的机器学习系统不同,神经网络对这些功能的外观没有先前的假设。

  这听起来像是灾难的一个秘诀,因为系统可能最终会因为无关紧要的相关性而无关紧要。但神经网络不是从人类指导中获得方向感,而是从它们的结构中得出。它们被组织成层次:处理单元的库 - 在大脑中的神经元上松散地建模 - 在每层中对它们被馈送的数据执行随机计算。但是他们然后将结果提供给下一层,依此类推,直到最后一层的输出与数据注释相对应。随着网络接收更多数据,它会重新调整其内部设置,以尝试生成更准确的预测。

  在麻省理工学院的研究人员网络处理了数百万输入图像后,一直重新调整其内部设置,在标记场景中准确率约为50% - 人类只有80%准确,因为他们对高级场景标签不同意。但研究人员并不知道他们的网络是如何做的。

  然而,神经网络中的单元对不同的输入作出不同的响应。如果一个单元被调谐到特定的视觉特征,如果特定输入完全没有该特征,它将根本不响应。如果该功能明显存在,它将作出强有力的回应。

  麻省理工学院的研究人员确定了60个图像,这些图像在其网络的每个单元中产生最强烈的响应; 然后,为了避免偏见,他们将图像集合发送给亚马逊的Mechanical Turk众包网站上的付费工作人员,他们要求他们确定图像之间的共性。

  “第一层,超过一半的单位被调整为简单的元素 - 线条或简单的颜色,”Torralba说。“当你在网络中向上移动时,你会开始发现越来越多的对象。还有其他东西,如地区或表面,可能是草或衣服。所以他们仍然是高度语义的,你也看到了增长。“

  根据Mechanical Turk工作人员的评估,网络顶部大约一半的单元被调整到特定的对象。“另一半,他们要么检测到物体,要么做得不好,或者我们只是不知道他们在做什么,”托拉尔巴说。“他们可能正在检测我们不知道如何命名的碎片。或者可能是网络没有完全融合,完全学会了。“

  在正在进行的工作中,研究人员从头开始并在相同的数据集上重新训练他们的网络,看它是否一致地收敛于相同的对象,或者它是否可以在不同的方向上随机演变,仍然可以产生良好的预测。他们还在探索物体检测和场景检测是否可以相互反馈,以提高两者的性能。“但我们希望这样做的方式不会迫使网络做一些它不想做的事情,”托拉尔巴说。

  加州大学伯克利分校计算机科学副教授阿列克谢埃弗罗斯说:“我们的视觉世界比我们描述它的文字数量更丰富。” “对象识别和对象检测的一个问题 - 在我看来,至少 - 是你只能识别出你所拥有的东西。但是有很多东西都是非常直观的,但也许对它们来说并不容易描述。在这里,对我来说最令人兴奋的事情是,通过培训我们确实有标签的东西 - 厨房,浴室,商店等等 - 我们仍然可以获得一些我们甚至都不会看到的视觉元素和视觉概念能够训练,因为我们无法命名他们。“

  “更全球化,”他补充说,“它表明,即使你有一些非常有限的标签和非常有限的任务,如果你训练一个模型,它是一个强大的模型,它也可能做一些有限的事情。这种紧急行为真的很整洁。

  免责声明:本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。

  研究生的WaitChatter应用程序在文本和即时消息回复之间教授词汇

  研究生的WaitChatter应用程序在文本和即时消息回复之间教授词汇

  Neya Systems的VERTI系统集成到K-MAX VTOL UAS中

本文链接:http://moodyjews.net/duixiangshisheji/13.html
随机为您推荐歌词
推荐文章

联系我们 | 关于我们 | 网友投稿 | 版权声明 | 广告服务 | 站点统计 | 网站地图

版权声明:本站资源均来自互联网,如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

Copyright @ 2012-2013 织梦猫 版权所有  Powered by Dedecms 5.7
渝ICP备10013703号  

回顶部