互联网

“kok体育”AIR015|微软亚洲研究院常务副院长芮勇:计算机视觉从感知到认知的长征

2021-02-01 16:20

本文摘要:作为本届GAIR大会的重量级嘉宾之一,也是微软公司亚洲研究院常务副院长、CCF常务董事、IEEE、IAPR、SPIE等国际一流学术组织成员的锐勇博士,今天下午开展的机械学习大浪下的大公司们大会上,给我们带来了计算机视觉领域最近的观点和思考。

kok登录

作为本届GAIR大会的重量级嘉宾之一,也是微软公司亚洲研究院常务副院长、CCF常务董事、IEEE、IAPR、SPIE等国际一流学术组织成员的锐勇博士,今天下午开展的机械学习大浪下的大公司们大会上,给我们带来了计算机视觉领域最近的观点和思考。芮勇博士的报告主要分为三个部分:第一部分解释了过去50多年计算机视觉领域的发展,认为2016年我们还处于从感觉到理解的最重要的分水岭阶段,几乎没有进入理解水平,第二部分共享了未来计算机视觉领域可能的发展方向50年的历史是第一部分,瑞勇博士回答说,对于只知道0和1两种状态的计算机来说,计算机视觉在过去50年中主要经历了特征提取、图像显示、图像解读和图像深度解读4个阶段。1.特种提取是指从图像中寻找主要特征像素提取。例如,在白纸上写字的话,文字这个像素是特征像素,必须提取。

2.图像标志也分为两个小部分。第一部分是图像分类,向计算机输出图像,计算机需要识别图中的内容是人还是物。

第二部分是像素水平的分类,计算机需要从图像的像素水平来区分哪个像素属于人,哪个像素属于物体。同时,芮勇博士还提到了深度自学对图像标志的根本影响。2012年引进深度自学前,图像标志的错误率达到28.2%,引进深度自学网络分析模型后,机械标志图像的错误率从2012年的16%(超过2012年)下降到2015年的3.5%,神经网络分析模型的规模也下降到152层,在世界上领先。

3.图像解读是指输出计算机的图像,计算机必须自动分解语言的自然语言。例如,一张照片可能不会输入计算机。这是两个人的照片。

4.图像的深度解读是指计算机不仅能识别图中的内容,还能告诉图中内容的具体情况。以照片为例,计算机此时可能会说明奥巴马和习近平的照片。芮勇博士回答说,这一点现在几乎可以做到,现在计算机包含的理解范围是世界上大部分名人和着名的观光地,如白宫和天安门广场。

未来可能的发展方向总结了发展历史后,锐勇博士从以下几个角度分享了计算机视觉研究下一步发展的想法。1.图片描述了诗意。例如,象平奥巴马的照片不仅可以输入上述自然语言叙述,未来的计算机也可能解读图像的内涵。

例如象和奥巴马的象征意义、美国议会选举民主党和共和党的竞争等。2.视频解读。例如,将视频输出给计算机,计算机可以在某种程度上输入自然语言的记述。

芮勇博士应对的难题是,视频除了图像中横轴纵轴的二维记述外,还追加了时间线的三维记述,数学建模和数据分析与图像识别几乎不同的研究方式和可玩性。3.利用照片聊天。例如,输出甜狗的照片,计算机有可能恢复。

4.利用照片讲故事。例如,计算机将来可能会根据输出的一些图像自动分解令人震惊的精彩故事。三个重要因素最后瑞勇博士说明了计算机视觉几乎从感觉南北理解的三个重要因素。

1.机器学习算法的转型。行业需要更先进的设备算法和更深入的分析模型,帮助计算机视觉的进一步发展。2.各横向领域的科学家与员工合作。

除了计算机视觉本身领域的发展外,还将计算机视觉与各个横向领域融为一体,在工程和商业中确实发挥作用,推动计算机诗句的跳跃发展。3.高质量的大量数据。

在大数据时代,高质量和大量数据作为所有研究的基础也很重要。最后瑞勇博士总结说,如果能做到这三点,机器学习算法本身的变革,研究者和横向领域的专家们更加合作,同时优质的数据集也更多,我们可以从感觉月南北理解。

以下是现场国史:下午有机会谈电脑视觉,我的主题是电脑视觉从感觉到理解的长征。我想总结一下计算机视觉过去50年的发展。

今年的2016年也是人工智能这个词构筑的第60年,至今为止没有这个词,60年中国人被称为来世,来世总是没有进步,2016年人工智能有什么大的进步呢?人工智能从一开始就有很多领域,我自己花费的时间最少的是电脑视觉,人有各种各样的感觉,但是人的70%的信息是人的眼睛看到的,电脑视觉也是人工智能中最重要的方向之一。首先,大家都说电脑能看到,就像人的眼睛能看到一样。在过去的50年里,我们可以看到社区处理到Recognition到解读,就像我们画画一样,从最初的线到一定的灰度,到最后的全彩,这50年做了什么?让我们看看。

我想用这张照片和大家分享。人看照片很简单,我看这是一个人,这是桌子和椅子,人很快就解读了,电脑看起来很难,电脑看到的是两个东西,不是0,而是1,电脑看照片里包含的内容很难。这50年走了很多路,从最初的特征中提取的特征中提取出来。例如,它的特征包括线条、角落和颜色。

之后,第二步比这个更进一步,被称为标记。这张图比如户外场景,里面有人物,比这更前面,叫Annotation。比这更进一步,我们对照片的解读是Captioning,如果我把这张照片给电脑看的话,我们的人类就不能分解读不懂的文字。

例如,乔治和他的父亲在迪斯尼乐园玩游戏,这句话更无能为力。比这更好,我给了电脑这张照片,回答了电脑的一些问题。例如,在这张照片中躺在前面的人穿什么颜色的衣服?电脑在这个时候告诉别人什么是人,衣服在哪里,听说是红衣服,更没办法了。比这更好的是,我们小时候读过课,被称为看图认字,看图说话,电脑看图后,能否分解故事,这是50年来我们大家都想做的事情。

让我们总结一下这50年是怎么走的。第一步是特征提取,计算机看到的不仅仅是0,当然有些像素是最重要的,哪些像素是提取最重要的。例如,这张图,每个像素的重要性都不同,画圈的地方是特征的地方。

向北看,第二步是给照片展示,展示的话,照片中有两个人,他们在户外活动,这件事怎么办?我们来看看是怎么做到的。这是最重要的部分,有三部分,第一部分是照片的分类,这时我们问的是什么问题?这张照片里是否含有小狗。第二,更无能为力,计算机必须告诉他这只小狗在哪里,把它框起来。

第三个更无能为力,所有的像素都不能告诉我这个像素是属于这只小狗的像素还是电视的像素一个比一个更无能为力。在过去的十年里,发展相当大。让我们看看。

第一步,图像分类,图像分类在计算机视觉上有世界性的比赛,被称为ImageNet,其中有120万个训练样本,有10万个测试图像,有1000个类别,让计算机看不到的图像,上司分为1000个类别到2012年,深度自学在没有引进计算机视觉之前,大家都会想到错误率,靠右的是2010年的错误率28.2%。2012年,深度自学首次被用于图像识别,错误率下降到16.4%,每年的错误率越来越低。2014年斯坦福的博士想挑战。我告诉他一千种中有二百种狗的类型有多难。

kok体育

我只知道四五种狗,但做一百种狗是对的,很难。斯坦福博士关口在房间里训练了几个月,他的错误率是5.1%,去年下降到3.5%,第一次达到了人类的错误率。

2012年深度自学首次引进计算机视觉,当时有八层,其误区率减少。再往下走,2014年到19层,失误率之后减少,到2015年,我研究院同事做了152层的极深网络。大家真的什么也没做,但是很难做到。到2015年为止,世界上没有几个团队能做到20层。

因为不能训练,所以这是很好的工作。使用神经网络,不仅可以在各层延迟下一层,还可以跳跃。这是照片的分类,解决问题的是照片中是否有小狗。

更无奈的是,这只小狗在哪里,物体的检测。七八年前,世界上最差的程度就是这样,今天可以通过深度自学的方式制定这样的水平。看到最左边的女人,她只是遮住肘,遮住脚。

往北看,这辆大巴后面的司机说明这是一个人,现在已经超过了这样的水平,和人的视觉水平已经不一样了。比物体检查更无用的是照片的所有像素,像素是小狗还是屏幕?我们今天可以看到深度自学的方法,把像素级的图像分成这样的水平。大家可以考虑一下,假如能够做到这种层面,以后无论是无人机還是无人驾驶,许多应用都能够做到。

这是我刚才提到的第一个问题,对物体的识别,比这更无能为力的是我们是否解读了,计算机是否解读了某张照片。让我们看看。Beyond比计算机视觉多。如果只是用最近的方法进行搜索的话,那个没有被解读。

例如,你的输出是左边的人,右边的几个人从搜索引擎回来,这不是解读,这不是解读。确实的解读是什么呢?我给电脑看了这样的照片照片,可以分解一句话,说书和父亲在迪斯尼乐园玩游戏。

如果脑看这样的图(一个人打网球的照片),接下来想和大家进行小对话,在这个明确的问题上,我们不能进行多达图灵测试,有两个词:第一个词是一个人在网球场拍网球。第二句话:有人在网球场上比赛。大家真的这两句话是谁写的?哪个是机器写的。

(大家跪下后,表示比例基本上是50%比50%)以下,我们认为谁写的是机器写的。以上是机器写的,如果大家是50%的话,已经可以通过图灵测试了。

我们再试一个问题。上面停着自行车。

有两个词。一个是小河边停着自行车。第二个是水体旁边停着自行车。

哪个句子是电脑写的?(现场的大多数人自由选择第二句)现在大多数人指出以下一句是用电脑写的。我们认为下面是人写的。我们又通过了图灵测试。

这是给计算机看照片,那个分解的话,比那个更无能为力的是前几天奥巴马的家人带着孩子来采访,如果让计算机看照片的话,只告诉他有几个人在照片上也没意思。如果有能力的话,Sasha奥巴马、米歇尔奥巴马、彭丽媛,我们前50万人左右可以认出是谁,我们分解了故宫前的照片,这几个人已经超过了这样的水平。往北看,明确算法可能没有那么多时间。

但是,基本上指名人到明确的物体,可以用各种深刻的自学方法分解这样的自然语言。我们往北看,这是整个过程,算法等不需要花时间看。

已经让计算机看了照片,说了还很沮丧的话,接下来可以回到哪里,我至少可以回到四个方向。第一个方向是在语义水平上,Gohigher,我们不能想起没有说话,但是可以推理小说的意思。第二,让我们看看视频是否也能说话。

第三,可以和我说话。第四,我可以回答他明确的问题,他可以问。第一,Gohigher,如果我给电脑看这样的照片,今天能做的水平就是这样,有一群大象,前面有一个人,这是我们以前能做的水平。

今天能做的水平,因为有实体,所以可以说在奥巴马旁边有很多大象。因为我们可以知道这个人是奥巴马。我们期待什么水平?它衍生出来的几个含义,我们人看到这个可以想起很多衍生的含义,今年正好是美国总统大选年,民主党是驴,奥巴马是民主党,共和党是大象,它的意思是奥巴马被共和党的一些竞选者追赶,我们今后如果能分解这样一句话,我们照片的解读感叹了理解水平,但是还没有做。

第二,Golonger,我们可以给你看录像,也可以分解一句话。当然,这里有很多算法。

明确的算法我不一一说明。基本上是深入自学的网络,目标函数中有两个变化的新水平。

这是我委托的两个方向,第一个是伪装的意思,第二个是视频也需要使用。以文字的形式表达。

第三,我想委托的是,比如今天和冰聊天,敲打文字,也可以返回文字,上载照片,也可以和我聊天吗?今天也可以。今天能做的水平是,如果我上载照片的话,小眼睛不会说幽默,就像人在聊天一样,已经能做到这样的水平了。例如,如果你想展示六块腹肌,你不会告诉你叔叔真的是牛。

kok体育

在某种程度上是文字聊天,照片也可以聊天,这取决于我们对计算机视觉技术的发展和深入自学的发展。第四个方向,花点时间说话,我真的是有趣的方向,不仅对科学研究、行业有趣。被称为VisualQuestionAnswering,回答了计算机的问题。

自行车篮里有什么?我们期待它的回答是说狗狗,但是想要做到这一点是很难的,你首先要告诉你自行车在哪里,篮子在哪里,篮子里有什么东西,都不容易,但是今天我们有技巧,需要做到这一点。我该怎么办?请稍微委托这个算法。四个部分,两个输出,第一个是你回答的问题是什么,你回答的问题是自行车篮子里有什么,这是一句话,这是第一步。

第二步是给计算机看照片,有Image和model。我们用深度自学的方法两次不同的模式后,告诉我们这个问题最相关的部分是黑暗的部分。

这是和问题再次有关的地方。如果你告诉这个区域和这个问题再次发生关系,你很可能会告诉你答案。更好的例子好的例子要和大家分享。

例如,让计算机看这张照片,在宽敞的海滩上,两把蓝椅子之间是什么?这是答案的过程,在二楼讨论伞和太阳伞。还有更好的例子,在泥泞的土路上,拖着马车吗?答案是马在拖马车。右边的,篮子的颜色是什么?答案是红色的。

右下角的女性戴着两个红牛角,回答说是红色的,牛角的颜色是红色的。这些都是我们今天通过电脑视觉的方式超过问题的问题水平。刚才回顾过去50年计算机视觉发展的历史,从最初的特征中提取出来,有直线的角度,直到说这是户外的场面,场面中有人,直到说这张照片中这个人的名字是什么,分解一句话说这张照片,直到最后我刚才提到的Visualqa,还有很长的路要回顾我今天的主题是计算机视觉从感觉到理解的长征,长征也首先是指江西瑞金开始长征,具备里程碑的事件是遵义会议,最后顺利地去陕西省甘边区,今天的计算机视觉也是长征,但还没有到陕西省甘边区,今天2016年我们取得了相当大的成果第一,计算机自学算法本身。

今天深度自学二字火热。今天有个好算法,深度自学算数很好。最初最重要的是我们到达陕北的是计算机自学算法。

第二,我们需要计算机科学家,我们也要和横向行业的朋友们一起做这件事。例如,我们和金融的朋友们,上午杨强说的话,可以预测股票市场。

如果我们和不懂医疗的朋友一起做的话,就不能做更正确的医疗。如果和植物的朋友一起做的话,可以用手机照片给的花和树根,告诉我这个花的名字,树根的名字,最初是从哪里来的等等。

等等。我想说这个目的不仅是机器学习的专家,还是和很多横向行业的专家合作。

第三,右下角这个圈子我也是最重要的,我们必须提供高质量的数据。如果我们能做到这三点,机器学习算法本身的变革,我们与业界专家们的合作和更多的数据提供,我们可以从瑞金通过西昌到达陕北。非常感谢你主持人:刚才下面的观众提出了问题,最后一页PPT是最坏的答案,说计算机从视觉感觉到理解需要什么条件。

但是,我还有另一个问题。你刚给的是照片,如果给的是录像的话,就不会有什么结果。如果不行的话,就不会想象。

其中可能会带来什么样的期待和挑战呢?雷勇:你可能不太在意。我刚才把照片变成文字后,我说了四个方向,放录像后今天也可以做,但录像中明显有很多挑战。在进行图像分析时,二次元实现,录像时有时间轴,所以3D录像自学的方法也可以解决问题。

谢谢你!谢谢你!原始文章允许禁止发布。下一篇文章发表了注意事项。


本文关键词:“,kok登录,kok,体育,”,AIR015,微软,亚洲,研究院,常务

本文来源:kok在线-www.whguwl.com