上海交大卢宪凯系列公开课:计算机视觉概述和深度学习简介
雷锋网AI研习社按:计算机视觉是一门研究如何使机器“看”的科学,掌握解决具体计算机视觉任务的方法则会帮助我们解决大规模系统的复杂问题,其应用相当广泛,最常见的如人脸识别,文字识别等等。这篇文章就来为大家从头普及一下计算机视觉相关知识,包括计算机视觉的定义、研究方法和应用举例,还会重点介绍深度学习历史发展历史,常见深度学习网络介绍和开发平台,帮助计算机视觉入门者和从业者进行有效的基础夯实和系统梳理。
近日,在雷锋网AI研习社举办的线上直播课上,来自上海交通大学的卢宪凯博士为大家分享了计算机视觉领域的入门知识。这也是卢博士CV系列课线上直播的第一期,后期会陆续由浅入深,为关注AI研习社的小伙伴持们续产出干货,欢迎订阅卢宪凯博士的免费直播课。
卢宪凯,上海交通大学博士,主要研究方向是目标跟踪与深度学习。在多个计算机视觉期刊会议上发表多篇学术论文,包括IEEE Transaction on Multimedia、MTA、Neurocomputing、ICASSP。
分享内容
计算机视觉定义和研究方法计算机视觉的应用举例:图像分类,人脸识别;车辆检测,行人检测;语义分割,实例分割;目标跟踪,视频分割;图像生成,视频生成深度学习历史回顾常见深度学习网络介绍和开发平台
计算机视觉概述和深度学习简介
计算机视觉是指从图像和视频中提出数值或符合信息的计算系统。更形象一点讲就是说,计算机视觉是让计算机具备像人类一样的眼睛,看到图像,并理解图像。
人类的视觉首先是通过眼睛看到一幅图片,大脑来理解这个图片。对于计算机来说,就会通过摄像头或摄像机获取这张图片,然后利用计算机算法来看图片,读取信息。
计算机视觉最核心部分就是理解。第一步是提供数据,包括静态图片,视频。第二步是设计算法,让计算机像人的大脑一样理解数据,这个过程需要机器学习和算法,或者现在比较火的神经网路深度学习的方法。计算机视觉归根结底就是做一个回归或者分类的问题。后面讲到的大部分关于计算机视觉的任务都可以用回归或分类的问题对它建模。
计算机视觉非常重要的应用之一就是图像分类。李飞飞创建的ImageNet数据集极大推动了计算机视觉的发展,也让大家更理解了计算机视觉对大家的生活是起着非常重要的作用。
除了图像识别任务外,还有特定目标的识别,比如车牌识别,人脸识别,还有比较精细的识别,年龄,性别,是否戴眼镜,表情的识别,判断一个人是否笑了。
计算机视觉里的第二个任务——目标检测。目标检测是在给定一个图像,把我感兴趣的前景目标检测出来,并添加类别。目标检测是头像识别的进一步发展。目标检测要知道图片中有哪些类别,还有知道他们的位置。
行人检测和车辆检测。对人群密集处的检测,对将来可能发生的异常事件起到预警作用。右边的车辆检测,可以统计车辆个数,实时估计车流密度,这样的话对于疏解城市交通是非常有帮助的。这两个是做目标检测中的两个细化应用。
计算机视觉的第三个任务分割。分割包括两种,图像语义分割和个体分割。图像语义分割是指给你一个张图片,把图中的物体分割开来。个体分割比语义分割更难,相当于在检测任务上加上了分割。
视觉目标跟踪,也有很多广泛应用。如果拓展到多目标跟踪,可应用在候机大厅或商场里面,对每个人实时跟踪,建立每一个人的轨迹,比如某人突然和另一个人有了交互,就可判断是否在打架。
还可应用在自动驾驶上面,比如前置摄像头拍到前面的几辆车,实时跟踪,并计算出当前车与前车的距离。
视频分割,前置摄像头拍出街景照片,可用于无人驾驶。
视频生成,有了当前帧可以预测下一帧,再结合摄像头得到下一帧的样子。可以减少计算资源消耗。
深度学习简介
这几年计算机视觉已经和深度学习变得密不可分。计算机视觉研究已经有很多有趣应用,比如图像风格迁移。
生成对抗网络(GAN)的有趣应用,比如可以将女性脸庞逐渐演化为男性脸庞。
直播换脸的应用
深度学习在人脸识别的应用。目前利用深度学习在LFW数据库训练人脸识别,错误率5%下降到0.5%
后期的课程会详细介绍这几个网络VGGNet, GoogLeNet ,ResNet ,DenseNet。
常见的深度学习开发平台
以上是计算机视觉系统课程的第一课,简单介绍了一下计算机视觉的图像识别,目标检测,图像和视频分割,目标追踪,图像和视频生成的一些常见应用,接下来卢宪凯博士还会结合深度学习讲解实现这些任务需要的算法,模型以及实战应用。下一次直播课程是深度卷积网络的原理及模型介绍,以及如何搭建和训练一个深度学习网络。
举报/反馈