百度大脑“AI力”爆棚,一举斩获视觉顶会2019 CVPR 10项竞赛冠军

百度大脑“AI力”爆棚,一举斩获视觉顶会2019 CVPR 10项竞赛冠军

在计算机视觉行业的“奥斯卡”中,年度CVPR刚刚走到尽头,百度大脑在CVPR 10大赛中展示了世界的技术实力,令人兴奋。 6月16日至20日,计算机视觉和模式识别领域的顶级国际学术会议CVPR在加利福尼亚州长滩举行,超过9,200人参加了此次活动。本届会议共提交了5,160篇论文,其中1,294篇论文最终被接受出版。其中,百度有17篇论文。

百度相关视觉团队赴美参加发布会,举办了两次研讨会,一次辅导讲座,并连续10次参加CVPR比赛,涵盖了视野下的视频理解与分析,目标检测,图像超分辨率,智能许多流行的子区域,如城市车辆识别,面部和人体检测。其中,百度研究团队获得了4个冠军,百度视觉团队获得了6个冠军,而此前参加CVPR会议的大部分论文都来自这两个团队。

img_pic_1561607120_0.jpg

视频理解&分析区

ActivityNet目前是视频理解领域最具影响力的活动,并与年度顶级学术会议CVPR一起举办。在本次比赛中,百度赢得了视频动作提名和视频动作检测的冠军,并在新增的EPIC-Kitchens动作识别挑战中赢得了两个测试组冠军(Seen kitchen和Unseen kitchen)。这是百度视觉团队连续三年在ActivityNet相关活动中夺得冠军。

视频理解是计算机视觉和模式识别领域的基本问题之一。视频运动提名和视频运动检测在安全和视频摘要场景中具有重要的应用价值。在视频动作提名和视频动作检测这两项任务中,百度提出了C-TCN,BMN等运动分类模型和不准确的运动边界。 THUMOS和ActivityNet中的两个公共数据集都达到了世界领先水平。相关代码将于6月底由PaddlePaddle开源。

今年的新任务EPIC-Kitchens Motion Recognition Challenge专注于第一人称视频理解,在可穿戴设备,智能家居,人机交互等应用中发挥关键作用。它也是学术界和工业界的焦点。比赛吸引了包括Facebook AI,牛津大学,INRIA(法国国家信息与自动化研究所)在内的66支队伍,百度在Seen kitchen和Unseen kitchen的测试中获得了第一名。受邀报告CVPR 2019 EPIC和ActivityNet Workshop。

img_pic_1561607120_1.jpg

对于第一人称视频,有许多小物体,模糊遮挡是严重的。百度使用2D检测框架和3D卷积网络的组合进行视频特征提取。不仅如此,百度还提出了一种门控特征融合模块,它通过增强视频片段特征与上下文对象特征之间的非线性交互来增强输出的分辨率。

人体检测领域

在人类检测领域,百度更加“开放”,赢得了“三连冠”。在“Look In Person”国际大赛(LIP)三个人体精细分析竞赛单元(Track1:Single-person Human Parsing,Track3:Mult-Person Human Parsing,Track4:Video Multi-Person Parsing)中,百度获得第一名。 LIP国际比赛侧重于人体的精细语义理解任务,包括单人体分析任务,单人体姿态估计任务,多人体人体分析任务和视频多人体分析任务。本次比赛的主题是在复杂场景中对人体的视觉理解。这是计算机视觉领域的基本问题之一。它对视频监控,人机交互,自动驾驶和虚拟现实等场景具有重要意义。

img_pic_1561607120_2.jpg

img_pic_1561607120_3.jpg

img_pic_1561607120_4.jpg

(获奖证书)

在游戏中,单个人体分析竞赛单元的任务是输出单画面语义分割信息(例如上肢和下肢)。针对人类关键目标区域较小且难以检测的问题,百度改进了以前基于多尺度全卷积神经网络(如金字塔场景分析网络,DeepLab v3 +等)的模型。卷积核可以详细说明图片。感知并输出更准确的特征图。此外,百度还进行了图像增强,数据扩展,训练过程中输入图像比例的动态调整,使用mIOU损失功能等,使模型能够更准确地捕捉肢体和被覆盖部分的细节。最后,根据不同模型的效果,百度达到了65.18%的mIoU,并获得了单身人体分析冠军,比之前的冠军高出7.2个百分点。

img_pic_1561607121_5.png

(单个人体分析结果显示)

多人体人体分析和视频人体分析解决了图片和视频中多人语义信息分割的问题。与单人体分析任务相比,竞赛数据集更加关注多人遮挡问题,进一步增加了游戏难度。在游戏中,百度优化和改进了自上而下的框架,结合多人检测和单人体分析,针对多人遮挡严重性,姿势和视角多样性的特点,以及多人体人体分析和视频通过最终改进的模型。在人体分析竞赛单元中,获得了第一个分数,并且得分显着高于第二名。

人脸检测领域

人脸检测是视觉人脸识别领域的经典问题。近年来,随着人脸技术的不断落地,实时检测在面部解锁,面部支付和远程身份验证等应用中发挥着越来越重要的作用。在CVPR面部活检比赛中,百度作为受邀参赛者在300多支球队中获得了第一个最佳成绩(宏的平均错误率最低)。 CVPR-19-Face反欺骗攻击检测挑战赛是CVPR会议历史上第一次现场人脸检测竞赛。它发布了世界上最大的跨模式人脸检测数据集CASIA-SURF,其中包括1000人。模态(RGB,IR,深度)面对视频。任务既是学术性的,也是实践性的,而且非常具有挑战性。

作为竞赛的冠军,百度在生命探测方向上积累了数百万的攻击图像数据,并继续开发和迭代多模态(深度,红外,RGB),双端(云,嵌入)体内检测模型。这些模型在内部支持多个核心服务,并为许多基准客户提供服务以满足不同的情况

目标检测字段

目标检测是计算机视觉和模式识别领域的基本问题之一。百度获得该领域“Objects365 Object Detection”国际比赛的全程冠军,而Full Track主要用于探索目标探测系统的性能极限。 Objects365是一个新的数据集,旨在促进自然场景中不同对象的检测。

Objects365在638K图像上标记了365个对象类,在训练集中有超过1000万个边界框。因此,这些注释涵盖了在各种场景类别中出现的常见对象。参与者可以使用发布的600,000张图像的训练集来训练目标检测模型,该模型输出Objects365中定义的365个类中的目标的边界框,类别和分数。在由30,000个图像组成的验证集上执行算法验证,并且最终在由100,000个图像组成的测试集中完成挑战。据悉,百度采用了基于飞桨开发的测试和培训框架,培训框架和模型即将开源。

与此同时,百度在NTIRE比赛中的形象超分辨率项目也获得了冠军。这是百度首次参加NTIRE(计算机视觉低级视觉领域最具影响力的竞赛),并在400多个团队中脱颖而出。该游戏使用新的实时数据集(RealSR)。百度愿景团队在PSNR和SSIM中排名第一。同时,它提出了一种高度创新的CDSR超细分模型,该模型通过级联逐步实现。从模糊中锐化图像。相关技术使用飞片部署在百度应用程序中,并已应用于查看饲料图像的功能。

img_pic_1561607121_6.jpg

智能城市车辆识别领域

AI-city Open包括三个子任务:全市多摄像机车辆跟踪,城市多摄像机车辆重新识别和交通异常检测。百度在全市多摄像头车辆重新识别任务中获得冠军,受益于PaddlePaddle框架,并依靠长期积累的技术能力,如车辆垂直检测,跟踪,属性分析和关键点定位类别。 mAP评分指标达到0.855,超过第二名6.4分。

全城多摄像头车辆重新识别是智能车辆分析能力的核心基础技术之一。智能车辆分析能力为百度在智能城市领域的积极探索提供了强有力的支持,特别是在城市安全和智能交通等重要的AI2B情景中。对车辆结构分析的需求是必不可少的。目前,百度已开通了一系列相关服务,如车辆检测,车辆性能/模型识别,交通统计和智能损失。未来,百度将继续推动车辆技术的构建和智能车辆分析技术的迭代,以支持不同领域。

百度对今年CVPR的全面回报表明,百度的大脑已经在视野的各个方向积累了长期的积累,这是百度大脑技术实力的有力证据。不仅如此,百度大脑还在开放这些顶级人工智能技术作为百度AI技术的大师。目前,它已经开放了170多种领先的人工智能功能,如视觉,语音和自然语言处理,为开发人员提供人工智能技术。研发支持,赋予各行业权力。