快捷搜索:

您的位置:金莎娱乐 > 互联网 > 英伟达伯克利研究,Lab多篇论文入选CVPR

英伟达伯克利研究,Lab多篇论文入选CVPR

发布时间:2019-07-17 08:11编辑:互联网浏览(200)

    原标题:视频换脸新境界:CMU不仅给人类变脸,还能给花草、天气变脸 | ECCV 2018

    铜灵 发自 凹非寺

    晓查 发自 凹非寺

    圆栗子 发自 凹非寺

    量子位 出品| 公众号 QbitAI

    量子位 报道 | 公众号 QbitAI

    澳门金莎 1

    澳门金莎 2

    CycleGAN,一个可以将一张图像的特征迁移到另一张图像的酷算法,此前可以完成马变斑马、冬天变夏天、苹果变桔子等一颗赛艇的效果。

    澳门金莎 3

    腾讯AI Lab微信公众号今日发布了其第一条消息,宣布腾讯AI Lab多篇论文入选即将开幕的CVPR、ACL及ICML等顶级会议。

    把一段视频里的面部动作,移植到另一段视频的主角脸上。

    澳门金莎 4

    输入一张女性的照片,就能得到果体照,一件脱衣的DeepNude火了。但也因为面临巨大的道德争议,这款软件的开发者选择了将它下架。

    在AI科技大本营公众号会话中输入“腾讯”,打包下载腾讯AI Lab入选CVPR、ACL及ICML的论文。

    大家可能已经习惯这样的操作了。

    这行被顶会ICCV收录的研究自提出后,就为图形学等领域的技术人员所用,甚至还成为不少艺术家用来创作的工具。

    而且DeepNude本身也不开源,我们只能从开发者零星的介绍中知道,它用到了pix2pix。

    腾讯AI实验室授权转载

    澳门金莎 5

    澳门金莎 6

    在巨大的求知欲驱动下,来自四川大学计算机学院在读硕士袁宵在自己的GitHub探究了DeepNude背后原理,研究图像生成和图像修复相关的技术和论文。

    1. CVPR

    IEEE Conference on Computer Vision and Pattern Recognition

    IEEE国际计算机视觉与模式识别会议

    7月21日 - 26日 | 美国夏威夷

    CVPR是近十年来计算机视觉领域全球最有影响力、内容最全面的顶级学术会议,由全球最大的非营利性专业技术学会IEEE(电气和电子工程师协会)主办。2017谷歌学术指标(Google Scholar)按论文引用率排名, CVPR位列计算机视觉领域榜首。今年CVPR审核了2620篇文章,最终收录783篇,录取率29%,口头报告录取率仅2.65%。

    腾讯AI Lab计算机视觉总监刘威博士介绍到,“CVPR的口头报告一般是当年最前沿的研究课题,在学界和工业界都影响很大,每年都集齐如斯坦福大学和谷歌等全球最知名高校和科技公司。”

    腾讯AI Lab六篇论文入选CVPR

    论文一:Real Time Neural Style Transfer for Videos

    本文用深度前向卷积神经网络探索视频艺术风格的快速迁移,提出了一种全新两帧协同训练机制,能保持视频时域一致性并消除闪烁跳动瑕疵,确保视频风格迁移实时、高质、高效完成。

    * 此论文后附详细解析

    论文二:WSISA: Making Survival Prediction from Whole Slide Histopathological Images

    论文首次提出一种全尺寸、无标注、基于病理图片的病人生存有效预测方法WSISA,在肺癌和脑癌两类癌症的三个不同数据库上性能均超出基于小块图像方法,有力支持大数据时代的精准个性化医疗。

    论文三:SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

    针对图像描述生成任务,SCA-CNN基于卷积网络的多层特征来动态生成文本描述,进而建模文本生成过程中空间及通道上的注意力模型。

    论文四:Deep Self-Taught Learning for Weakly Supervised Object Localization

    本文提出依靠检测器自身不断改进训练样本质量,不断增强检测器性能的一种全新方法,破解弱监督目标检测问题中训练样本质量低的瓶颈。

    论文五:Diverse Image Annotation

    本文提出了一种新的自动图像标注目标,即用少量多样性标签表达尽量多的图像信息,该目标充分利用标签之间的语义关系,使得自动标注结果与人类标注更加接近。

    论文六:Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation from Single and Multiple Images

    基于曼哈顿结构与对称信息,文中提出了单张图像三维重建及多张图像Structure from Motion三维重建的新方法。

    CVPR重点论文解析

    CVPR选中的六篇文章,我们将重点解析《视频的实时神经风格迁移》(Real-Time Neural Style Transfer for Videos)[澳门金莎,1]这篇颇具创新的文章。

    在过去很长一段时间内,业界流行的图像滤镜通常只是对全局颜色属性的调整,比如亮度、色相、饱和度等。在2016年的CVPR,Gatys等人[2]首创性地提出将深度神经网络应用于图像的艺术风格迁移,使得输入图像能够模仿如梵高的星空、莫奈的日出印象等任何类型的艺术风格,效果惊艳。

    Gatys等人工作虽然取得了非常好的效果,但是缺点是基于优化,非常耗时;到2016 ECCV时,Johnson等人[3]提出了使用深度前向神经网络替代优化过程,实现了实时的图像风格迁移,修图工具Prisma随之风靡一时。但直接将图像风格迁移的方法应用到视频上,却会使得原本连贯的视频内容在不同帧中转化为不一致的风格,造成视频的闪烁跳动,严重影响观感体验。为了解决闪烁问题,Ruder等人[4]加入了对时域一致性的考虑,提出了一种基于优化的视频艺术滤镜方法,但速度极慢远远达不到实时。

    澳门金莎 7

    腾讯AI Lab科学家使用深度前向卷积神经网络,探索视频艺术风格快速迁移的可能,提出了一种全新的两帧协同训练机制,保持了视频时域一致性,消除了闪烁跳动瑕疵,同时保证视频风格迁移能够实时完成,兼顾了视频风格转换的高质量与高效率。

    视频艺术滤镜模型如下图所示。通过损失网络(Loss Network)计算连续两个输入视频帧之间的损失来训练风格变换网络(Stylizing Network)。其中空间损失(Spatial Loss)同时描述了图像的内容损失以及风格损失;时间损失(Temporal Loss)描述了两个风格变换后的视频帧之间的时间一致性。

    澳门金莎 8

    文章相关论文

    [1] Haozhi Huang, Hao Wang, Wenhan Luo, Lin Ma, Wenhao Jiang, Xiaolong Zhu, Zhifeng Li, and Wei Liu. Real-Time Neural Style Transfer for Videos. CVPR, 2017.

    [2] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. CVPR, 2016.

    [3] J. Johnson, A. Alahi, and L. Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. ECCV, 2016.

    [4] M. Ruder, A. Dosovitskiy, and T. Brox. Artistic style transfer for videos. German Conference on Pattern Recognition, 2016.

    就算目标主角并不是人类,大概也算不上精彩。眼睛鼻子嘴,至少零件齐全

    也是目前大火的“换脸”技术的老前辈了。

    据他的分析,其实DeepNude只是“站在巨人的肩上”,里面用到的技术都是近两年CV领域的重大研究成果,而且都已经开源。

    2. ACL

    Meetings of the Association for Computational Linguistics

    国际计算机语言协会年会

    7月30日 - 8月4日|加拿大温哥华

    ACL是计算语言学里最重要的国际会议,今年是第55届。会议涵盖生物医学、认知建模与心理语言学、交互式对话系统、机器翻译等各个领域,今年有194 篇长论文、107 篇短论文、21 个软件演示及 21 篇主题演讲。在2017谷歌学术指标(Google Scholar)按论文引用率排名, ACL是计算机语言学和自然语言处理领域最高级别国际学术年会。

    腾讯AI Lab副主任俞栋认为,「自然语言的理解、表达、生成和转换一直是自然语言处理的核心问题。近年来有很多新的解决思路和方法。今年的ACL涉及自然语言处理的各方面,尤其在语义解析、语义角色标注、基于语义和语法的自然语言生成、机器翻译和问答系统方向上都有一些有趣的工作。」

    腾讯AI Lab主任张潼介绍到,「ACL早期利用语法和规则分析自然语言,90年代后,随着以LDC(Linguistic Data Consortium)为代表的自然语言数据集建立扩充,统计自然语言方法在计算语言学里作用越来越大并成为主流。2000年后随着互联网高速发展及以自然语言为核心的人机交互方式兴起,自然语言研究被赋予极高应用价值。」

    腾讯AI Lab三篇文章入选ACL

    论文一:Modeling Source Syntax for Neural Machine Translation

    本文提出将句法树转化为句法标签序列的轻量级方法,有效将源端句法信息引入神经网络翻译系统,被证实能显著提高翻译效果。

    论文二:Chunk-Based Bi-Scale Decoder for Neural Machine Translation

    本文引入一个额外组块神经网络层,从组块到词的层次生成译文,帮助实现神经网络翻译系统短语级别的建模,实验表明该方法在多种语言上都能显著提高翻译效果。* 本文作者亦致谢前任职机构

    论文三:Deep Pyramid Convolutional Neural Networks for Text Categorization

    文章提出了一种能有效表达文本长距离关系的复杂度词粒度CNN。本文研究了如何加深词粒度CNN对文本进行全局表达,并找到了一种简单网络结构,通过增加网络深度提升准确度,但不过多增加计算量。实验表明15层的DPCNN在六个情感和主题分类任务上达到了目前最佳结果。

    那么,怎样的迁移才可走出这个框框,让这个星球上的万物,都有机会领取视频改造的恩泽?

    澳门金莎 9

    当然,作者本身对这项技术是持批判态度的。

    3. ICML

    International Conference on Machine Learning

    国际机器学习大会

    8月6日 - 11日|澳大利亚悉尼

    机器学习是人工智能的核心技术,而ICML是机器学习最重要的两个会议之一(另一个是NIPS)。ICML源于1980年在卡内基梅隆大学举办的机器学习研讨会,现由国际机器学习学会(IMLS)主办。2017谷歌学术指标以「机器学习」关键词排名,ICML位列第一。

    腾讯AI Lab主任张潼博士介绍到,「很多经典论文和算法,如CRF,都是在ICML上首次提出的,这个会议涉及机器学习相关的所有研究,包括近年非常热门的深度学习、优化算法、统计模型和图模型等。在早期,ICML更注重实验和应用,而NIPS更注重模型和算法,但近年来两个会议有些趋同。」

    腾讯AI Lab四篇文章入选ICML

    论文一:Scaling Up Sparse Support Vector Machines by Simultaneous Feature and Sample Reduction

    本文提出了第一个能在模型训练开始前,同时检测和去除稀疏支持向量机中不活跃样本和特征的筛选算法,并从理论和实验中证明其能不损失任何精度地把模型训练效率提升数个量级。

    论文二:GSOS: Gauss-Seidel Operator Splitting Algorithm for Multi-Term Nonsmooth Convex Composite Optimization

    本文提出了求解多块非光滑复合凸优化问题的算子分裂新算法,该算法采用Gauss-Seidel迭代以及算子分裂的技巧处理不可分的非光滑正则项,并以实验证实了该算法的有效性。

    论文三:Efficient Distributed Learning with Sparsity

    本文提出了一个高维大数据中能更有效学习稀疏线性模型的分布式算法。在单个机器训练样本足够多时,该算法只需一轮通信就能学习出统计最优误差模型;即使单个机器样本不足,学习统计最优误差模型的通信代价只随机器数量对数曲线上升,而不依赖于其他条件数。

    论文四:Projection-free Distributed Online Learning in Networks

    本文提出了去中心化的分布式在线条件梯度算法。该算法将条件梯度的免投影特性推广到分布式在线场景,解决了传统算法需要复杂的投影操作问题,能高效处理去中心化的流式数据。

    腾讯AI Lab于2016年四月成立,专注于机器学习、计算机视觉、语音识别和自然语言理解四个领域「基础研究」,及内容、游戏、社交和平台工具型四大AI「应用探索」。腾讯AI Lab主任及第一负责人是机器学习和大数据专家张潼博士(详情可点链接),副主任及西雅图实验室负责人是语音识别及深度学习专家俞栋博士。目前团队有50余位AI科学家及200多位应用工程师。

    澳门金莎 10

    澳门金莎 11

    澳门金莎 12

    如果你还没学会这项厉害的研究,那这次一定要抓紧上车了。

    原理

    按着你想要的节奏开花:中老年表情包利器

    现在,TensorFlow开始手把手教你,在TensorFlow 2.0中CycleGAN实现大法。

    DeepNude主要使用了2018年发表的文章《Image Inpainting for Irregular Holes Using Partial Convolutions》中提出的图像到图像技术。

    来自卡耐基梅隆大学的团队,开发了自动变身技巧,不论是花花草草,还是万千气象,都能自如转换。

    这个官方教程贴几天内收获了满满人气,获得了Google AI工程师、哥伦比亚大学数据科学研究所Josh Gordon的推荐,推特上已近600赞。

    它可以把简笔画变成色彩丰富的图像,感兴趣的同学可以去Demo网站在浏览器中试玩。

    澳门金莎 13

    澳门金莎 14

    澳门金莎 15

    云,也变得急切了

    有国外网友称赞太棒,表示很高兴看到TensorFlow 2.0教程中涵盖了最先进的模型。

    具体来说,DeepNude主要使用了计算机视觉领域的3项技术。

    或许是怀着超越大前辈Cycle-GAN(来自朱俊彦团队) 的意味,团队给自家的GAN起了个非常环保的名字,叫Recycle-GAN

    这份教程全面详细,想学CycleGAN不能错过这个:

    1、图像修复

    这位选手,入选了ECCV 2018

    详细内容

    即上面提到的文章,这是来自英伟达Guilin Liu等人的团队在2018年发表的研究。

    Recycle之道,时间知道

    在TensorFlow 2.0中实现CycleGAN,只要7个步骤就可以了。

    当画面被严重涂抹后,模型仍然能够恢复出“原来”的图像,可以说是“毫无PS痕迹”。

    Recycle-GAN,是一只无监督学习的AI。

    1、设置输入Pipeline

    澳门金莎 16

    不成对的二维图像数据,来训练视频重定向(Video Retargeting) 并不容易:

    安装tensorflow_examples包,用于导入生成器和鉴别器。

    Image Inpainting除了能修复受损的图像,还能去掉图像中的某些物品,比如把草地中的石头涂抹一下,恢复的后图片中不再有石头。

    一是,如果没有成对数据,那在视频变身的优化上,给的限制就不够,容易产生不良局部极小值 (Bad Local Minima) 而影响生成效果。

    !pip install -q git

    澳门金莎 17DeepNude用它除掉了图片里的衣服。" style="width:60%;margin:1rem auto">

    二是,只依靠二维图像的空间信息,要学习视频的风格就很困难。

    2、输入pipeline

    {"type":1,"value":"2、Pix2Pix

    澳门金莎 18

    在这个教程中,我们主要学习马到斑马的图像转换,如果想寻找类似的数据集,可以前往:

    这是加州大学伯克利分校在2017年发表的文章,使用条件对抗网络作为图像到图像转换问题的通用解决方案。

    你开花,我就开花

    从语义分割到原图、从黑白到彩色、补全简笔画等等,Pix2Pix几乎无所不能。

    针对这两个问题,CMU团队提出的方法,是利用时间信息(Temporal Information) 来施加更多的限制,不良局部极小值的现象会减少。

    在CycleGAN论文中也提到,将随机抖动和镜像应用到训练集中,这是避免过度拟合的图像增强技术。

    3、CycleGAN

    另外,时间、空间信息的搭配食用,也能让AI更好地学到视频的风格特征

    和在Pix2Pix中的操作类似,在随机抖动中吗,图像大小被调整成286×286,然后随机裁剪为256×256。

    这是来自朱俊彦本人的博士论文,曾获得2018年ACM SIGGRAPH最佳博士论文奖。

    澳门金莎 19

    在随机镜像中吗,图像随机水平翻转,即从左到右进行翻转。

    CycleGAN使用循环一致性损失函数来实现训练,而无需配对数据。换句话说,它可以从一个域转换到另一个域,而无需在源域和目标域之间进行一对一映射。这开启了执行许多有趣任务的可能性,例如照片增强,图像着色,风格迁移等。您只需要源和目标数据集。

    时间信息:进度条撑不住了 (误)

    澳门金莎 20

    它可以在普通的马和斑马之间进行转换,也能把夏天的景色变成冬天的景色。

    重要的是,视频里的时间信息唾手可得,无需寻觅。

    澳门金莎 21

    澳门金莎 22

    然后,看一下Recycle-GAN,是怎样在两段视频的图像之间,建立映射的。

    3、导入并重新使用Pix2Pix模型

    以上3种工具的代码都已经开源。

    澳门金莎 23

    通过安装tensorflow_examples包,从Pix2Pix中导入生成器和鉴别器。

    DeepNude文件

    三位选手对比一下

    这个教程中使用的模型体系结构与Pix2Pix中很类似,但也有一些差异,比如Cyclegan使用的是实例规范化而不是批量规范化,比如Cyclegan论文使用的是修改后的resnet生成器等。

    DeepNude软件包中所有的文件如下:

    Pix2Pix是有成对数据的;CycleGAN靠的是循环一致性 (Cycle Consistency) ;RecycleGAN用的是视频流的时间信息

    我们训练两个生成器和两个鉴别器。生成器G架构图像X转换为图像Y,生成器F将图像Y转换为图像X。

    澳门金莎 24

    翻来覆去的,比CycleGAN的历程还要艰辛。好像终于感受到,Recycle-GAN这个名字是有道理的。

    鉴别器D_X区分图像X和生成的图像X,辨别器D_Y区分图像Y和生成的图像Y。

    袁宵认为DeepNude软件还是存在一些缺点可以改进的:

    对抗损失(Adversarial Loss) ,朱俊彦团队的循环损失(Cycle Loss) ,反复损失(Recurrent Loss) ,以及CMU团队自己造的“再”循环损失(Recycle Loss) 都用上,才是强大的损失函数

    澳门金莎 25

    1、软件体积太大:一个pyqtlib.rar文件的体积就高达1.9GB。

    效果怎么样?

    澳门金莎 26

    2、转换速度慢:处理一张图片需要30秒;

    似乎只有和CycleGAN比一场,才知道时间信息好不好用。

    澳门金莎 27

    澳门金莎 28

    第一局,先来看看换脸的效果:

    4、损失函数

    3、内容不尊重女性:这是对深度学习技术的错误使用

    澳门金莎 29

    在CycleGAN中,因为没有用于训练的成对数据,因此无法保证输入X和目标Y在训练期间是否有意义。因此,为了强制学习正确的映射,CycleGAN中提出了“循环一致性损失”(cycle consistency loss)。

    澳门金莎 30

    RecycleGAN用奥巴马生成的川川,除了嘴皮子,脸的角度也在跟着变化。而中间的CycleGAN,只有嘴的动作比较明显。

    鉴别器和生成器的损失与Pix2Pix中的类似。

    他认为,DeepNude可以使用TensorFlow来实现,压缩模型的体积。软件本身也应该改变目前不尊重女性的做法,把这项技术用在正途上。

    第二局,你见过蒲公英开花的样子么:

    循环一致性意味着结果接近原始输入。

    研究人员应努力为人类谋福祉,而不是通过违法软件获取收入。

    澳门金莎 31

    例如将一个句子和英语翻译成法语,再将其从法语翻译成英语后,结果与原始英文句子相同。

    求种现场

    当RecycleGAN的蒲公英,学着菊花的动作,变成茂密的团子,CycleGAN还在慢慢地绽放。

    在循环一致性损失中,图像X通过生成器传递C产生的图像Y^,生成的图像Y^通过生成器传递F产生的图像X^,然后计算平均绝对误差X和X^。

    虽然袁宵本人的愿望很美好,但是这个项目的讨论页面还是不可避免地成为了求种现场。

    注意,团队是预先把两种花,从初开到完全凋谢的时间调成一致。

    前向循环一致性损失为:

    随着DeepNude下架,有人希望作者能提供原版软件下载地址,或者提供一些代码之类的。

    除此之外,再看云卷云舒 (片头也出现过) :

    反向循环一致性损失为:

    作者本人当然是严词拒绝,不光关乎道德,因为在中国传播色情软件是违法的。

    澳门金莎 32

    澳门金莎 33

    最后插播一条最新消息,另一款”羞羞”的软件也被视为非法了,那就是可以把爱情动作片女主角换成任意女神的Deepfake。

    原本是悠然地移动。

    初始化所有生成器和鉴别器的的优化:

    在美国弗吉尼亚州,未经本人同意,制造虚假的裸露图片或视频将视作犯罪,可处以罚款乃至监禁。

    和喷气一般的云,学习了之后,就获得了急躁的节奏。

    5、检查点

    传送门

    澳门金莎 34

    6、训练

    Image-to-Image Demo:

    这样一来,改变天气就不难了。团队说拍电影的成本,可以用这样的方法降下来。

    注意:为了使本教程的训练时间合理,本示例模型迭代次数较少(40次,论文中为200次),预测效果可能不如论文准确。

    代码也快来了

    尽管训练起来很复杂,但基本的步骤只有四个,分别为:获取预测、计算损失、使用反向传播计算梯度、将梯度应用于优化程序。

    其他涉及的论文地址:

    澳门金莎 35

    澳门金莎 36

    Image Inpainting for Irregular Holes Using Partial Convolutions

    CMU的科学家们说,大家很快就可以看到代码了。

    7、使用测试集生成图像

    不过在那之前,我们还是有许多资源可以欣赏。

    澳门金莎 37

    Image-to-Image Translation with Conditional Adversarial Networks

    团队在项目主页里,提供了丰富的生成效果:

    澳门金莎 38

    澳门金莎 39

    Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

    论文请至这里观察:

    8、进阶学习方向

    在上面的教程中,我们学习了如何从Pix2Pix中实现的生成器和鉴别器进一步实现CycleGAN,接下来的学习你可以尝试使用TensorFlow中的其他数据集。

    —完—

    最后吐个槽

    你还可以用更多次的迭代改善结果,或者实现论文中修改的ResNet生成器,进行知识点的进一步巩固。

    AI社群 | 与优秀的人交流

    原本是日落:

    传送门

    小程序 | 全类别AI学习教程

    澳门金莎 40

    澳门金莎 41

    看了黎明之前的视频,就跟着变了日出:

    GitHub地址:

    喜欢就点「在看」吧 !

    澳门金莎 42

    可是,日落变日出这样的操作,直接倒放不好么?

    作者系网易新闻·网易号“各有态度”签约作者

    —返回搜狐,查看更多

    —完—

    责任编辑:

    AI社群 | 与优秀的人交流

    小程序 | 全类别AI学习教程

    澳门金莎 43

    喜欢就点「好看」吧 !

    本文由金莎娱乐发布于互联网,转载请注明出处:英伟达伯克利研究,Lab多篇论文入选CVPR

    关键词: