除了制造“逼真假脸”,GANs还在看不见的角落里搞事情
2019-02-19 08:09

除了制造“逼真假脸”,GANs还在看不见的角落里搞事情

自2014年诞生之日起,GANs(Generative Adversarial Nets,生成对抗网络)就一直是机器学习领域的“流量担当”,过去的两年间更是迎来了成果井喷。


有人还专门为它建立了一个GAN Zoo,用来收集所有已被命名的GAN,目前已经有500多个了。欣赏一下这令人咋舌的增长曲线:



尽管GANs的进步是日新月异,但仔细观察一下就会发现,最广为人知的吸睛案例,大都集中在娱乐领域,而且不乏吐槽之声。


比如从去年年底英伟达推出的GAN,合成的人脸几乎能够以假乱真,一众媒体直呼“可怕”。前不久它终于有了自己的名字“StyleGAN”,源代码也免费公布,立马又被爱搞事情的网友送到了风口浪尖上。

来自Uber的软件工程师Philip Wang利用styleGAN做了一个网站,每次刷新都会生成一个“现实中不存在”的人脸,逼真得令人毛骨悚然。很快就有网友表示,看到了一张跟自己一样的脸,然后她就真的不存在了……这个赛博朋克式的神展开,立马让大家带入了被“假脸”支配的恐惧。


当然,除了探讨照片是否可信、带来识别安全问题怎么办这些问题之外,或许我们也应该关注一下,为什么GANs一路进化,大多数研究却总是聚焦在换脸技术上呢?


这场热闹非凡的换脸游戏背后,恐怕隐藏着一个GANs从算法走向产业道路上最难突破的瓶颈。


GANs新成员:换脸技术哪家强?


GANs从出道那天开始,“图像生成”就是最能打的一块招牌。而在各种各样GANs中,“新晋网红”styleGAN,绝对是面部生成的技术担当。


关于英伟达这个新模型,我们去年就第一时间解读过,在此不再赘述。简单来说,就是让生成器模仿风格迁移算法的方法,学会识别出更高级、也更有意义的特征变化(比如年龄、脸部细节等等),从而让图像生成效果更加逼真。



同时,styleGAN的识别效率也大幅度提升,能够自动分离图像中的变化,开发者能够以直观的方式控制合成结果。加上前不久英伟达开放了图像数据集和styleGAN的源代码,自然吸引了不少技术大佬们跃跃欲试。


有用它“造老婆”的,一位名叫roadrunner01的程序猿,用大量二次元少女的图片训练StyleGAN,各种风格的纸片人妹子任由选择。



当然还有装逼失败的。由于准备不充分,靠StyleGAN生成假脸的网站“thispersondoesnotexist”就被群嘲了,因为网友在上面找到了几乎和自己一样的脸,就此掀起了一阵“刷新一次消失一个人类”的都市灵异文学创作热情。真的是,没有全球70亿人的人脸数据集,就不要揽瓷器活儿啊。


不仅图像能造假,视频也没逃过此劫。去年年初,基于GAN的视频换脸术Deepfakes,就被用来制造了一大堆足以乱真的假视频,奥巴马、斯嘉丽·约翰逊、神奇女侠盖尔加朵、杨幂、刘亦菲等中外名人纷纷成了假视频的主角。



尽管GANs的进展很令人欣喜,但一个尴尬而无奈的现实也就此清晰地呈现在了它的进化之路上——绝大多数成果都聚焦在图像生成上,并且常常以娱乐、夸张的形式出现,“逆天”“以假乱真”“被色情”等新闻不绝于耳。


人脸生成的效果太好、门槛太低,正在挑战着公众的辨别能力,让大众对网络内容和图像证据的信任进一步坍塌,而那些大众期待的、GANs真正改变产业和生活的效用,却仿佛集体失声了。怎么回事?


除了“逼真假脸”,GANs还有哪些打开方式?


首先要替GANs澄清一下,作为一个能自我判别和推倒出新样本的生成算法,它能应用的训练场景和商业前景是非常大的。而且,正在勤勤恳恳地“为人民服务”,为不少产业的进化添砖加瓦。比如:


1. 影视创作


创作是最考验想象力和艺术张力的地方,也是越来越劳动密集型的产业之一。在工业制作体系成熟的好莱坞,一部电影从编剧到营销团队往往多大数千人。而GAN恰恰可以改变这样昂贵而高风险的生产过程。


项目前期,GAN可以利用文字描述生成相匹配的逼真图像,快速打破次元壁,高效而还原地生成电影脚本,避免因为画风跑偏而收获原著粉赠送的“人参万两”;



在后期剪辑上,IBM正在利用以GAN为基础的AI算法,去识别视频中的台词和场景的意义,根据角色的心情、剧情的复杂程度以及前后片段的关联程度,快速生成电影宣传片,大幅压缩了制作成本和时间周期。


2. 图像修复


现实中,我们常常会面对一些历史原因而辨识体验较差的图像,比如被损毁的文物残片、消失了一半的古建筑、上个世纪创作的游戏或电影,对它们进行修复或复刻,往往只能依靠某些专精技术人员日以继夜的努力。现在在GAN的帮助下,可以更高效地还原和处理这些瑕疵部分。


比如在英伟达的一篇论文中,就阐述了它是如何用GAN训练出的“图像翻译网络”(Partial Convolutions)为图像上的建筑和场景补上缺失部分的。



一些超经典的游戏,比如《重返德军总部》《上古卷轴 III》《马克思·佩恩》等,都陆续被 ESRGAN(增强型超分辨率生成对抗网络)进行了重制。画面变得更加精美的同时,还忠实地保留了原来的艺术风格,以后玩家和剧迷们再也不用担心心爱的作品被人工改得面目全非了。


《马克思·佩恩》原版截图和ESRGAN重制后的截图


3.个性时尚导师


除了还原,GANs还具备超强的想象力,可以通过多元样本进行判断与生成,从而输出个性化又风格统一的方案。比如亚马逊和阿里巴巴都在打造的“时尚人工智能”(FashionAI),就是利用GANs实现的。加载了GANs的电商推荐系统不仅能够向用户提供个性化的时尚搭配建议,而且还能够将二维商品图转化成3D试穿效果图,从而帮助商家进行服装销售。


研究人员利用亚马逊商城用户在六种商品(男女款式的鞋类,上装,下装)的购买数据来分析其商品偏好,然后训练出相应的GAN模型。阿里巴巴的新零售线下店,也是采用了该技术来向店内顾客展示和推荐商品。



4.新成分预测


除了这些触手可及的现实应用,GANs在产业端更值得期待的价值,还体现在新药研发和材料学领域,比如用来生成新的药学分子结构和合成新材料等等。


有数据统计,每种新药研发大约需要10年时间。期间,制药公司需要设计合成成千上万的分子,然后一一进行生物学测试,成功率往往却只有1/20000至1/30000。有了GANs,就能相关信息对分子结构进行高精度的样本预测,加快实验进度的同时,全新的未知成分显然更有可能帮助人类攻克悬而未决的医学难题。


因此,尽管这一应用目前还停留在创意阶段,但其背后的商业想象空间却格外巨大。



目前来看,GANs正在一群产业巨头们的支持下,开启了更广阔的应用场景探索之路。这场技术拉力赛,并不只有奇闻异事,而是在真枪实战中打磨出了金子般的光芒。


为什么出风头的总是“变脸”?


既然GANs已经斩获了这么多成绩,为什么一提起来,大家想到的总是“照骗”“视骗”这些贩卖焦虑的新闻呢?那些干实事的模型不配有姓名吗?


客观来说,一项新技术要证明自己的强大之处,用一些“逆天”“超越人类想象”之类夸张的效果来迅速被大众所认知,这不难理解。


但GANs之所以被这些“造假”新闻淹没,还要感谢将股价押注在AI身上的英伟达不断造势,而“以假乱真”“令人害怕”的新闻背后,更关系着媒体们无数爆款文的绩效,在这样的双重推动下,“只知换脸,无论其他”的GANs自然愈发深入人心了。



而那些下沉在产业端的GANs应用,又为何都如此“谨小慎微”、罕见发声呢?一方面GANs自身还有一些缺陷尚待解决,导致其成果并不稳定。


比如模式坍塌(Mode collapse)问题,在复杂且多模态的自然数据集中,生成器只能从相似样本的模式集中生成样本,这将直接限制结果的多样性,从而影响使用。


另外,在GANs相关训练中,很难精准地判断合适能生成高质量的作品,现实中显然不可能投入无限多的时间和资源去等待一个未知的训练结果。因此,今天说到的应用案例,都更具示范价值和探索意义,距离大规模应用还有一段路要走。对于企业来说,贸然推出不成熟的产品反而会引发群嘲,自然更愿意低调行事、关门打磨产品了。


更重要的是,GANs需要大量商业数据的投喂,才能发挥出实验室类似的效果。而无论是数据成本还是算力成本,都决定了GANs所代表的便利和可能性,目前只对一些产业巨头有用。


这也是为什么,除了学界和个人开发者偶尔搞点“耸人听闻”的大新闻,GANs至今还没能在现实领域中遍地开花。


不过,娱乐往往是速朽的,“造假”恐怖事件玩得多了,大众也会产生审美疲劳,最终很可能将一个特殊领域的潜在危险,变成对整个技术的泛在质疑。不要让一切值得思考的,都成为娱乐的附庸。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定