“女儿概念股”效应:多模态或成AI应用胜负手
2023-12-02 12:48

“女儿概念股”效应:多模态或成AI应用胜负手

本文来自微信公众号:财联社 (ID:cailianpress),作者:宋子乔,原文标题:《“女儿概念股”效应带来的启示:多模态或成AI应用胜负手 传媒行业将被赋能》,题图来源:视觉中国

文章摘要
本文介绍了“女儿概念股”效应带来的启示,即多模态可能成为AI应用的胜负手。Pika作为AI初创公司,通过其视频生成应用Pika 1.0引发了市场对多模态应用的无限遐想。多模态是指多种信息模态的结合,如文本、图像、视频、音频等。多模态能力将推动AI应用场景的拓展,进而促进产业生态的发展。

• 💡 多模态是AI应用场景拓展的关键,有助于提高产品核心竞争力,推动硬件端迭代。

• 💡 多模态GPT-4V API的开放有望产生全新的图像、视频等多模态应用,并为硬件端提供支撑。

• 💡 多模态AI工具有望赋能传媒行业,拓展影视、广告营销等领域的AI应用场景。

“别人家的股票”因为“别人家的女儿”站上了风口。


硅谷AI初创新星Pika爆火,不仅让“女儿概念股”信雅达收获两个涨停,还将这股暖风吹到了A股AI应用板块。


12月1日(周五)午后,昆仑万维、万兴科技先后涨停,汤姆猫、福昕软件、国脉文化等多只个股强势上涨。



不过,信雅达在12月1日盘后再次发布公告:截至本公告日,公司没有人工智能视频生成类相关产品和业务;未投资Pika,也未与Pika有任何业务往来,Pika开发团队创始人之一郭文景未在公司任职。


要充分理解这波“女儿概念股”效应的扩散,首先要理解Pika有何出众之处。


回到故事的起点Pika,该公司首款产品Pika 1.0是一款视频生成应用,于北京时间11月29日正式上线。通过输入文字、图片,Pika 1.0能够生成不同风格的3D动画、动漫、卡通和电影,并支持对于视频实时编辑和修改。


“文生视频”是这款应用的核心功能,它与“文生图”的底层技术一致,但实现起来难度更高、成本更大,可以看作是文本生成图像的进阶版技术,两者都属于生成式AI的多模态应用。


可以说,Pika的强大功能再次唤起了市场对于AI应用的无限遐想,也点燃了沉寂已久的AI应用板块。


多模态——AI应用场景拓展的关键


多模态指的是多种模态的信息,包括文本、图像、视频、音频等。


AI领域研究一直致力于以技术实现计算机对于人类认知世界方式的高度效仿。人类具备视觉,听觉,触觉,味觉和嗅觉五种模态,单模态交互显然是一个局限的、并不完整的模型。所以“多模态”研究的大势所趋已十分明朗。


OpenAI发布的GPT-V4附带语音和图像处理功能,标志ChatGPT正式进入多模态时代,也向外界展示了这家AI龙头公司打造多模态AI应用的决心。


与此同时,谷歌、Meta、微软同样投入人员和精力参与其中;xAI面向XPremium+用户推出聊天机器人Grok未来也望发展图像生成、图像识别、语音识别等多模态能力……


对于公司而言,多模态能力提高了AI应用的泛化能力,是产品核心竞争力;对于产业而言,多模态是AI应用场景拓展的关键,而应用生态的完善将反哺上游,有望进一步推动硬件端迭代。


中信证券判断,多模态会是推动本轮AI热点继续前进的下一个增长点。预计下一代多模态将会快速拓展目前大语言模型有限的应用场景,显著提高语言模型的泛化能力,并有望在成本方面展现出对传统专有模型的优势,从而推动如AI Agent等应用的落地,进而推动自动驾驶、机器人等应用获得革命性突破。


天风证券表示,多模态GPT-4V API开放,有望把现有的图像、视频等转化为新的训练数据,有望结合LBS、社交等诞生全新应用,而生态应用的发展将为硬件端发展提供有力支撑。


头部公司尚未拉开身位,比赛才刚刚开始


尽管多模态被赋予了巨大的想象空间,但现实是,相关应用的优化迭代速度和商业化进程均较慢。


即便如Meta和谷歌这样的硅谷人工智能巨头,在文生视频上同样进展缓慢,它们分别推出的Make-A-Video和Phenaki均尚未公测;而前期火爆的文生图领域,虽有Lensa AI、妙鸭相机等出圈,但营收持续增长能力仍待验证。Lensa AI推出人像生成功能后,去年12月前12日内创收2930万美元,但2023年7月全球收入已回落为100万美元;妙鸭相机上线即火爆,半月营收估计超过29万美元,后续须上线新模板、新玩法维持营收增长。


技术不成熟是所有公司面临的共同问题。以文生视频为例,其底层模型及技术仍在优化,未筛选出最优模型。这也导致当下的热门应用,如RunwayGen-2、Zero Scope等存在一些共同问题:复杂人物动作生成帧连续效果较差;非日常场景的视频架构能力连续能力一般;多主体视频生成缺乏逻辑连续性等。


这也正是前文所述的Pika诞生的原因——创始人郭文景和同学认为Runway和Adobe Photoshop当时的AI工具并不算好用,才有了自己做类似工具的想法。颇有些“乾坤未定,你我皆是黑马”的意味。


多模态AI应用将带来哪些投资机会?


对于大模型来说,多模态生成要求的计算量、存储量远高于纯文本模态。


中信证券表示,在传统的纯文字语言模型中,24MB的存储空间可以处理约4000-6000个单词。如果我们假设使用500个单词来描述图片中的全部信息,那么处理图片所需的算力大约是处理文字的8-12倍。


这只是图片模态和文本模态之间的比较,视频生成应用的算力、存力需求比图片生成应用更大。


基于此,AI多模态加速燃烧算力、存力,将为这两大产业链带来更大的想象空间。


国盛证券看好算力储备大厂在多模态生成领域的发展,其以文生图应用Midjourney为例,该应用日活达1500万,年收入超1亿美元,它推出的多版无限量套餐、高速GPU服务反映出市场对算力的巨大需求。该机构分析师认为,目前国内文生图多为计次付费,尚未出现无限量套餐,或因算力受限,具有算力储备的云服务厂商在发展视频生成类应用上具有天然优势。


从应用端来看,多模态AI工具有望赋能传媒行业。


华西证券认为,AI天然具备情感陪伴属性,多模态技术使其能力从文本互动扩大至影视生成。长城证券也表示,多模态能力的突破有助于拓展AI应用场景,传媒行业中游戏、影视、广告营销、数字媒体等板块均有望受益于AI多模态能力的提升。


国盛证券宋嘉吉旗帜鲜明地指出,AI文生视频是多模态应用的下一站。该分析师称,文生视频技术的日趋成熟和广泛应用,或将为当下热门的短剧市场带来变数,该技术有望极大降低短剧制作的综合成本,为解决“重制作而轻创作”的共性问题提供解决方案,短剧制作的重心有望回归高质量剧本创作。


本文来自微信公众号:财联社 (ID:cailianpress),作者:宋子乔

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP