后GPT时代,多模态是最大的机会
Admin 2023-09-20 群英技术资讯 319 次浏览
“未来的通用人工智能一定是多模态智能。”
作者:王咏刚,SeedV实验室创始人/CEO,创新工场AI工程院执行院长
编者按:ChatGPT/GPT-4的横空出世,已经彻底改变了NLP领域的研究态势,并以其多模态的潜能,点燃了人们心中通往AGI的第一簇火花。
AI 2.0时代因此而至。但新时代的技术列车将通往何方?全新的商业机会又埋藏在何处?SeedV实验室创始人/CEO、创新工场AI工程院执行院长王咏刚认为:多模态算法正处在“寒武纪大爆发”的早期。
以下为王咏刚的笔记全文分享。
△王咏刚
我既是软件工程师,也是投资人和创业者。我曾参与多个成功AI项目的创建、孵化或投资。
今天,ChatGPT开启了崭新的AI 2.0时代,我个人也全力投入到一个3D+AI的全新创业历程中。在我的创业团队,大家最关心的AI核心技术是跨文本、图像、视频、3D、动画序列等信息的多模态AI。
此前一段时间,我将我们团队在这个领域的思考整理成多份笔记。本文是这些笔记的汇总和归纳。童超、潘昊等SeedV实验室成员直接为本文贡献了重要的技术实验、思考结论或参考信息,在此表示特别感谢。
一、未来的通用智能一定是多模态智能;
二、GPT-4代表的大语言模型具备某些多模态潜能;
三、多模态算法正处在“寒武纪大爆发”的早期;
四、多模态算法很可能再次收敛到某种“大力出奇迹”的超级大模型;
五、多模态是大模型科研与工程领域最好的弯道超车机会;
六、GPT让AI平民化,应用开发者很难建立核心技术壁垒;
七、但在多模态领域,三至五年内仍有修建“技术护城河”的大量机会;
八、多模态领域的应用创新、模式创新机会远多于单模态领域。
我做过很多年自然语言处理(NLP)相关的工程研发。不夸张地说,GPT终结了大多数独立存在的NLP上下游任务。不仅大量科研方向被GPT超越,无数自然语言生成、对话、交互相关的应用问题也一夜之间得以解决。
好消息是,人人都能用GPT API攒出点儿效果惊艳的应用产品,不懂编程的人还能雇佣AI帮忙编程序;坏消息是,NLP技术彻底失去了神秘感,所有应用开发团队的NLP水平被强行拉齐,大家可以拼产品、拼运营,但要在应用侧建立NLP相关的技术护城河,就显得特别困难了。
一方面,OpenAI的ChatGPT、GPT API、ChatGPT Plugin核心生态已初具规模,LangChain、AutoGPT、HuggingGPT等外围生态方兴未艾。未来无论中美,只要是面向消费者的,线上的,不需要私有部署或不涉及敏感数据的应用,大都可以直接连接大厂大模型。与搜索引擎时代的搜索和广告产品类似,这个领域必将是赢者通吃、大厂垄断的模式。中美市场里,大概各自有两三个超级AI大模型一起吃掉通用智能计算的全部份额。
另一方面,在企业级客户、政府客户那边,有体量巨大的私有部署、私域数据、敏感数据、定制开发等专有智能计算的需求。这些需求限于数据无法充分交换,不能用大厂大模型或通用方案解决。幸好,以LLaMA为发端,“羊驼家族”为流变,层出不穷的小模型(可以在终端设备甚至浏览器中运行)、中模型(数十亿到数百亿参数)、大模型(千亿参数或以上)以开源模式杀入市场。只要原始许可协议支持,开发者就能基于这些开源模型迅速完成定制、领域对齐和封装、部署,为企业或政府客户提供智能应用产品。
上图来自Yang, JF et al., Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond。
态势很明显,在通用智能计算领域,垄断会是未来的基本形态;在专有智能计算领域,基于开源模型简单封装的解决方案将迅速实用化,并在开发和部署成本上实现“白菜价”。
大语言模型(还可以算上多模态领域里已经开源和普及的Stable Diffusion套装)会迅速像此前的人脸识别技术一样,发展为人人可用的“白菜化”解决方案。
大语言模型和相关技术仍在发展,但上述超级平台和开源生态齐头并进的态势在事实上消弭了AI产品之间的技术差异。除了少数几家超级平台类的产品公司和少量处在开源生态核心地位的技术公司外,其他所有科技公司、创业者都很难在大语言模型这个领域建立起真正意义上的“技术护城河”。对用户来说,新一代AI技术的平民化肯定是大好事。但对行业竞争的参与者来说,未来比拼的可能就不是技术,而是资源、平台、流量、模式、运营能力、产品迭代速度这些老生常谈的市场要素了。
当然了,信仰技术驱动型创新的创业者也不用失望;我觉得,三至五年内还有一片拼技术的蓝海可以供大家冲浪——与大语言模型相比,多模态AI在技术上远未收敛,无论在科研、工程还是应用层面,都是一片广阔天地,大有可为。
概念上,多模态AI指的是能够执行一种或多种跨模态/多模态任务的AI算法。典型的跨模态/多模态任务(科研上,“跨模态”与“多模态”有不同的内涵,本文不做详细说明)包括:
GPT-4展示出强大的通用问题解决能力后,为什么我们还需要在多模态领域进一步提升AI的认知效率?
其实,我们还没有弄清人类智能和机器智能之间的所有关联,甚至难以深入揭示二者的运行规律(可解释性)。不过,一些非常朴素的,形而上的经验认知,还是能帮助我们廓清大语言模型与多模态模型之间的互补关系:
无疑,真正的AGI必须能像人类一样即时、高效、准确、符合逻辑地处理这个世界上所有模态的信息,完成各类跨模态或多模态任务。但通向这个终极目标的技术路径可能是多样的,或需要探索和尝试的。从结论上,我个人会倾向于:
GPT-4拥有初步的图像语义理解能力(参见GPT-4 Technical Report)。文生图模型Stable Diffusion与ControlNet,LoRA等条件控制和微调技术结合后,也能输出优异和可控的结果。不过,与我们真正需要的全部多模态能力相比,今天的GPT-4和Stable Diffustion在多模态能力上最多只是幼儿园水平。
试想,如果AI可以像人类一样通过视觉、听觉、嗅觉、味觉、触觉等多模态传感器收集并有效处理这个世界的各类信息,我们肯定不会满足于简单的文生图功能。假如多模态AI能尽早成熟,我特别愿意憧憬下面这些极具诱惑力的应用场景:
个人观点:今天多模态AI的技术进展状态,像极了2017年前后的NLP领域。
2017年是Google提出Transformer技术的时间,也是NLP科研领域百花齐放,多路径同时迭代,上下游任务各自突破的时代。在自然语言处理顶级学术会议ACL 2017年的论文列表(https://aclanthology.org/events/acl-2017/)中,我们可以找到那个时代科研人员最关心的技术话题。
2017年,文本分类、语义解析(Semantic Parsing)、向量编码、机器翻译、文本生成、阅读理解、知识问答、主题模型、方面提取(Aspect Extraction)等等上下游任务与Attention、RNN、CNN、Sequence-to-sequence、Sequence-to-Dependency等不同技术路线之间以各种方式排列组合,让人目不暇给。即便是进入了2018年的BERT时代,科研圈的很多人还是在反复争论到底哪一种路线才是通往“人工智能圣杯”的最优路径。
拿我自己来说,至少在GPT-3出现之前,我作为有多年NLP经验的工程师,是完全没有预料到AGI的曙光会离我们这么近的。
今天的多模态AI在科研领域几乎与2017年时的NLP科研一模一样,所有需要研究的上下游任务与所有可能的技术路线之间,正在上演各种形式的排列组合游戏。CVPR 2023年已接收的论文列表(https://cvpr2023.thecvf.com/Conferences/2023/AcceptedPapers)可以真实地反映出这种强烈的“拼接感”。
仅拿3D生成方面的研究为例,近两年所有text-to-3D,image-to-3D,video-to-3D以及更加基础一些的3D-representation方面的论文,绝大多数属于对不同技术模式的拼接、组合、尝试、探索。其中涉及的可拼接要素包括不同的3D表示方法,不同的多模态信息对齐和混合编码方式,不同的3D重建管线等等。
简单归纳一下,为了生成3D对象或场景,最基本的3D表示或编码方式可以从以下候选项中选择使用(包括组合使用多个选型;下列某些选项之间也存在互相覆盖的内涵):
而整个生成算法或网络结构(Structure),则可以在以下几大技术脉络或他们的进一步组合、变化中尝试最优方案(下列选项之间并非严格并列关系,而是大家在3D生成模型中常用的技术手段;不同选项在生成网络中的地位并不都是可对应替换的):
举一些直观的例子吧(这里引述的论文仅用给出典型技术路线和模型架构的设计案例,既不是综述性质的列表,也不是基于论文价值的推荐):
Textured-3d-GAN(https://arxiv.org/pdf/2103.15627.pdf)是典型的利用3D Mesh表示3D知识,使用GAN完成生成任务的算法设计。
输入图片与3D Mesh之间的关联,是基于3D管线里常用的UV映射,材质贴图(Texture),置换贴图(Displacement Map)等2D形式完成的——这个关联本身其实也是一种将3D建模参数化的设计范式。
因为直接基于3D Mesh来编码多模态信息,Textured-3d-GAN容易得到直观的3D语义分割图示:
PIFuHD(https://arxiv.org/pdf/2004.00452.pdf)及其前身PIFu(https://arxiv.org/pdf/1905.05172.pdf)利用隐函数来表示生成过程里的3D空间知识:
GET3D(https://nv-tlabs.github.io/GET3D/assets/paper.pdf)是Textured-3D-GAN设计思路的发展或升级。整体上仍使用GAN生成网络的基本结构。生成器内部利用3D知识,将被生成对象分成有向距离场(SDF)表示的3D结构,以及纹理贴图两条生成管线,并基于3D知识将二者关联在一起。
OpenAI的Point-E(https://arxiv.org/pdf/2212.08751.pdf)是点云和扩散模型的组合体;OpenAI擅长的CLIP预训练模型和Transformer模型也在整个网络结构中扮演了重要角色:
DreamFusion(https://arxiv.org/pdf/2209.14988.pdf)是NeRF方法在3D生成领域的代表算法,整体框架同样使用了扩散模型由随机噪音到目标对象的基本思路:
EG3D(https://nvlabs.github.io/eg3d/media/eg3d.pdf)在训练框架上选择了GAN,却在3D信息表示上,使用了有趣的三平面(Tri-plane)表示法:
EG3D的三平面表示法直接启发了微软前些时发布的效果出众的虚拟人头部重建算法——Rodin(https://arxiv.org/pdf/2212.06135.pdf):
DiffRF(https://sirwyver.github.io/DiffRF/)可以看成是神经辐射场(NeRF)与扩散模型(Diffusion Model)的一种新的组合形态:
TANGO(https://arxiv.org/pdf/2210.11277.pdf)将CLIP的跨模态训练模式与3D世界多种任务的参数化方法结合,根据提示文本生成3D渲染需要的各类参数(材质、法线、光照等):
管中窥豹——上面几个例子,已足以看出今天3D生成领域科研的基本态势:
从2017到2022,NLP领域经历了科研大爆发到GPT-4等超级大模型一统江湖的演进过程。
今天,在形态组合上层出不穷的多模态AI算法,会不会催生出另一种类型的超级大模型呢?
多模态AI为什么这么难
多模态的生成、语义理解、逻辑推理等任务肯定比单纯的NLP任务难。
文生图这样最基础的跨模态任务,今天许多人认为已经完美解决。Stable Diffusion + ControlNet + LoRA的组合看上去无懈可击,Midjourney工具用起来也似乎得心应手。
但真实情况是,基于扩散模型的文生图算法在娱乐和大众传播领域非常受欢迎,但想融入专业制作流程或取代职业美术师,还是有相当难度。
《CG大佬暴击AI现场》(https://zhuanlan.zhihu.com/p/623967958)记录了人类专业美术师挑战AI绘画的一个具体案例。从这个案例看,人类对创意和细节的掌控力暂时还是远强于AI的。ControlNet所做的事情,本质上还是用人类的控制力来弥补AI作画容易发散、难受控制的缺陷——这从另一个角度证明了人类高水平画师在当前时间节点的不可替代性。
文生图尚如此,文生视频,文生3D,文生动画,图文混合逻辑推理等更难的任务,今天确实还处在非常早期的阶段。这里面的根本原因是——多模态AI特别难。
卡内基梅隆大学发表的Foundations & Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions将多模态AI科研面临的挑战归纳为以下六点:
第一,表示(Representation):文本、图片领域的信息表示方法相对稳定,视频、动画、3D等领域仍在实验各种新的表示方法。没有好的表示方法,AI就无法学习到高质量的知识。
第二,对齐(Alignment):CLIP提供了不同模态之间相互对齐的框架思路,但真到处理多模态对齐的时候,还是要反复实验,寻找最优方案。
第三,推理(Reasoning):前两条解决不好的话,模型的推理能力肯定无法提高;即便单独考虑推理,也涉及到认知空间里的信息连接关系,模型网络结构,模型规模等大量细节。
第四,生成(Generation):生成部分包含多模态信息抽取,跨模态信息翻译,多模态信息创建三个阶段。与单纯的文本生成任务相比,这三件事在多模态任务中的复杂度都直线上升。
第五,知识迁移(Transference):很多领域的知识天然存在于不同模态的信息中,但如何在多模态信息之间互通有无,相互补全缺失的知识呢?更重要的是,一些模态(如3D)的训练数据极度匮乏,而训练数据相对丰富的图片、视频领域其实包含了大量3D知识。这时,如何做好知识迁移就成了必须回答的关键问题。
第六,量化分析(Quantification):这个困难在所有深度学习模型中都存在。如何定量评估模型网络结构的优缺点,如何在持续迭代中改进模型中最薄弱的环节,如何甄别模型中是否学习到了偏见,如何测试模型的鲁棒性等等,都是深度学习理论界的老大难问题。
还是以3D场景或对象的自动生成为例,多模态AI面临的科研或工程挑战在3D生成领域会转化为以下这些非常棘手的问题:
多模态AI的技术挑战真实存在,但有挑战就意味着有机会;通过技术突破、技术创新在多模态AI领域大步前进,目前正是最好的时机。
大语言模型本身的多模态能力
一方面,多模态AI有相当多技术挑战要解决;另一方面,GPT等大语言模型其实已经学到了人类语言文字中记录的一部分多模态知识(GPT-4中也编码了图像语义,可同时接受文、图两种模态的输入;这方面的信息可参考GPT-4论文,本节不再讨论)。我们能否利用大语言模型学习到的多模态知识来加速多模态AI的科研与应用开发呢?
这是一条超级有趣的技术路径,值得我们深入探索。
例如,拿我们团队关心的3D创建和控制类任务来说,从GPT-4开放使用界面和接口的时刻起,我们就一直在测试GPT-4有关三维空间的知识储备与逻辑推理能力。
微软Spark of AI的论文中提到了一小部分GPT-4的3D能力。在一项实验中,研究员要求GPT-4使用JavaScript创建“一个拥有浮动岛屿,瀑布,桥梁的奇幻世界,一条龙从空中飞过,一座城堡坐落在最大的岛屿上”(实际实验过程包含多轮次的指令或提示信息),GPT-4通过JavaScript编程创建出的3D世界如下图所示——虽然简陋如幼童作品,但基本从语义上还原了提示要求:
考虑到GPT-4从来没有直接学习过任何3D模态的信息,仅从人类语言文字中获取有关3D世界、3D建模、3D编程的知识,这样的输出结果是非常惊艳的。
NVIDIA Omniverse团队利用ChatGPT和GPT-4完成了另一项3D内容创建实验,同样有趣地展示了GPT-4与3D工具的编程接口连接后,可以达到怎样的创造力与控制力(参见文章How ChatGPT and GPT-4 Can Be Used for 3D Content Generation):
与微软和NVIDIA的研究团队不同,我们团队更希望深入调研GPT-4对3D空间基本构成元素的认知到底有多透彻。我们期待GPT-4理解并操控的基本空间元素包括:
我们做了大量相关实验,结果是令人震撼的:GPT-4在3D空间认知和操控上的“智力水平“,与一个正在拼搭积木的2~3岁小朋友近似;GPT-4可以像幼童一样准确理解最基本的空间方位,懂得几何形体的基本构型,同时也像幼童一样总是”笨手笨脚“,难以精细化控制空间元素的细节。
在开展具体实验前,我们希望GPT-4自己推荐一组可以在有限文本长度内描述空间对象的形式化方法。GPT-4完全明白,直接使用(x, y, z)坐标系统及3D网格(Mesh)的精确表达方式肯定没办法在数千个语义符号(Token)的窗口内描述一个3D物体。它推荐我们使用下面几种精简的形式化方法:
很显然,GPT-4从3D图形学书籍或文章中很好地汲取了形式化描述3D对象的主流方法。我们就使用GPT-4推荐的方法,进一步测试GPT-4在3D任务中的实战能力。
基于构造实体几何(Constructive Solid Geometry)的思路,我们请GPT-4利用1x1x1的单元积木块,在一块给定范围的小空间内,拼搭一只“粗线条”的积木小狗,并输出每个单元积木块所在的单元格坐标或序号。我们用一个Blender插件将GPT-4的输出结果直接渲染成3D场景。
GPT-4根据“一只积木小狗”的提示,拼搭出的积木对象如下:
我们通过追加提示请GPT-4为小狗增加细节,特别是增加小狗的两只耳朵。GPT-4出色地完成了任务:
当我们请GPT-4自我发挥,搭建一所它认为漂亮的,包含一扇门和一扇窗的小房子时,GPT-4创建的积木结构同样非常有趣:
在未经提示时,GPT-4似乎不会用“镂空”的方式留出门窗的孔洞,而是在门窗所在位置重叠摆放了表示门和窗的积木块。为了在视觉上有所区分,我们用蓝色渲染出GPT-4认为是门窗的积木块(生成过程中,GPT-4会很细致地分步骤解释每一组积木的用途)。
接下来,当我们要求GPT-4用积木拼搭有手有脚的积木小人,且同时给出了Minecraft风格的限定提示时,GPT-4创作的积木小人简明而准确:
特别有趣的是,当我们要求GPT-4将积木小人的左手向前伸出时,GPT-4准确做出了一只手臂向前伸出的动作,但很遗憾搞错了左右,下图中的小人向前平伸的手不是左手而是右手:
这是一个在类似实验中反复出现的有趣现象:GPT-4通常可以准确认知或定位3D空间中的上与下、前与后,却经常把左和右搞反。在我们的实验里,如果不在提示词中强调哪个方向为左哪个方向为右,GPT-4混淆左右的概率就远高于正确处理左右的概率。两三岁的小孩子好像也经常搞不清左右——莫非GPT-4已经具备了某种“生命特征”?
经团队顾问提醒,这种混淆左右的现象其实不难解释:在所有语言文字类的3D场景描述中,大多数讲者都是站在第三人称观察者的视角来描述3D空间里的方位信息的。假如观察者面对3D空间中一个虚拟人物的正面,观察者左侧对应的一定是虚拟人物形象的右手,观察者右侧对应的一定是虚拟人物形象的左手。因为只通过语言文字材料学习3D知识,GPT-4形成左右方向相反的“观察者偏见“就在所难免了。
这种左右颠倒的现象似乎进一步说明:仅仅从语言文字中学习世界知识,并不足以建立完整、准确的多模态认知。未来的AI大概率还是需要直接从多模态传感器、影像资料、3D场景、动画序列中直接学习知识。
如果允许GPT-4使用任意形状的六面体积木,就必须将GPT-4每一轮次的输出限定为每块积木的空间位置(x, y, z)和空间大小(w, h, d),然后同步修改我们的Blender插件。
下图是GPT-4自行选择积木大小后,重新拼搭出的积木小狗:
下图是根据“类似匹诺曹的木偶小人”的提示,GPT-4用自选形状积木搭建出的作品(“长鼻子”的视觉意像,应该是GPT-4从“匹诺曹”的提示中领悟得到的):
注意上图中,GPT-4将木偶小人的两只眼睛摆在了头顶偏前的位置。为了解决这个空间方位错误,我们又使用了好几轮提示,才“教会”GPT-4如何将两只眼睛挪动到面部上方。
接下来,我们期望GPT-4生成连续的动画关键帧,让木偶小人在动画中逐渐抬起一条腿。GPT-4可以准确理解我们的意图,也能将“抬起一条腿”的动作映射到空间中的对象结构。只不过,六面体积木的表达能力有限(我们与GPT-4约定的形式语言甚至缺少积木旋转角度的表达),GPT-4所能做到的最好的视觉效果,也就是下图这样了:
除了上述这些简单而有趣的结果,我们还做了大量更加细致、深入的实验,包括:
后续,我们可能会用专门的文章,系统性发布这些实验结果以及从中观察到的规律性知识。
我们团队做的系列实验,不断逼近GPT-4在3D模态任务上的认知极限。愈是深入实验,愈是感觉GPT-4在这个领域的行为特征上与两三岁小孩子搭积木极为近似。所谓“AGI的曙光”,大概也可以从这个方向来理解吧。
另一个“大力出奇迹”的结局?
今天的多模态AI仍处在技术方向发散的大探索、大发展阶段。
多模态AI会不会像NLP任务那样,被一个“大力出奇迹”的超级大模型全面取代呢?
个人认为,这个结局的可能性极大;但到达这个结局的路径可能会很漫长。
首先,OpenAI或Google之类的AI大厂已经在发力研发下一代多模态混合的预训练模型了。文、图甚至文、图、视频混合训练出来的通用大模型,应该会在不久的将来展示出远超GPT-4的多模态能力。按照经验认知,OpenAI在多模态超级大模型的竞争中再次胜出,一定是个大概率事件。
其次,如前文所述,文、图以外的多模态领域,仍存在相当大的变数——训练数据极度匮乏,3D等复杂多模态信息的表示和对齐缺少公认的最优解,多模态训练对算力要求远高于纯文本数据等等技术挑战,像天堑一样横亘在所有研究者和开发者面前。
本质上,文字是在一维时间序列上编码语义信息,图像是典型的二维空间信息,视频可以理解为二维空间信息与时间序列的组合(三维信息),而3D动画则升级为三个空间维度与时间序列的组合(四维信息)。理论上,3D动画是对真实时空的终极映射;文本、图像甚至视频,只是真实时空在更低维度上的投影。
GPT等大语言模型建立起一种有可能通向AGI的智能范式。但将这种智能范式扩展到三维、四维的时空范围,复杂度的增长是指数级别的。因此,在视频、3D、动画序列等较文、图更复杂的多模态领域,技术迭代并收敛到一个大一统方法的时间周期可能会相当长,三至五年只是我的保守估计。
也许必须采用新算法设计来解决复杂度爆炸的问题。或者,因为模态间知识迁移的可能性,让AI更加深入理解训练数据丰富的低维度文、图信息,一定可以帮助AI更快地从高维度信息中学习知识。另外,基于今天较早期的多模态技术快速推出实用产品,然后通过平台级、工具级的产品建立用户场景、数据、工程、科研之间的联动关系,这也是加速技术迭代的好思路。
简单讲,好消息和坏消息同时存在,多模态AI的发展趋势极难预测。本文有关未来的预测并非基于严格的数学建模,肯定不准确。回顾过去数十年的AI技术发展,也根本没有谁能准确预测AI科研何时巅峰,何时低谷。
一切都取决于我们这些从业者的努力工作。
多模态应用的创新“蓝海”
GPT等大语言模型开启了应用创新的新时代。生机勃勃的多模态AI则会把这一轮应用创新推到最高潮。
与单纯通过自然语言进行交互或输入输出相比,多模态应用显然具备更强的可感知、可交互、可“通感”等天然属性。目前Midjourney在文生图领域的应用模式创新,我相信只是未来多模态应用世界的冰山一角。
简单罗列一些我非常看好的未来多模态应用吧:
今天的大量AI应用还局限在既有存量市场、既有应用模式下的渐进式创新;上面这些多模态的应用创新机会里,不少都属于有可能创造一个增量市场或平台产品的变革式创新。
为什么多模态领域容易诞生变革式创新?
以UGC的工具和平台为例:20年前,普通用户在互联网上创建的原创内容以文字为主;进入移动互联网时代后,图片和长视频在用户原创内容中的占比明显升高;最近几年,短视频工具和平台一跃成为UGC世界的核心流量……但用户的创造欲已经被完全满足了吗?要知道,普通用户的想象力是无穷无尽的。只要有更好的表达方式和更简单的工具,用户就一定能再次创造数字内容的新风潮。
根本矛盾在于,目前的技术工具无法满足用户旺盛的创造需求。例如,专业的影视、3D动画、游戏等团队擅长创建各类精彩内容或超凡用户体验,但普通用户很难效法。类似Final Cut Pro、After Effects、Blender、Cinema 4D、Unity之类的专业工具从设计理念上就将绝大多数普通用户排除在外,它们无一例外拥有非常陡峭的学习曲线,追求极致的专业控制力,还必须满足专业工作流、工具链的整合需要。
新一代的多模态AI技术显然有重新定义内容创建工具的极大机会。一个“草根用户”如果计划在虚拟世界里构建脑洞大开的发明创造(参考手工耿的实体作品),是不是可以直接用自然语言指导AI完成任务,而不是从头学习专业工具软件的使用方法?一个孩子创造了天才的游戏玩法,但苦于缺少游戏开发的专业经验,未来的多模态AI是不是可以大显身手?
AI赋能的智能工具迟早会抛开“专业”的包袱,将普通用户从陡峭的学习曲线中解放出来。每个内容创建者都可以专注于创意本身,而不是复杂的工具软件交互。到那时,下一代UGC平台还会停留在文、图、短视频这些简单形态上吗?
多模态应用有广阔的想象空间。即便假定多模态AI已经成熟,在应用层级也还需要探索和迭代大量工程技术问题。例如:
我个人相信,在后GPT时代里,多模态是最大的科研、工程与应用研发机会。水平有限,这个基本观点连同以上思考内容,肯定不会完全正确。整理并发表出来,仅供大家参考。
参考资料:
[1]Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond, https://www.researchgate.net/publication/370224758_Harnessing_the_Power_of_LLMs_in_Practice_A_Survey_on_ChatGPT_and_Beyond
[2]Sparks of Artificial General Intelligence: Early experiments with GPT-4, https://arxiv.org/abs/2303.12712
[3]GPT-4 Technical Report, https://arxiv.org/abs/2303.08774
[4]Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions, https://arxiv.org/abs/2209.03430
[5]How ChatGPT and GPT-4 Can Be Used for 3D Content Generation, https://medium.com/@nvidiaomniverse/chatgpt-and-gpt-4-for-3d-content-generation-9cbe5d17ec15
— 完 —
到此这篇关于“后GPT时代,多模态是最大的机会”的文章就介绍到这了,更多相关后GPT时代,多模态是最大的机会内容,欢迎关注群英网络,小编将为大家输出更多高质量的实用文章!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008