一篇文章详细介绍AIGC的功能和落地项目
Admin 2023-08-01 群英技术资讯 487 次浏览
AIGC(AI-Generated Content,人工智能生产内容),是指利用AI技术自动或协助生成文字、代码、图像、语音、视频、3D物体等各种形式的内容的生产方式。AIGC代表了AI技术发展的新趋势,从感知理解世界到生成创造世界,从分析能力到创作能力。AIGC也带来了内容创作的变革,提高了内容的质量、效率和多样性。
1.1 文本生成
文本生成是指利用AI技术,根据给定的输入(如关键词、图片、语音等),自动生成符合语法和逻辑的文本内容,是AIGC的一个重要方面。
文本生成的应用场景非常丰富,包括新闻写作、小说创作、营销文案、客服问答、聊天机器人、教育辅导、知识图谱、摘要生成等。
文心一言:由百度推出的支持多模态输出的AI大模型,能够进行文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成等。
ChatGPT:由OpenAI推出基于GPT系列模型的聊天应用,当前已推出GPT-4模型,基于GPT-4模型的ChatGPT可以分析图片并进行文本、图片交互。
1.2 代码生成
包括代码补全、代码重构、代码优化、代码注释等,可以覆盖多种编程语言和领域。基于OpenAI的GPT-4模型,甚至可以做到基于手画的一张产品原型草稿图生成对应的网站代码。
Github Copilot:一种基于OpenAI Codex模型开发的AI辅助编程工具,它支持数十种编程语言,可以根据代码或注释,实时地在编辑器中提供代码建议和整个函数,也能通过聊天交互达成结对编程的体验。
Cursor:一个独立的IDE软件,集成了OpenAI的GPT模型。与Github Copilot类似,Cursor可以通过AI写代码、编辑代码和聊天。
1.3 图像生成
图像生成是指利用人工智能技术,根据给定的输入(如自然语言、图像、视频等),自动生成符合语义和美感的图像,是AIGC的一个重要方面。图像生成的应用场景非常广泛,包括艺术创作、娱乐媒体、教育培训、电商营销、医疗诊断等。
文心一格:由百度推出的AI艺术和创意辅助平台。可以根据文本描述、风格选择,自动生成画作。
DALL-E2:由OpenAI在推出的一种基于自适应多模态编码器的生成模型,它能将多模态输入信息(如文本、图片等)融合,自动生成高质量的图像。
Midjourney:一款2022年3月面世的AI绘画工具,能基于自然语言生成图片,可选择不同画家的艺术风格,还能识别特定镜头或摄影术语。此工具生成的画作在美术比赛中曾获一等奖。
1.4 视频生成
视频生成主要分为视频编辑和视频自主生成两种。视频编辑可用于视频超分、修复和剪辑。视频自主生成可用于图像到视频的转换,或给定描述性文字生成相符的视频。下面是一些相关的应用:
Deepfake:这是一个基于GAN技术的AI视频生成平台,可以实现换脸、声音转换、表情模仿等功能。用户只需要上传一张图片或者一段视频作为参考,就可以自动生成视频。
Make-A-Video:由Meta公司推出的可以把文本转化为视频的AI系统。它可以根据几个词或几行文本,创造出充满鲜艳色彩、人物和风景的独一无二的视频。
1.5 3D建模
基于AIGC的3D建模技术是指利用人工智能技术,根据给定的输入(如自然语言、图像等),自动生成符合语义和美感的3D模型。此领域当前处于较早的探索阶段。以下是一些相关的应用或模型:
AICommand:一款基于Unity的开源AI命令插件,可以通过文本描述生成3D场景,并通过文本对3D场景进行调整优化。(https://github.com/keijiro/AICommand)
ICON:一个基于人物图片生成3D人物建模的开源AI模型(https://github.com/YuliangXiu/ICON)。可以在线体验并下载生成的3D模型:https://huggingface.co/spaces/Yuliang/ICON
ChatGPT在2022年底由OpenAI推出后,在短短两个月时间内,累计用户就突破一个亿,迅速火遍全球。由此,AI的iPhone时刻到来,各大IT厂商随即快速跟进。以下是截止2023年4月的一些相关应用或模型介绍。
将从以下方面进行测评对比(Poe除外):
PS:
2.1 自然语言处理
测评内容:
多轮对话:我们一起来创作儿童故事吧。规则是我先说一句,你再说一句,交替进行。直到我说“故事编完了”就结束。你明白了么?
语言理解:我老板说1+1=3,我老板说的都是对的,所以1+1=3,是吗?
语言翻译:将这段话翻译成英文:一花独放不是春,百花齐放春满园。
情感分析:分析这段话的情感色彩:我非常喜欢这个新的电影,它让我笑了很多次,也让我感动落泪了。
得分如下:
2.2 逻辑推理
测评内容:
在一个架子上有五本书:红皮书、绿皮书、蓝皮书、橙皮书和黄皮书。绿皮书在黄皮书的左边,黄皮书是左数第三本,红皮书是从左数第二本,蓝皮书在最右边,请问这些书的顺序是怎样的?
在一条100米长的直线上有A、B、C三个点,A的位置不确定,A和B之间的距离是5米,A和C之间的距离是10米,B和C之间的距离可能是多少?
若2<x<6,1<y<3,则x+y的区间是多少?
得分如下:
2.3 代码能力
测评内容:
得分如下:
2.4 多模态支持
多模态支持是指能够处理多种数据类型,如文本、图像、音视频等。例如:通过文本输入,自动基于文本需求生成图片、音视频;通过图片或音视频输入,输出内容摘要文本等。
基于GPT-3.5模型的ChatGPT并不支持多模态输入及输出能力,基于GPT-4模型的ChatGPT则可以分析图片并分析反馈文本。
文心一言目前可以基于文本描述生成图片、语音。发布会展示了视频生成能力,不过在实际使用过程中,无法生成视频。
Google Bard并不支持多模态能力。
NewBing的创造力模式下,支持通过文字描述生成图片。
清华的ChatGLM并不支持多模态能力。
得分如下:
结合以上对比得分,再从Demo和生产(商用)两个阶段进行综合评价考虑。
测评综合得分如下:
选型评估如下:
Demo阶段: 以文心一言作为AI首选,NewBing及ChatGPT作为备选AI,ChatGLM作为自研AIGC的探索方向(需要GPU资源配合)。
生产商用阶段,多条线路可选:
WebGPU作
感谢各位的阅读,以上就是“一篇文章详细介绍AIGC的功能和落地项目”的内容了,经过本文的学习后,相信大家对一篇文章详细介绍AIGC的功能和落地项目都有更深刻的体会了吧。这里是群英网络,小编将为大家推送更多相关知识点的文章,欢迎关注!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
马斯克“宫斗”GPT-5
ChatGPT很厉害,但还有关键问题悬而未决低俗、色情!这个网站还是栽了!
几行代码安装,免费做图无上限:Stability AI公布DreamStudio开源版本
Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈
ChatGPT,先养肥了卖课的
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008