HI,下午好,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-306
请扫码咨询

新媒易动态

NEWS CENTER

AI绘画范畴是由两家公司的动态引爆的

2023-08-25

2023年的AI绘画范畴是由两家公司的动态引爆的。

3月17日百度发布文心一言,网友们张狂发散想象力,令人捧腹的图片连续被生成。关于文心一言文字生成图片的讨论热情空前高涨。

紧接着,3月18日,美国Midjourney公司宣告第五版AI图画生成服务,即MidjourneyV5。本来就处在职业领先水平的Midjourney,这一次版别更新真正让AI绘画圈欢腾了。由于MidjourneyV5生成的图片可谓冷艳。

两个体系简直同时发布,免不了被比照。深燃体会后发现,文心一言的图片生成功用,可以识别简单元素、文本没有歧义的人或事物,但涉及到成语、专有名词,以及字面意思和实际意义不同的表述,它就会跑偏。Midjourney在这方面简直没什么问题。另外,Midjourney接收到的提示词(prompt)越具体精准,生成的图片越符合要求,但文心一言需求越多,体系越容易出错。

戏弄背面,AI生成图片其实不是一件简单的事情,需求在数据、算法、算力等方面综合发力,既对技能和硬件有高要求,还对数据采集和标注等苦活累活高度依靠。文心一言的AI绘图功用与Midjourney在以上三方面都有不小的差距。

百度方面公开表明,“我们也会从接下来文生图才能的快速调优迭代,看到百度的自研实力。文心一言正在我们的运用过程中不断学习和生长,请我们给自研技能和产品一点信心和时刻。”从业者预估,文心一言全力追逐,用一年左右的时刻有期望达到国外80%以上的水平。

AI绘图这个战场,枪声现已打响,追逐赛、排位赛都将一轮轮上演。

01 搞不定成语和专有名词,提示词越多AI越废

文心一言最近承受的最大检测,莫过于画一幅中餐菜名图。在网友们的热情创作下,驴肉火烧、红烧狮子头号菜品出来的画做一个比一个离谱,门庭若市的街道、虎头虎脑的大胖小子,同样惊掉了我们的下巴。


网友体会文心一言时截图,现在已更新

网民热心找bug,百度程序员应该也在背面发力,深燃测试发现,以上内容均已更新为可以正确显现对应图片。不过,像娃娃菜、脸盆、皋比鸡蛋、三杯鸡,还有胸有成竹的男人、虎背熊腰的男人,文心一言依然给出的是字面直译后的图片,画风一言难尽。


深燃截图

即便输入提示词时着重“画一个卫浴器材水龙头”,文心一言画出的依然是水中龙的头像;当深燃输入“画一个风姿绰约的人”时,体系画出的是一位男士,明显AI没能了解风姿绰约描绘的是女性。


深燃截图

程序员改bug的速度比不上网友找缝隙的速度。很快又有人发现,文心一言画图时有把提示词中译英之后根据英文意思生成图片的可能性,据此有人推测百度可能用国外的作图产品接口,套了一个自己的壳。

深燃也验证了一下某用户的测试。比如输入“水瓜”,画出的是西瓜,这也对应西瓜的英文单词Watermelon;要求画树叶、封面、苹果,画出的图是树叶掩盖苹果,明显体系是把封面翻译成了Cover,这个单词也有掩盖的意思;画“土耳其打开翅膀”,呈现的画面是打开翅膀的火鸡,我们都知道,Turkey是土耳其,也是火鸡。


深燃截图

对此,百度对外回应称,文心一言完全是百度自研的大言语模型,文生图才能来自文心跨模态大模型ERNIE-ViLG。“在大模型训练中,我们运用的是全球互联网公开数据,符合职业常规。”

亚洲视觉科技研制总监陈经也在承受媒体采访时表明,“百度的画图AI采用了英文标注的开源图片素材进行训练,因而需求中翻英来当prompt(提示词)。现在,全球AI研制有开源的传统,特别是训练数据库,不然搜集图片功率太低了。”

深燃体会后还发现,文心一言在单个需求描绘时体现尚可,比如画一幅愤恨的小孩、开心的农民、一只很饿的流量猫,但一幅图一旦提出多个作图需求,AI就有点懵。

比如请文心一言“生成一幅画,在一个下雨天,小红在栽树,小王在看书”,体系生成的图片里只要背靠树看书的一个人;还有,“画一幅画,里面有大笑的年轻人、哭泣的小孩、愁容满面的白叟”,体系把哭泣和愁容满面等表情集合在了一张脸上,画出了一个小孩和白叟的结合体。如下图所示,还有一些相似的情况,体系同样没能准确完成给出的指令。

相关推荐