竞逐文生图大模型，百度、快手、网易“明争暗斗”

配图来自Canva刻画

自从进入2023年以来，AIGC技术助推了新的人工智能浪潮，AI大模型的创新应用也按下了加速键。随着AI写作、AI作曲成功在多个领域落地，AI在内容创作方面的应用也变得越来越广泛，而AI绘画作为大模型最火热的应用领域之一，近几年也取得了突破性进展。

AI绘画简单来说就是“文生图”，是指输入一些描述性语言，AI可以以此生成创意画作。AIGC 技术的飞速发展使得“文生图”模型不断实现更加良好的生成效果，得益于此，无论是百度、网易这样的互联网大厂，还是快手这样的新锐公司纷纷争相入局，试图借助“文生图”这一新事物，探索业务上的更多新可能。

快手“出其不意”

前不久有消息称，快手在推出“文生文”大语言模型“快意”（KwaiYii）之后，又在“文生图”赛道取得了新的进展，推出了自研大模型“可图”（Kolors），并且已在公司内部全面开启测试。据介绍，可图大模型能够基于开放式文本生成各类的绘画作品，它有着三大突出特点：强大的文本理解、丰富的细节刻画，以及多样的风格转化。而在可图大模型强大的图像生成能力背后，则与快手多年的积淀息息相关。

首先，快手海量的短视频素材，能为可图提供数十亿的图文训练数据。发展至今，快手上的短视频素材已经数以万计，根据这些短视频，可图可以收集到更多的数据信息，帮助大模型准确理解用户的需求，让用户通过简单描述即可生成更加多样化风格的图片。据了解，快手拥有数十亿来自开源社区和自研AI技术合成的图文训练数据，这些数据覆盖了常见的三千万中文实体概念，能更好地生成更加贴近文字描述的图片。

其次，快手较强的用户粘性，为可图的落地提供了最佳的应用场景。众所周知，快手应用的累计互关用户对数超过311亿对，同比增长近50%，日均互动（包括点赞、评论和转发等）总量达80亿次，而且AI玩评也能够极大地提升用户参与评论的积极性和满意度。不同用户画像可以丰富可图训练数据，促使可图生成更多样化的图片。因此，拥有较强用户粘性的短视频评论区，可以看做可图大模型最佳的落地应用场景之一。

最后，快手在大模型上的创新性探索，有助于可图形成差异化优势。快手研发了一个强大的中文CLIP模型，并且利用自研的中文LLM加上融合CLIP的图文特征作为文生图的文本理解模块，能让可图大模型更好地理解中文特色概念。不仅如此，快手还更改了去噪算法的底层公式和加噪公式，实现了单一基座模型在主体完整的前提下，可生成具有丰富细节和纹理的图片。而可图大模型也具有了基于Prompt的自动学习模型，能够生成不同的风格模版。

百度“声东击西”

在文生图领域，快手的自研大模型“可图”可谓是独具一格，作为国内领先的AI技术公司，百度的AI作画产品“文心一格”自然也备受期待。据了解，文心一格是基于百度文心大模型能力的AI艺术和创意辅助平台，它可以根据用户输入的文本描述和选择的风格，自动生成独一无二的画作。而百度文心一格之所以能对用户的作画需求实现精准理解，其中的原因自然不言而喻。

一来，文心大模型强大的语言理解能力，使文心一格对中文的理解变得更加精准。文生图技术对中文语义的理解尤为关键，而文心一格的技术基础是百度文心知识增强跨模态理解大模型，百度文心学习了海量优质图文数据，能全面提升图像生成质量和语义一致性。因此，文心一格不仅能利用知识辅助更好地理解用户的输入，并自动丰富语义细节，有效降低用户输入描述成本，还能根据不同的需求，灵活适配多种风格画作生成能力。

二来，文心大模型在技术上的深厚积淀，在一定程度上解决了文心一格在实际应用中的技术难题。众所周知，文心一格AI作图产品顺利落地，是百度依托于飞桨、文心大模型持续进行技术创新的结果。而百度的文心跨模态大模型ERNIE-ViLG 2.0是全球首个知识增强的AI作画大模型，也是目前全球参数规模最大的AI作画大模型。百度在训练大模型方面取得了长足的进步，也让文心一格有效解决了复杂概念、属性混淆等文生图领域的常见问题。

三来，文心大模型丰富的产业应用场景，有助于文心一格实现商业化快速落地。目前，文心大模型已大规模应用于搜索、信息流、智能音箱等互联网产品，并已通过飞桨开源开放平台、百度智能云等赋能工业、能源、金融、通信、媒体、教育等各行各业。而在这个基础模型职场，文心一格也能结合各个领域的、少量的任务数据，再进行训练、调优，之后就可以适用更多场景，从而进一步拓宽落地的广度，加深产业应用的深度。

网易“蓄谋已久”

无论是新晋独角兽快手，还是老牌互联网大厂百度都相继进入了AI绘画领域，互联网科技公司网易自然不会落后。事实上，网易很早就对“文生图”领域有所研究。网易旗下专业从事游戏与AI研究和应用的顶尖机构网易伏羲，就自研了文生图模型——“丹青”。而网易丹青之所以能生成让用户满意的图片，自然也与其独一无二的优势息息相关。

一是，网易伏羲对中文和美的理解深刻，有助于丹青生成更高质量的图片。生产好的内容之前，需要先理解好的内容。丹青模型基于原生中文语料数据及网易自有高质量图片数据训练，不仅对中文的理解能力更强，对中华传统美食、成语、俗语、诗句的理解和生成也更为准确。比如，与其他文生图模型相比，丹青模型更容易听懂用户的意思，在丹青生成的图片中，鱼香肉丝没有鱼，红烧狮子头也没有狮子，生成的图片效果用户满意度更高。

二是，网易伏羲顶尖艺术家的真实反馈，使得丹青创作出的作品更能满足中式审美。网易会请一些美术专家对模型进行把控，让其从艺术的角度对生成图片效果、插件、版本给予专业意见，丹青则会及时根据艺术家们的反馈意见，进一步迭代优化。比如，依赖于较强的中文理解能力，以及对美学的专业理解，丹青模型生成的图片更具东方美学，既能生成“飞流直下三千尺”的水墨画，也能生成符合东方审美的古典美人。

三是，网易伏羲对文生图的多年研究，能为丹青的快速落地和推广提供助力。事实上，网易伏羲对文生图的研究起步较早，在Stable Diffusion还没开源之前，就已经在不断地投入，到现在已经有了很多积累。据了解，网易伏羲团队已在世界顶级学术会议发表论文200余篇，申请发明专利550余项。不仅如此，网易伏羲还根据实际应用效果不断对文生图模型进行迭代优化，以便将其更好更快地应用于实际场景中。

前路“危机四伏”

随着快手、百度、网易等玩家的文生图大模型相继亮相，国内外发布文生图模型的数量也在不断攀升，模型生成效果和效率也在逐渐迈上新的台阶，文生图模型商业化落地指日可待。只不过，在此之前，文生图领域仍有些问题不容忽视。

一方面，文生图尚处于探索时期，生成细节还不够完美。虽然文生图具有一些创新性和实用性，但是不能全面理解用户的语义，生成的图像质量自然也就不会很理想，不是人物的脸部或手部细节呈现得不够完美，就是图像与文本的相关性不够紧密，甚至会出现一些毫无逻辑的图像和文本的组合。显然，AI绘画在语义理解、宏观结构、细节刻画、逻辑推理等方面还有较大改进空间。

另一方面，文生图只是AI辅助创作，生成内容缺乏创造力和情感表达。毫无疑问，技术是标准化的，审美却是非标准化的。设计师、画师可以借助AI，提高自己的创作效率，甚至激发无穷的想象力，但AI并不是设计师、画师本人，不能拥有人的情感和灵感，不能和人一样感同身受，而且目前的AI技术对外界生活无法感触，对真实世界的很多需求自然也是无法精准捕捉和理解，所以短期内，AI绘画还是很难代替设计师、画师的。

除此之外，国内外正接连涌现出新的文生图公司，AI绘画领域的竞争也将进一步加剧。事实上，除了快手、百度、网易伏羲等走上中国式文生图的道路之外，国内其他加码AI绘画的玩家也都正源源不断地赶来，国外文生图应用的景象也是十分热闹。而国内外每一家模型结构都不是完全一样的，无论是图片还是文本都做了优化，且都包含着自己的特色，所以文生图领域的竞争局面可想而知。

尽管文生图大模型目前尚有一些缺陷，但回顾人类的发展历史不难发现，一项新技术的出现，往往需要不断改进和完善，因此对于AI绘画，我们仍然抱有很多期待。而在流量红利逐渐消退的当下，百度、网易、快手等企业主动去拥抱“文生图”这样的新技术或许是最好的选择。只不过，最后这些入局者能做到何种程度，或许只有时间能给出答案

竞逐文生图大模型，百度、快手、网易“明争暗斗”

刘旷