当前快报:用 GPT-4 实现可控文本图像生成，UC 伯克利 & 微软提出新框架 Control-GPT

来源：机器之心 2023-05-31 18:59:36

机器之心报道

(相关资料图)

编辑：小舟、梓文

扩散模型虽好，但如何保证生成的图像准确高质量？GPT-4 或许能帮上忙。

文本到图像生成领域近两年取得了很大的突破，从 GAN 到 Stable Diffusion，图像生成的速度越来越快，生成效果越来越好。然而，AI 模型生成的图像在细节上还有很多瑕疵，并且使用自然语言指定对象的确切位置、大小或形状存在一定的困难。为了生成精准、高质量的图像，现有方法通常依赖于广泛的提 prompt 工程或手动创建图像草图。这些方法需要大量的人工工作，因此非常低效。

最近，来自加州大学伯克利分校（UC 伯克利）和微软研究院的研究者从编程的角度思考了这个问题。当前，用户能够使用大型语言模型较好地控制代码生成，这让该研究看到了编写程序来控制生成图像细节的可能，包括物体的形状、大小、位置等等。基于此，该研究提出利用大型语言模型（LLM）生成代码的功能实现可控型文本到图像生成。

论文地址：https://arxiv.org/pdf/2305.18583.pdf

该研究提出了一个简单而有效的框架 Control-GPT，它利用 LLM 的强大功能根据文本 prompt 生成草图。Control-GPT 的工作原理是首先使用 GPT-4 生成 TikZ 代码形式的草图。如下图 1 ( c ) 所示，程序草图（programmatic sketch）是按照准确的文本说明绘制的，随后这些草图被输入 Control-GPT。Control-GPT 是 Stable Diffusion 的一种变体，它能接受额外的输入，例如参考图像、分割图等等。这些草图会充当扩散模型的参考点，使扩散模型能够更好地理解空间关系和特殊概念，而不是仅仅依赖于文本 prompt。这种方法使得 prompt 工程和草图创建过程不再需要人为干预，并提高了扩散模型的可控性。

我们来看一下 Control-GPT 方法的具体细节。

方法

对图像生成来说，训练过程的一个较大挑战是缺乏包含对齐文本和图像的数据集。为了解决这个难题，该研究将现有实例分割数据集（例如 COCO 和 LVIS）中的实例掩码转换为多边形的表示形式，这与 GPT-4 生成的草图类似。

然后，该研究构建了一个包含图像、文本描述和多边形草图的三元数据集，并微调了 ControlNet。该研究发现这种方法有助于更好地理解 GPT 生成的草图，并且可以帮助模型更好地遵循文本 prompt 指令。

ControlNet 是扩散模型的一种变体，它需要额外的输入条件。该研究使用 ControlNet 作为基础图像生成模型，并通过编程草图和 grounding token 的路径对其进行扩展。

框架

如下图 2 所示，在 Control-GPT 中，首先 GPT-4 会根据文本描述生成 TikZ 代码形式的草图，并输出图像中物体的位置。然后该研究用 LATEX 编译 TikZ 代码，将草图转换为图像格式，再将编程草图、文本描述和物体位置的 grounding token 提供给经过调优的 ControlNet 模型，最终生成符合条件的图像。

使用 GPT-4 生成的草图训练 ControlNet 是必要的，因为预训练的 ControlNet 不理解生成的草图，不能将其转换为现实图像。为了 prompt GPT-4，该研究要求用户遵循如下的 prompt 样本，以让 GPT-4 请求 TikZ 代码片段的结构化输出，以及相关物体的名称和位置。然后，该研究使用 GPT-4 的输出来编译草图图像并获得 grounding token。LLM 绘制草图的准确性如何

Control-GPT 的精度取决于 LLM 生成草图时的准确性和可控性。因此，该研究对 LLM 在草图生成方面的性能进行了基准测试。实验结果表明 GPT 系列模型在草图生成方面明显优于 LLaMa 等开源模型，并且 GPT-4 在遵循文本指令方面表现出惊人的高准确性（约 97%）。

该研究对 Control-GPT 和一些经典模型的生成结果进行了人工评估，结果表明当图像中包含两个不相关的罕见物体组合时，一些模型的生成效果比较差，而 Control-GPT 的生成结果相对较好，如下表 2 所示：

查询 LLMs，生成一个 TikZ 代码片段来描述给定的文本，进而检查 LLMs 的性能。如下表 1 所示，GPT-series 模型的大多数代码片段都可以编译为有效的草图，而 LLaMA 和 Alpaca 的输出要么是空的，要么不可运行。在 GPT-series 模型中，最新的 GPT-4 在 95 个查询中只有 3 次失败，这些查询成功地生成了有效草图，在遵循文本指令方面的成功率大约有 97%。ChatGPT 是 GPT-3.5 的 RLHF 微调版本，其性能明显低于原始 GPT-3.5。在调优过程中，聊天能力和代码生成之间可能存在着权衡。在下图 4 中，研究者提供了一个来自 GPT 系列模型的可视化草图例子。虽然生成的草图不如照片那样逼真，但它们往往能捕捉到语义，并正确推理出物体的空间关系。生成的草图经常出人意料地通过简单的代码片断来正确处理物体形状。

下图最后一行展示了 GPT-4 的一个失败案例，即模型无法生成物体形状，而 GPT-3.5 却能给出一个正确的草图。GPT-4 在草图生成方面的高精度带来的启发是：可以使用它来提高图像生成模型的可控性。

实验

基于 Visor 数据集，研究者对 Control-GPT 进行了一系列实验设置的评估，测试其在空间关系、物体位置和大小方面的可控性。他们还将评估扩展到多个物体和分布外的 prompt。广泛的实验表明，Control-GPT 可以大大提升扩散模型的可控性。

下表 3 中列出了定量评估结果。可以看到，Control-GPT 模型可以在给定的一些规格下更好地控制物体的大小和位置。与几乎无法控制物体位置和尺寸的 Stable Diffusion 模型（SD-v1.5）相比，Control-GPT 将总体精度从 0% 提高到 14.18%。与现成的 ControlNet 相比，Control-GPT 在所有指标上也取得了更好的表现，获得了从 8.46% 到 4.18% 的整体改善。这些结果展示了本文的 LLM 集成框架在更细化和精确控制图像生成过程方面的潜力。

视觉化。下图 6 展示了定性评估结果，可以看到，ControlGPT 可以按照物体位置和尺寸的规范绘制物体。相比之下，ControlNet 也能遵循，但却很难生成正确的物体，而 Stable Diffusion 则无法遵循规范。对空间关系的消融实验。研究者还探讨了模型是否对不同类型的空间关系（如左 / 右 / 上 / 下）有偏好，作为空间关系基准分析的一部分。从下表 4 中可以看出，Control-GPT 在 Visor Score 和物体准确性方面一直比所有的基线模型工作得更好。多个物体之间的关系。研究者对 Control-GPT 生成多个物体的能力进行了进一步的评估，这些物体的空间关系由 prompt 指定。下图 7 展示了一些例子，Control-GPT 能理解不同物体之间的空间关系，并在 GPT-4 的帮助下将它们放入布局中，表现出了更好的性能。可控性与图像逼真度。通常，在生成逼真图像与遵循精确布局之间往往存在着妥协，特别是对于分布外的文字 prompt。如下图 8 所示，（a）是一个例子，生成的图像完全遵循布局，但这导致了图像中的一些伪影；而在（b）中，照片往往看起来很逼真，但没有很好地遵循草图。更多研究细节，可参考原论文。

THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

当前快报:用 GPT-4 实现可控文本图像生成，UC 伯克利 & 微软提出新框架 Control-GPT

资讯

汽车产销呈明显恢复性增长 新能源汽车依旧延续高增长态势

加强标准推广应用 我国智能制造能力成熟度水平稳步提升

挪威选手夺得本届冬奥会首金

中国代表团首金入账（盛会进行时）

最近更新

当前快报:用 GPT-4 实现可控文本图像生成，UC 伯克利 & 微软提出新框架 Control-GPT

每日快报!小米将五款智能手机的保修期延长至两年

国家税务总局沛县税务局：社保服务微信群打通答疑“快速路” 全球速讯

中秋节的寓意及象征意义_中秋节的寓意

咖喱牛肉豆腐家常做法?

拼手速！呼和浩特一大批扩龄九价、四价HPV疫苗来啦！ 世界观速讯

乘“舟”赴约，开启梦想新篇——神舟十六号载人飞行任务乘组出征侧记_世界信息

当前简讯:科创信息：截止2023年5月19日，公司股东人数为30,724人

5月31日 11:20分 金太阳（300606）股价快速拉升

最新：信用卡欠了十五万还不起了怎么办？网贷不能停息挂账吗？

伊朗最高领袖：伊朗欢迎与埃及恢复关系

【当前热闻】官宣！日本约战德国，冲刺2026世界杯，国足找来缅甸，输球=耻辱

安徽省7人荣获全国创新争先奖 当前信息

红烧牛肉的做法最正宗的做法_红烧牛肉怎么做正宗_环球热文

李鸿彬：5.31黄金逆势上涨，月线收官是涨还是跌？|环球热闻

待我长发掉光，买下我可好？今夏这个路由器，618入手好时机！ 环球新视野

网络图标显示红叉但是可以上网_网络图标显示红叉但可以上网

建科院：公司不存在问题所述情形 世界今日报

韩军方称朝鲜向南发射一颗“卫星” 首尔清晨听到警报声-全球热讯

小米 14 曝光：直屏 + 边框 11 月发布

抖音上的侧颜西有没有女朋友-世界微速讯

世界动态:英伟达成首家市值破 万亿美元的芯片公司

昆明市汤丹镇中河村：石头缝里种大米，荒滩改造变良田

魔兽争霸3冰封王座战役店长推荐_魔兽争霸3冰封王座战役 当前视点

澳门科技大学 澳门科技大学怎么样

讴歌两厢车型和价位（讴歌两厢车有哪些？）-世界热文

尚德电力再提速!国企龙头强势加码,全场聚焦瞩目时刻-全球时快讯

jmc房车多少钱一辆（jmc房车）

利亚德：公司虚拟现实板块正和ChatGPT等多家AI企业合作探索动作大模型的各类开发应用 全球快讯

微星推出多款 QD-OLED 系列显示器

高考期间考场附近部分公交站点及公交线路临时调整|焦点快看

2023上海国际电影节开幕影片：《我爱你！》 世界播报

【全球播资讯】5月30日晚间上市公司利好消息一览(附名单)

焦点热议:冰川网络(300533.SZ)：拟与关联方成都开心加就《暮光幻想》授权签署全球独家代理协议

福建福清：观赏儿童剧 欢乐过“六一”

天天头条：三巽集团前4月累计合同销售金额4.23亿元

梧桐车联助力汽车迈向智能交互时代

环球热议:涨！涨！涨！就在今晚

焦点速看：在期待已久的跨界读书会上，“张爸爸”这样向孩子们科普阅读

四川省地矿局207地质队官网_四川省地矿局109地质队_最新消息

郑皓当选北京通州区人民政府区长

bt如何下载?（bt下载怎么用）_天天看热讯

焦点关注：华为制造军团成立一周年：站稳制造业数字化转型新阵地

今日讯！Canalys：2023年Q1全球高端智能手机逆势增长4.7%

全球滚动:5月30日西昌电力涨停分析：泛在电力物联网，国企改革，央企改革概念热股

当前速讯：暴风影音3d版本（暴风影音3d版）

“股王”出手了_天天新消息

换手率app（换手率）

PPG发布2023年度染色色彩——栗棕色

中国贸促会：97%的受访外资企业对去年四季度以来我国外资政策评价为“满意”以上_环球今头条

《中轴之门》：打开时空之门，漫步中轴|看点

拿什么书给你读，我的孩子|世界视讯

当前速递！真不是孙颖莎！王楚钦梦里梦外到底是谁？和陈梦恋爱绯闻再添实锤

透视招行财富管理新“风向”：客户需求与中收再平衡 天天报道

ST德豪：目前公司主营业务为小家电业务和LED封装业务_每日热文

普瑞眼科：5月29日融资买入127.93万元，融资融券余额1384.46万元 全球今日报

美团：王慧文已放弃超级投票权 世界热文

即时看！独家视频丨多角度看神舟十六号载人飞船发射震撼瞬间

巴彦淖尔人力资源和社会保障局职称公示_巴彦淖尔人力资源和社会保障局 世界观速讯

这些年，国企改革带来新变化

东莞3.92亿成功出让一宗大岭山旧改地块 另一宗地因故终止出让_世界今头条

神武封系玩什么门派好？天魔还是盘丝，测测你是哪种封系玩家 环球热推荐

比亚迪回应举报六大核心争议：用常压油箱也能达标-全球通讯

建筑材料包括哪些材料_建筑材料包括哪些

全球新资讯：爱的时刻自选辑下载_爱的时刻自选辑

焦点消息！市妇联推进主题教育走深走实 以人为本服务社区困境儿童

定远移动扶贫济困志愿服务队|每日简讯

台风“玛娃”送热浪 今起鹭岛迎高温

每日头条!微信：7236个发布“违禁品”营销信息的账号被处罚

每日观察!国内商品期货收盘多数上涨 纯碱涨近6%

天天视讯！讲述“这一届”职场人的故事

环球今日报丨陕西省气象台继续发布大雾黄色预警【Ⅲ级/较重】【2023-05-29】

中国中医药研究促进会骨伤科分会骨坏死学组2023年第五届（郑州）学术会议在郑州举行

汽车产销呈明显恢复性增长新能源汽车依旧延续高增长态势

加强标准推广应用我国智能制造能力成熟度水平稳步提升

拼手速！呼和浩特一大批扩龄九价、四价HPV疫苗来啦！世界观速讯

5月31日 11:20分金太阳（300606）股价快速拉升

安徽省7人荣获全国创新争先奖当前信息

待我长发掉光，买下我可好？今夏这个路由器，618入手好时机！环球新视野

建科院：公司不存在问题所述情形世界今日报

世界动态:英伟达成首家市值破万亿美元的芯片公司

魔兽争霸3冰封王座战役店长推荐_魔兽争霸3冰封王座战役当前视点

澳门科技大学澳门科技大学怎么样

利亚德：公司虚拟现实板块正和ChatGPT等多家AI企业合作探索动作大模型的各类开发应用全球快讯

2023上海国际电影节开幕影片：《我爱你！》世界播报

福建福清：观赏儿童剧欢乐过“六一”

透视招行财富管理新“风向”：客户需求与中收再平衡天天报道

普瑞眼科：5月29日融资买入127.93万元，融资融券余额1384.46万元全球今日报

美团：王慧文已放弃超级投票权世界热文

巴彦淖尔人力资源和社会保障局职称公示_巴彦淖尔人力资源和社会保障局世界观速讯

东莞3.92亿成功出让一宗大岭山旧改地块另一宗地因故终止出让_世界今头条

神武封系玩什么门派好？天魔还是盘丝，测测你是哪种封系玩家环球热推荐

焦点消息！市妇联推进主题教育走深走实以人为本服务社区困境儿童

台风“玛娃”送热浪今起鹭岛迎高温

每日观察!国内商品期货收盘多数上涨纯碱涨近6%

中国星辰丨三种类型不同任务 “神十六”乘组各个履历丰富令人敬佩天天快报

数智赋能为发射场插上“智慧化翅膀”|每日速看

大学生失联近20天最后身影出现在桥下_家人悬赏50万寻人世界新动态

vivo手机耗电快_vivo手机耗电突然变快当前看点

女子车中晕倒，10岁儿子沉着冷静报警求助，民警的一块饼干派上大用场！环球聚看点

【世界独家】农发行滦南县支行开展减费让利主题宣传活动

《数字中国发展报告（2022年）》发布我国数字经济规模达50.2万亿元

退休之后还出去打工的往往有三种人可能你也在其中赶快看看具体情况详细内容介绍

从0-3到抢七绿军创造历史机会超五成

国产大飞机 C919 商业首飞；天涯创始人回应关停：不会放弃；知乎大模型应用开启内测焦点精选

什么聊天软件好泡妞的什么聊天软件好泡妞

武汉高校学生勤工俭学中心（关于武汉高校学生勤工俭学中心介绍）时快讯

小米Q1已赚去年近四成利润整体毛利率达19.5%创历史新高天天亮点

济南市购房补贴政策当前视点

4G成熟你会升5G吗？中国移动喊话不缩减5G投入：华为等中新集采大单-全球微头条

台湾新冠疫情进入第4波预估6月中再现高峰|环球热门

镍概念股票有哪些_镍的股票有哪些环球时讯

潍城区：做好科学教育加法培养学生科学思维_快播报

六枝特区气象台发布暴雨黄色预警信号【Ⅲ/较重】【2023-05-26】最新快讯