前言#

最近用 AI 生图折腾了不少东西。虽然目前还远远谈不上“专业”，也基本只在免费额度里来回薅（笑），但慢慢也确实总结出了一些自己的理解。

本篇写的比较概括，详细内容会在后续文章中补充。

正文#

一、关于AI生图工具？#

( ๑ŏ ﹏ ŏ๑ )囧的是我的学习强度并不高，因此并没有使用过那么多的ai生图工具，只用过大家近年来耳熟能详的软件，且只用过免费版本。

像Midjourney就还没有使用过，听说生出的图片通常唯美精致，未来使用后会进行内容补充。

国外：

OpenAI / ChatGPT（集成 DALL-E 3）
Google Gemini（集成 Imagen 3）

国内：

字节跳动 / 即梦 & 豆包（基于 Seed 视觉/视频大模型）
阿里云 / 通义千问（集成 Qwen 与通义万相）

此外我曾通过liblib本地部署过stable diffusion（简称SD），粗略了解过WebUI和ComfyUI，但暂时没有什么深刻理解，因此此篇不作评价。

二、关于模型？#

国外模型#

截至2026年5月大家口口相传的gpt-image-2，成为目前的版本之子。

从gemini的分解图到gpt的电商广告，二虎一直在争。而不论它们怎么争，都 “夯” 爆了！

虽然这两个模型在免费版在细节、复杂文字渲染和连续一致性上偶尔会“粘糊”，并且存在生成次数限制，但整体（尤其是出色的审美）已经属于“开盒即用”的第一梯队。

高审美的模型可以帮助我们缩短“抽卡”时间，提高生产效率。甚至很多时候，“一发入魂”。

那么想要生出理想的图片，是否一定得用最好的付费模型？ 呃……是，也不是。

首先，AI 模型迭代速度极快，“最强模型”往往只会维持几个月。与其执着于“永远最强”，不如持续关注更新节奏，并找到最适合自己需求的工具。

其次，付费模型越来越贵，身为普通家庭的学生党，贸然投入大量预算，很可能会影响生活质量，这并不提倡。

目前大多数主流 AI 生图平台都会提供一定免费额度，或者阶段性开放体验活动，对多数轻度或间歇性使用者来说，已经够用了。

但是，论绝对效果，付费模型无疑是最“夯”的。如果你正处于高强度使用AI生图工具的时期，则推荐购买一个结合项目契合度、且综合性价比不错的付费模型。

学生党如果预算有限，可以优先利用官方免费额度，至于“拼车”，虽然现实里很常见，但需要注意平台协议、账号安全以及隐私风险。

而关于模型具体的选用， gpt和gemini的风格差异还是挺明显的，个人而言，gpt的风格会更符合审美，但gemini在风格上略逊一筹，但偶尔也会带来意想不到的效果。

我总结了一个AI生图模型爆火时间线，未来会持续更新。可以根据模型爆火的原因去推测模型擅长的领域，但最优解还是自己去感受各个模型的区别。

AI生图模型爆火时间线（点击查看详情）

国内模型#

国内模型虽需大量互动、耗心耗力才能抽到满意图片，但胜在免费额度多，且访问门槛低。

截至目前，国内综合性价比非常高的 AI 生图工具，我个人会比较推荐豆包。

它搭载了强调可控推理、支持联网检索、生成速度更快的轻量高效模型 Seedream 5.0 Lite，配合动态免费额度，日常使用非常大方。

此外，即梦的 4.5 模型（Seedream 4.5）在图像一致性、风格控制及图文响应方面表现极其出色。

需要注意的是，即梦与豆包虽同属字节跳动旗下，但平台不同，免费额度政策差异很大，当前即梦4.5每生成一张图需消耗 3 个积分（积分规则可能随平台活动调整），免费额度远不如豆包慷慨，建议合理分配使用。

另外，国内文本类ai中的DeepSeek 比较擅长输出结构化、多维度的中文提示词，而这类描述方式通常更适合即梦这类中文生图平台理解。

那么，千问呢？

呃……关于千问，它出的图画面明显更“瓷实”——线条紧、文字渲染强，标题和短句一般都不太糊。但它的模型审美比较平庸，看起来”笨笨“的。

头疼的是，它经常会“选择性失明”——提示词里写了三个元素，它只生成两个。这类元素遗漏的问题其实所有模型都会出现，但在复杂中文长提示词场景下，千问出现得相对更明显。

不过免费额度是真的“量大管饱”，而且在工业线稿、矢量图这类需要逻辑严谨、线条干净的任务上，千问通常更稳定。

简单来说：

千问像个画图纸的工程师——刻板、准确，但缺乏灵气；

豆包像个做海报的设计师——灵动、有审美，但不适合精确制图。

当然，这些都只是当前阶段的一些个人体验。AI 模型更新很快，很多“气质”可能几个月后就会完全变化。建议各个模型之间按需交替使用。将每一种模型亲自试一遍比看我写下的体验更可靠。

三、关于提示词？#

我认为：提示词与模型同样重要。

我们追求其实是一种人机协作的生产方式，而不是彻底依赖模型替你思考。AI 只能作为辅助创作工具。好的模型，可以决定图片上限。而好的提示词，则决定模型是否真的“听懂了你”。

现在很多主流生图模型，已经越来越偏向“自然语言理解”。不像早期那样，必须依赖一长串固定咒语式提示词。

网上的提示词模板当然可以参考，但相比“复制粘贴”，更重要的是理解，它为什么这么写？结构为什么这样安排？模型为什么会吃这一套？

通常来说，提示词会按照：主体 → 场景 → 细节 → 风格 → 技术参数这样的优先级去组织。

例如：

主体：画什么
场景：在哪里
细节：长什么样
风格：偏什么气质
参数：光影、镜头、清晰度等

还可以通过图片反推提示词，有些模型的视觉能力可以帮你总结出画面的元素，虽然不是那么的准确，但可以作为参考。

使用文本 AI 来辅助生成或优化提示词，是一种很常见的方式，也是我们提高效率的重要方式。

但ai给出的提示词通常又臭又长，而提示词并不是越长越好，相比堆砌关键词，逻辑清晰、描述准确、信息重点明确，通常更重要。

四、关于垫图？#

除了提示词之外，我们还可以通过垫图，找到“模型能听懂”的表达。

垫图（也称参考图）是指在AI生成图像过程中，用户提供一张已有图片作为输入，让AI模型基于该图的内容、构图、风格或主体进行进一步生成或修改的操作。

简单来说，就是“用一张图作为起点或参照，引导AI生成新的图片”。

通常我们会使用垫图的方法，控制图片的构图、风格、主体等，可以更好引导模型生成更符合预期的图片。

举几个例子：

在表情包制作中，可借助垫图控制主体的动作与形象
需调整主体动态时，垫入动作模板图即可引导姿态
需变换环境背景时，垫入场景模板图便能重构空间

而垫图也从单参考图扩展到了多参考图。生成图片时，使用多张图片作为参考，让模型基于这些参考的内容、构图、风格或主体进行进一步生成或修改的操作。

进行垫图时，你所给出的参考图尽量做到“纯净”，也就是说，不建议包含其他元素，只包含主体人物、背景、画风等。否则，模型可能会因为参考图中包含了其他元素，而无法正确理解你的意图。

例如：

图一：主体人物
图二：背景
图三：画风

你就可以说：“参考图一的主体人物，图二的背景，图三的画风……，为我生成一张（怎样）的图片。”

最后#

注意一个聊天框上下文的问题 ，就是模型只能理解最近一次的对话，而不能理解之前的对话。所以，在使用垫图时，要注意垫图的内容要与当前对话相关，不能与之前的对话相关。

推荐思路：一个聊天框内→（垫图）使用国内模型低成本试错 → 总结提示词 → 使用国外模型一键出图 → 后期调整

当然，图片的最终效果一般还是受制作者的个人审美和经验影响的。

我们不仅要持续提高自己的审美，还需要培养主动获取信息的能力、低成本试错的意识、人机协作的思维方式。可以参考他人的工作流程，打造一套属于自己的工作流程，实现更好的生产效率。

AI 工具会变，模型会更新，平台规则也可能会变化。但：学习能力本身，才是最难被淘汰的东西。

PS：注意信息的滞后性，本篇写于2026年5月13日。

前言#

正文#