1955 字
10 分钟
---
次阅读
关于 AI 生图,我目前的一些使用感受
关于 AI 生图,我目前的一些使用感受

前言#

最近用 AI 生图折腾了不少东西。

虽然目前还远远谈不上“专业”,也基本只在免费额度里来回薅(笑),但慢慢也确实总结出了一些自己的使用习惯。

目前我的使用体验,大致可以拆成三个部分:模型差异、提示词理解,以及低成本工作流。


正文#

一、关于AI生图工具?#

( ๑ŏ ﹏ ŏ๑ )囧的是我的学习强度并不高,因此并没有使用过那么多的ai生图工具,只用过大家近年来耳熟能详的软件,且只用过免费版本

像Midjourney就还没有使用过,听说生出的图片通常唯美精致,未来使用后会进行内容补充。

国外:

  • OpenAI / ChatGPT(集成 DALL-E 3)
  • Google Gemini(集成 Imagen 3)

国内:

  • 字节跳动 / 即梦 & 豆包(基于 Seed 视觉/视频大模型)
  • 阿里云 / 通义千问(集成 Qwen 与 通义万相)

此外我曾通过liblib本地部署过stable diffusion,粗略了解过WebUI和ComfyUI,但暂时没有什么深刻理解,因此此篇不作评价。

二、关于模型?#

国外模型#

截至2026年5月大家口口相传的gpt-image-2,成为目前的版本之子。

而我的评价也是给到一个 “夯”

免费版在细节、复杂文字渲染和连续一致性上偶尔会“粘糊”,并且存在生成次数限制,但整体(尤其是出色的审美)已经属于“开盒即用”的第一梯队。

那么想要生出理想的图片,是否一定得用最好的付费模型? 呃……是,也不是。

首先,AI 模型迭代速度极快,“最强模型”往往只会维持几个月。与其执着于“永远最强”,不如持续关注更新节奏,并找到最适合自己需求的工具。

其次,付费模型越来越贵,身为普通家庭的学生党,贸然投入大量预算,很可能会影响生活质量,这并不提倡。

目前大多数主流 AI 生图平台都会提供一定免费额度,或者阶段性开放体验活动,对多数轻度或间歇性使用者来说,已经够用了。

但是,论绝对效果,付费模型无疑是最“夯”的。如果你正处于高强度使用AI生图工具的时期,则推荐购买一个结合项目契合度、且综合性价比不错的付费模型。

学生党如果预算有限,可以优先利用官方免费额度,至于“拼车”,虽然现实里很常见,但需要注意平台协议、账号安全以及隐私风险。

而关于模型具体的选用, 我总结了一个AI生图模型爆火时间线,未来会持续更新。可以根据模型爆火的原因去推测模型擅长的领域,但最优解还是自己去感受各个模型的区别。

国内模型#

截至目前,国内综合性价比非常高的 AI 生图工具,我个人会比较推荐豆包。

它搭载了强调可控推理、支持联网检索、生成速度更快的轻量高效模型 Seedream 5.0 Lite,配合动态免费额度,日常使用非常大方。

此外,即梦的 4.5 模型(Seedream 4.5)在图像一致性、风格控制及图文响应方面表现极其出色。

需要注意的是,即梦与豆包虽同属字节跳动旗下,但平台不同,免费额度政策差异很大,当前即梦4.5每生成一张图需消耗 3 个积分(积分规则可能随平台活动调整),免费额度远不如豆包慷慨,建议合理分配使用。

另外,国内文本类ai中的DeepSeek 比较擅长输出结构化、多维度的中文提示词,而这类描述方式通常更适合即梦这类中文生图平台理解。

那么,千问呢?

呃……关于千问,它出的图画面明显更“瓷实”——线条紧、文字渲染强,标题和短句一般都不太糊。但它的模型审美比较平庸,看起来”笨笨“的。

头疼的是,它经常会“选择性失明”——提示词里写了三个元素,它只生成两个。这类元素遗漏的问题其实所有模型都会出现,但在复杂中文长提示词场景下,千问出现得相对更明显。

不过免费额度是真的“量大管饱”,而且在工业线稿、矢量图这类需要逻辑严谨、线条干净的任务上,千问通常更稳定。

简单来说:

千问像个画图纸的工程师——刻板、准确,但缺乏灵气;

豆包像个做海报的设计师——灵动、有审美,但不适合精确制图。

当然,这些都只是当前阶段的一些个人体验。AI 模型更新很快,很多“气质”可能几个月后就会完全变化。建议各个模型之间按需交替使用。将每一种模型亲自试一遍比看我写下的体验更可靠。

三、关于提示词?#

我认为:提示词与模型同样重要。

我们追求其实是一种人机协作的生产方式,而不是彻底依赖模型替你思考。AI 只能作为辅助创作工具。好的模型,可以决定图片上限。而好的提示词,则决定模型是否真的“听懂了你”。

值得庆幸的是,现在很多主流生图模型,已经越来越偏向“自然语言理解”。不像早期那样,必须依赖一长串固定咒语式提示词。

网上的提示词模板当然可以参考,但相比“复制粘贴”,更重要的是理解,它为什么这么写?结构为什么这样安排?模型为什么会吃这一套?

通常来说,提示词会按照:主体 → 场景 → 细节 → 风格 → 技术参数这样的优先级去组织。

例如:

  • 主体:画什么
  • 场景:在哪里
  • 细节:长什么样
  • 风格:偏什么气质
  • 参数:光影、镜头、清晰度等

还可以通过文本 AI 来辅助生成或优化提示词。但提示词并不是越长越好,相比堆砌关键词,逻辑清晰、描述准确、信息重点明确,通常更重要。

建议:养成保存提示词模板的习惯,慢慢建立自己的提示词库。真正长期有用的,不是网上那几百份“万能模板”,而是你自己总结出来的表达方式。


四、推荐工作流程#

步骤做什么为什么
1低级别/免费模型快速生成一批图验证提示词有效性,不耗钱
2根据出图效果调整提示词找到“模型能听懂”的表达
3总结出当前最合适的提示词形成可复用的模板
4高级模型正式生成获得最终高质量图片
  • 低成本试错 → 总结提示词 → 高质量出图

最后,我会继续培养主动获取信息的能力、低成本试错的意识、人机协作的思维方式

AI 工具会变,模型会更新,平台规则也可能会变化。但:学习能力本身,才是最难被淘汰的东西。

PS:注意信息的滞后性,本篇写于2026年5月13日。


#


关于 AI 生图,我目前的一些使用感受
https://mikann.fun/posts/teaching/aigc-guide/
作者
mikann-OMO
发布于
2026-05-13
许可协议
CC BY-NC-SA 4.0
留下你的足迹
Avatar
文章目录