⚠️本文使用 Gemini 3 Pro 翻译,原文详见 >>

作者:Guillaume Vernade,Google DeepMind Gemini 开发者布道师


本指南将紧随开发者文档的步伐,教你如何在 AI Studio 和 API 中上手,深入挖掘核心功能并掌握高效的提示词(Prompt)技巧。


目录

  1. 提示词的黄金法则 🌟
    1. 是“修改”,不是“重随” (Edit, Don’t Re-roll)
    2. 说人话,用整句 (Use Natural Language)
    3. 具体且有画面感 (Be Specific)
    4. 给它上下文 (Context is King)
  2. 文本渲染、信息图与视觉合成 📊
  3. 角色一致性与爆款封面图 🧑‍🎨
  4. 基于 Google 搜索的落地生成 🌐
  5. 高级编辑、修复与上色 🎨
  6. 维度转换 (2D ↔ 3D) 🧊
  7. 高分辨率与纹理 🔎
  8. 思考与推理 🧠
  9. 一步到位的故事板与概念艺术 🎬
  10. 结构控制与布局指导 📐

提示词的黄金法则 🌟

Nano-Banana Pro 是一个“会思考”的模型。它不仅仅是做关键词匹配,而是真正理解你的意图、物理规律和画面构成。想要得到最好的结果,请停止使用“标签大杂烩”(例如:狗, 公园, 4k, 真实感),开始像一位创意总监那样思考。

是“修改”,不是“重随” (Edit, Don’t Re-roll)

这个模型非常擅长理解对话式的修改指令。如果一张图已经有了 80% 的完美度,不要从头重新生成。相反,直接告诉它你需要改哪里。

例子: “这就很棒了,但在把光线改成日落,把文字改成霓虹蓝色。”

说人话,用整句 (Use Natural Language)

像给人类艺术家下简报(Brief)一样跟模型对话。使用正确的语法和描述性的形容词。

坏示范: “酷车, 霓虹, 城市, 夜晚, 8k。”

好示范: “一个电影感的广角镜头,展示一辆未来主义跑车在雨夜的东京街头疾驰。霓虹灯牌倒映在潮湿的路面和汽车金属底盘上。”

具体且有画面感 (Be Specific)

模糊的提示词只能得到大众脸的结果。请明确定义主体、环境、光线和情绪。

主体: 别只说“一个女人”,试试“一位穿着复古香奈儿风格套装的优雅老妇人”。

材质感: 描述质感。“哑光表面”、“拉丝钢”、“柔软天鹅绒”、“揉皱的纸”。

给它上下文 (Context is King)

因为模型会“思考”,给它背景信息能帮助它做出符合逻辑的艺术决策。

例子: “为一本巴西高端美食食谱生成一张三明治的图片。”(模型会自动推断出专业的摆盘、浅景深和完美布光)。


文本渲染、信息图与视觉合成 📊

Nano-Banana Pro 在渲染清晰、风格化的文本以及将复杂信息转化为视觉格式方面拥有 SOTA(顶尖)的能力。

最佳实践:

  • 压缩信息: 让模型把密集的文本或 PDF “压缩”成视觉辅助图。
  • 指定风格: 明确你是想要“精美的杂志风”、“技术图纸”还是“手绘白板风”。
  • 引用内容: 明确指出哪些文字需要直接引用。

提示词案例:

财报信息图(数据消化):
[输入 Google 最新 财报 PDF]
“生成一张干净、现代的信息图,总结这份财报的关键财务亮点。包括‘收入增长’和‘净利润’的图表,并在一个风格化的引用框中突出 CEO 的关键语录。”

gl_earnings_report_chart

复古信息图:
“制作一张复古的、1950 年代风格的信息图,介绍美国路边餐厅(Diner)的历史。包括‘食物’、‘点唱机’和‘装潢’三个独特的板块。确保所有文字清晰可读,且风格符合那个年代。”

history_american_diner

技术蓝图:
“创建一张正交蓝图,从平面、立面和剖面描述这座建筑。用技术建筑字体清晰地标记‘北立面’和‘主入口’。格式为 16:9。”

orthographic_blueprint

白板总结(教育用):
“将‘Transformer 神经网络架构’的概念总结为适合大学讲座的手绘白板图。用不同颜色的记号笔区分编码器(Encoder)和解码器(Decoder)模块,并加上清晰的标签‘自注意力机制’和‘前馈网络’。”

transformer_architecture


角色一致性与爆款封面图 🧑‍🎨

Nano-Banana Pro 支持多达 14 张参考图(其中 6 张可达高保真度)。这实现了“身份锁定”——在不让脸崩的情况下,把特定人物放入新场景。

最佳实践:

  • 身份锁定: 明确指令:“保持人物的面部特征与图 1 完全一致。”
  • 表情/动作: 描述情绪或姿势的变化,同时保持身份不变。
  • 爆款构图: 一次性生成包含人物、醒目图形和文字的组合图。

提示词案例:

“爆款视频封面”(身份 + 文字 + 图形):
“设计一张病毒式传播的视频缩略图,使用图 1 中的人物。面部一致性: 保持人物面部特征与图 1 完全一致,但表情要显得兴奋和惊讶。动作: 人物位于左侧,手指指向画面右侧。主体: 在右侧放一张看起来很美味的牛油果吐司的高清图。图形: 添加一个醒目的黄色箭头,连接人物的手指和吐司。文字: 在中间叠加巨大的波普风格文字:‘3分钟搞定!’。使用粗白描边和投影。背景: 模糊、明亮的厨房背景。高饱和度和对比度。”

viral_video_thumbnail

“毛茸茸的朋友们”(群体一致性):
[输入 3 张不同毛绒生物的图片]
“创作一个有趣的 10 图连环画故事,讲述这 3 个毛茸茸的朋友去热带度假。故事要有惊险的情感起伏,最后以幸福时刻结尾。保持这 3 个角色的穿着和身份在所有图中一致,但要在 10 张图中变换它们的表情和角度。确保每张图中每个角色只出现一次。”

fluffy_friends

品牌资产生成:
[输入 1 张产品图]
“创作 9 张令人惊叹的时尚大片,就像出自获奖的时尚杂志。以这张图为品牌风格参考,但要增加细微差别和多样性,使其传达出专业的设计感。请逐一生成这九张图片。”

stunning_fashion_shots


基于 Google 搜索的落地生成 🌐

Nano-Banana Pro 利用 Google 搜索基于实时数据、时事或事实验证来生成图像,减少在时效性话题上的“幻觉”。

最佳实践:

  • 要求可视化动态数据(天气、股票、新闻)。
  • 模型会在生成图像前先“思考”(推理)搜索结果。

提示词案例:

事件可视化:
“根据当前的旅游趋势,生成一张 2025 年美国国家公园最佳游览时间的信息图。”

visit_the_us


高级编辑、修复与上色 🎨

该模型擅长通过对话式提示进行复杂编辑。包括“重绘/内补(In-painting)”(移除/添加物体)、“修复(Restoration)”(修复老照片)、“上色(Colorization)”(漫画/黑白照)以及“风格转换”。

最佳实践:

  • 语义指令: 你不需要手动涂抹遮罩;直接自然地告诉模型改什么。
  • 物理理解: 你可以要求复杂的修改,比如“在这个杯子里装满液体”,以此测试物理生成能力。

提示词案例:

物体移除与重绘:
“移除这张照片背景中的游客,并用符合周围环境的逻辑纹理(鹅卵石路和店面)填充空白处。”

remove_background

漫画/动漫上色:
[输入黑白漫画格]
“给这个漫画格上色。使用充满活力的动漫风格调色板。确保能量束的光效是发光的霓虹蓝,且角色的服装与其官方配色一致。”

vibrant_anime_style

本地化(文字翻译 + 文化适配):
[输入一张伦敦公交车站广告图]
“保留这个概念但将其本地化为东京场景,包括将标语翻译成日语。把背景改成夜晚熙熙攘攘的涩谷街头。”

london_bus_stop

光照/季节控制:
[输入一张夏天的房子图片]
“把这个场景变成冬天。保持房屋建筑完全不变,但在屋顶和院子里加雪,并将光线改成寒冷、阴沉的午后。”

winter_time


维度转换 (2D ↔ 3D) 🧊

一个强大的新功能是将 2D 示意图转换为 3D 可视化,反之亦然。这对室内设计师、建筑师和梗图创作者来说非常理想。

提示词案例:

2D 平面图转 3D 室内设计板:
“根据上传的 2D 平面图,生成一张包含单图的专业室内设计展示板。布局: 拼贴画形式,顶部一张大主图(起居区的广角透视),下方三张小图(主卧、家庭办公室和 3D 俯视平面图)。风格: 采用现代极简风格,搭配温暖的橡木地板和米白色墙壁。质量: 照片级渲染,柔和自然光。”

floor_plan.jpeg

2D 转 3D 梗图(Meme):
“把‘This is Fine(没事,挺好)’的狗子表情包变成照片级的 3D 渲染图。保持构图完全一致,但让狗看起来像毛绒玩具,火焰看起来像真实的火焰。”

plush_toy


高分辨率与纹理 🔎

Nano-Banana Pro 原生支持 1K 到 4K 的图像生成。这对于细节纹理或大幅面打印特别有用。

最佳实践:

  • 如果你的 API/界面允许,明确要求高分辨率(2K 或 4K)。
  • 描述高保真细节(瑕疵、表面纹理)。

提示词案例:

4K 纹理生成:
“利用原生高保真输出,打造一个令人屏息、氛围感十足的苔藓森林地面环境。驾驭复杂的光效和细腻的纹理,确保每一缕苔藓和光束都以适合 4K 壁纸的像素级完美分辨率呈现。”

mossy_forest_floor

复杂逻辑(思考模式):
“创建一个高档芝士汉堡的超写实分解图,展示烤布里欧修面包的纹理、肉饼焦脆的外壳以及芝士融化时的光泽。给每一层的风味特点加上标签。”

gourmet_cheeseburger


思考与推理 🧠

Nano-Banana Pro 默认采用“思考”过程,它会先生成中间的思维图像(不计费)来优化构图,然后再渲染最终输出。这允许进行数据分析和解决视觉问题。

提示词案例:

解方程:
“在白板上求解 log_{x^2+1}(x^4-1)=2 (在复数域 C 中)。清晰地展示步骤。”

solve_equations

视觉推理:
“分析这张房间的照片,生成一张‘施工前’的照片,展示这个房间在建造时的样子,显示出框架结构和未完工的石膏板。”

before_image


一步到位的故事板与概念艺术 🎬

你可以生成无需网格分割的连续艺术或故事板,确保单次会话中的叙事流畅性。这在“电影概念艺术”(例如:即将上映电影的假泄露图)中也很流行。

提示词案例:

“创作一个引人入胜的 9 图故事,讲述一男一女出演的一支获奖奢华箱包广告。故事要有情感起伏,最后以女性带着 Logo 的优雅镜头结束。男女主角的身份和穿着必须在全程保持一致,但角度和距离应该多变。请逐一生成图片。确保每张图片都是 16:9 的横向格式。”

woman_and_man


结构控制与布局指导 📐

输入图像不仅限于角色参考或编辑对象。你可以利用它们来严格控制最终输出的构图和布局。对于需要将餐巾纸草图、线框图或特定网格布局转化为精美资产的设计师来说,这绝对是游戏规则改变者。

最佳实践:

  • 草图: 上传手绘草图,精确定义文本和物体的位置。
  • 线框图: 使用现有布局或线框图的截图来生成高保真 UI 模型。
  • 网格: 使用网格图像强制模型为瓦片地图游戏或 LED 显示屏生成资产。

提示词案例:

草图转最终广告:
“根据这张草图,为 [产品] 创作一则广告。”

final_ad

线框图转 UI 模型:
“按照这些指导原则,为 [产品] 创建一个视觉模型(Mock-up)。”

mockup_wireframe

像素艺术与 LED 显示:
“生成一个独角兽的像素艺术精灵(Sprite),完美适配这张 64x64 的网格图像。使用高对比度颜色。”
*(提示:开发者随后可以通过编程提取每个单元格的中心颜色,以驱动连接的 64x64 LED 矩阵显示屏)*。

pixel_art

精灵图(Sprites):
“一个女人在无人机上做后空翻的精灵图表(Sprite sheet),3x3 网格,序列帧,逐帧动画,正方形比例。严格遵循附件参考图的结构。”
(提示:你可以提取每个单元格制作成 gif)

backflip