图像生成

更新时间：2026-04-21

1. 产品概述

1.1 欢迎使用千帆图像服务

百度智能云千帆集成了先进的图像生成与图像编辑能力，是功能强大、接口统一的 AI 服务平台。无论是需要从零生成包含复杂文字渲染的创意海报，还是对现有图片进行语义级别的修改与融合，平台均能提供稳定、高效的 API 服务。

1.2 核心能力

为了满足不同场景下的需求，千帆平台目前提供以下核心图像处理能力：

1.2.1 图像生成

支持多种业界领先的生成模型，满足从高质量文本渲染到极速出图的多样化需求。

核心优势：
- 文本渲染：具备强大的原生文本理解能力，能够精准生成包含复杂布局、多行段落甚至书法效果的中英文文字。
- 极速生成：部分模型支持在极短步骤内产出高质量图像，适用于实时交互场景。
典型场景：广告海报设计、社交媒体配图、UI/PPT原型设计、游戏概念图绘制。

1.2.2 图像编辑

支持通用图像编辑模型，能够理解复杂的自然语言指令，对图像进行语义级别的修改。

核心优势：
- 语义编辑：无需复杂的掩码制作，直接通过文字指令实现风格转换、元素增删、背景替换。
- 多图融合：支持多张参考图输入，实现主体迁移与场景融合。
典型场景：IP形象二创、电商商品换景、虚拟穿搭、精准文字修改。

2. 能力选型指南

根据您的业务侧重点，推荐选择相应的模型服务：

核心需求	模型服务	适用场景
小身材和强指令跟随能力	ERNIE Image Turbo	商业海报、漫画、多面板布局
高质量和极致性价比	蒸汽机Air-Image	广告海报、艺术创作与插画设计
高质量文字渲染与创意设计	Qwen Image	广告海报、社交媒体封面、产品包装。
极速生成与原型验证	FLUX.1-schnell	快速原型验证、实时应用集成、批量图片处理。
复杂创意编辑与多图融合	Qwen Image Edit	IP创作、风格迁移、无Mask元素增删、多图合成。

3. 快速入门

3.1 前提条件

获取 API Key：您需要拥有百度智能云千帆平台的 API Key 用于身份验证。请登录控制台-安全认证-API Key 创建。
安装 OpenAI SDK (可选)：如需使用 Python 并以 OpenAI 兼容方式调用，请查询 OpenAI SDK兼容介绍。

3.2 接口调用方式

3.2.1 图像生成调用示例

以生成一张包含特定文字的海报为例。

使用 cURL 调用：

                Bash
                
            

                curl https://qianfan.baidubce.com/v2/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $ACCESS_TOKEN" \
  -d '{
    "model": "qwen-image", 
    "prompt": "一张关于音乐节的宣传海报，画面中央是醒目的白色艺术字 \"夏日狂想曲\"",
    "n": 1
  }'
            

注意：请求参数中的 model 字段请根据您实际开通和调用的模型名称填写（如 qwen-image 或 flux-1-schnell）。

3.2.2 图像编辑调用示例

对输入图片根据文本指令进行编辑。

单图编辑示例：

                Bash
                
            

                curl --location 'https://qianfan.baidubce.com/v2/images/edits' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer YOUR_ACCESS_TOKEN' \
--data '{
    "model": "qwen-image-edit",
    "image":"https://your-image-url.com/sample.jpg",
    "prompt":"改手绘风格，海边背景，白色连衣裙"
}'
            

多图融合示例：支持输入多张图片进行融合编辑。

                Bash
                
            

                curl --location 'https://qianfan.baidubce.com/v2/images/edits' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer YOUR_ACCESS_TOKEN' \
--data '{
    "model": "qwen-image-edit",
    "image":["https://url-image-1", "https://url-image-2"],
    "prompt":"让图1的人物穿上图2的衣服"
}'
            

4. 提示词工程指南与最佳实践

4.1 通用提示词原则

无论是生成还是编辑，推荐采用结构化的描述方式。

画面风格: 定义整体质感（如：赛博朋克、水墨画、写实照片）。
画面主体: 清晰描述核心对象（如：穿着宇航服的猫）。
主体细节与动作: 补充特征（如：戴着蓝色头盔，正在弹吉他）。
背景环境: 描述场景（如：浩瀚星空）。
构图与光照: 定义视觉呈现（如：特写镜头，柔和光线）。

示例：

简单组合	完整结构
一张照片，一个穿着宇航服的猫咪在月球上弹吉他	赛博朋克风格插画，一个穿着发光宇航服的暹罗猫，戴着透明头盔，正在月球表面弹奏一把霓虹色的电吉他，背景是深邃的宇宙和巨大的蓝色地球，采用广角镜头，充满电影感的伦勃朗光。

4.2 图像生成：文字渲染技巧

如果您的场景需要在图片中生成文字（使用 Qwen-Image 等支持文字的模型），请务必遵循以下规则：

使用双引号包裹文字：这是最关键的一点。例如：写着 "荣誉证书"。
明确位置和风格：说明文字应出现在哪里（如“画面中央”）及其样式（如“金色印刷体”）。
提供完整文案：避免模糊指令，直接提供具体内容。

模糊指令 (效果差)	精准指令 (效果好)
一张证书，上面写着获奖人和日期	一张金色的获奖证书，顶部是红色大字 "荣誉证书"，正文写着 "授予张三同学'年度之星'称号。日期：2025年9月22日"
一张海报，上面有活动标题	一张宣传海报，画面中央是醒目的白色艺术字 "夏日狂想曲"

4.3 图像编辑：语义控制技巧

在使用编辑模型时，您可以像与设计师对话一样下达指令。

主体+行为+细节+风格：明确要编辑的对象和具体操作。
- 示例：“背景里的树 (主体) 换成 (行为) 粉色的樱花树 (细节)。”
链式编辑：对于复杂修改，建议分步进行。先修改背景，拿到结果后再修改主体细节。
多图融合：明确指定参考图的作用。
- 示例：“让图1的人物保持姿态，背景替换为图2的风景。”

4.4 典型场景示例

图像生成场景

场景	描述	Prompt示例
营销横幅制作	为线上电商平台或网站快速生成促销活动的横幅广告，能够将复杂的促销文案、活动口号清晰地呈现在图片上。	夏日促销广告图，风格活泼清凉。背景为蓝天白云下的海滩、棕榈树和泳池。中央是戴潜水镜、穿泳裤的百度小度熊 IP 形象，周围有冻颜原生椰、泰式小麦白啤、水果冰棒、西瓜、冰皮点心等网红冰饮及消暑食品。上方有'夏日小度纳凉派对''网红冰饮任选 3 件 6 折' ，底部百度品牌标识，营造夏日促销氛围。
中式复杂场景	精准生成包含对联、牌匾、手写字等复杂中文元素的场景。能够正确处理对联的左右顺序和横批，并渲染出书法效果。	一副典雅庄重的对联悬挂于中式厅堂，上联写着"文心妙笔绘千景"，下联写着"千帆破浪济万家"，横批为"智引未来"。中间挂着一幅天坛祈年殿的水墨画。
产品包装设计	为产品生成带有品牌名称和描述的包装设计原型，文字与产品风格完美融合。	一个设计精美的咖啡豆包装袋，正面有手写体艺术字"晨光序曲"，下面小字注明"100% 阿拉比卡
活动海报	为线下音乐节、艺术展、校园开放日等活动设计宣传海报，即使是复杂的活动名称、嘉宾阵容和时间地点，也能清晰排版。	现代扁平插画风格,色彩明快,传递青春摇滚与夏日活力。主体是短发女孩,头戴黄色星星发夹,穿橙色宽松T恤+紫色百褶裙,白色运动鞋,正全情投入地弹蓝色电吉他。另一个短发男生头戴运动帽，身穿天蓝色条纹衬衣和绿色工装裤，在敲架子鼓。竖版布局,人物居左侧核心区,右侧竖排黑色粗体标题"百度音乐节"，底部居中排列活动信息："科技园 2025年9月20日"，同时也有百度的logo。背景加入彩色气球和动态彩带,天空漂浮笑脸星星,周围飞舞彩色音符和火花线条,强调音乐节的氛围感。
字体设计	用于设计或原型化包含特定风格字体的logo、标语或艺术字。模型能够根据描述生成手写体、书法、霓虹灯等多种艺术字体。	大师书法作品，行草，写着"中国制造"四个字，极具豪迈，黑底白字

图像编辑场景

场景分类	原图	Prompt	修改后图像
IP 创作		"让这只熊戴上草帽"
要素编辑		"把小猫换成小老虎"
精准文字编辑		白板上写"你好，世界"
元素增删改		"给小狗戴上红色的领结"
风格迁移		"改成宫崎骏动漫风格。"
视角转换		"获得后侧视角。"
多图融合		"让两个人站在一起合影，面向镜头"
姿态控制		"生成一张图像，符合如图所示的深度图，是彩色动漫风格少女图像，穿着裙子，有萦绕的飘带，战斗风格"