原子能力-图片生成
更新时间:2026-05-21
多模态图片生成
接口描述
- 接口概述
本接口为开发者提供多模态图片生成能力。调用者输入文本或语音指令进行文生图或图生图, 经由云端解码、转码,输出统一格式,通过 HTTP SSE (Server-Sent Events) 协议下发 Base64 编码的图片帧和文本帧。
- 交互流程
用户可以通过自然语言(语音或文字)下发指令,例如:
“生成小狗的图片”
“生成小猫的图片”
- 权限说明
当前版本为调试版本,相关api可以直接调用。待后续更新为正式版本后,需要安装sdk后通过license激活使用。
请求结构
Plain Text
1POST /sse/v{version}/aiagent/chat/completions/content/get HTTP/1.1
2Host: gwgp-tdvpwojkegj.i.bdcloudapi.com
3Authorization: Bearer string
4{
5 "messages": [
6 {
7 "contentItems": [
8 {
9 "type":"text",
10 "text":"生成****的图片"
11 },
12 {
13 "type":"audio",
14 "audio":{
15 "data":"base64xxxx"
16 }
17 }
18 ]
19 }
20 ],
21 "metadata": {
22 "imageGenerateModel": "",
23 "referImage":"",
24 "media_height": ****,
25 "media_width": ****
26 },
27 "response_format": {
28 "enable_tts": True,
29 "text_stream": True,
30 "resource_type": "url"
31 }
32 }
请求头域
除公共头域外,无其它特殊头域。(后续正式版需要携带 authorization )
请求参数
| 参数名称 | 类型 | 是否必选 | 参数位置 | 描述 |
|---|---|---|---|---|
| messages | List<Object> | 是 | RequestBody | 用户query列表。多种类型同时存在时,以text为准;同一类型多个值时,仅第一个值生效 |
| +contentItems | List<Object> | 是 | RequestBody | 请求内容列表 |
| ++ type | String | 是 | RequestBody | qurey类型 |
| ++ text | String | type=text时,必选 | RequestBody | 文本型query内容 |
| ++ audio | Object | type=audio时,必选 | RequestBody | 语音型query内容的对象 |
| +++ data | String | type=audio时,必选 | RequestBody | base64编码的语音query字符串 |
| metadata | Object | 否 | RequestBody | 指定的图片信息 |
| + image_generate_model | String | 否 | RequestBody | 当前支持standard_picture模型 |
| + refer_image | String | 否 | RequestBody | 参考图片链接,支持url |
| + num | Integer | 否 | RequestBody | 生成图片的数量,目前仅支持1张 |
| + media_height | Integer | 否 | RequestBody | 生成图片的高度,取值范围是1024-4096 |
| + media_width | Integer | 否 | RequestBody | 生成图片的宽度,取值范围是1024-4096 |
| response_format | Object | 是 | RequestBody | 指定的返回内容信息 |
| + text_stream | Boolean | 否 | RequestBody | 文本流式返回,默认值为true |
| + resource_type | String | 是 | RequestBody | 图片返回类型,当前仅支持url |
| + enable_tts | Boolean | 否 | RequestBody | 是否语音播报文本内容,默认为false |
响应头域
除公共头域外,无其它特殊头域。
响应参数
SSE格式返回,具体类型如下:
"type":"system.connect" -> 系统消息:连接成功
"type":"system.processing" -> 系统消息:请求处理中
"type":"transcript" -> query完整值
"type":"answer.median" -> 回复内容中间值
"type":"answer" -> 回复内容完整值
"type":"tts.begin" -> 开始播报文本
"type":"audio.header" -> 音频格式信息
"type":"image.generate.result" -> 图片生成结果
"type":"tts.end" -> 播报文本结束
[DONE] -> 结束标识
请求示例
Plain Text
1POST https://gwgp-tdvpwojkegj.i.bdcloudapi.com/sse/v1/aiagent/chat/completions/content/get
2Host: gwgp-tdvpwojkegj.i.bdcloudapi.com
3Authorization: Bearer string
4{
5 "messages": [
6 {
7 "contentItems": [{"type": "text", "text": "生成小猫的图片"}]
8 }
9 ],
10 "metadata": {
11 "imageGenerateModel": "",
12 "referImage":"",
13 "media_height": 2048,
14 "media_width": 2048
15 },
16 "response_format": {
17 "enable_tts": True,
18 "text_stream": True,
19 "resource_type": "url"
20 }
21}
响应示例
Plain Text
1data:{"type":"system.connect","desc":"SSE流连接已建立"}
2data:{"type":"system.processing","desc":"正在处理您的请求"}
3data:{"type":"transcript","desc":"query完整值","data":{"text":"生成小猫的图片"}}
4data:{"type":"tts.begin","desc":"开始播报tts"}
5data:{"type":"answer.median","desc":"回复中间值","data":{"text":"图片生成中,请稍候"}}
6data:{"type":"audio.header","desc":"音频格式","data":{"channel":1,"sample_rate":16000,"format":"pcm16"}}
7data:{"type":"image.generate.result","desc":"图片生成结果","data":{"task":1779279883258,"url":"https://ark-content-generation-v2-cn-beijing.tos-cn-beijing.volces.com/doubao-seedream-4-0/0217792798838731f1f9d73d520aa3bc1200a589efeea95663c12_0.jpeg?X-Tos-Algorithm=TOS4-HMAC-SHA256&X-Tos-Credential=AKLTYWJkZTExNjA1ZDUyNDc3YzhjNTM5OGIyNjBhNDcyOTQ%2F20260520%2Fcn-beijing%2Ftos%2Frequest&X-Tos-Date=20260520T122450Z&X-Tos-Expires=86400&X-Tos-Signature=960009e65a344f623955e10260e1406a3b84118dcb9629a4fa6e4ce6a5fcbb68&X-Tos-SignedHeaders=host"}}
8data:{"type":"answer","desc":"回复完整值","data":{"text":"图片生成中,请稍候图片已生成"}}
9data:{"type":"tts.end","desc":"tts播报结束"}
10data:[DONE]
评价此篇文章
