简介:豆包发布新一代AI修图模型,支持语音指令精准修图,同步开源扣子平台,并实现同声传译技术突破,开启AI工具全场景应用新纪元。
传统图像编辑依赖鼠标、键盘等物理输入设备,存在操作门槛高、效率受限等问题。豆包最新发布的AI修图模型通过自然语言交互技术,首次实现“动嘴修图”的突破性功能,用户仅需通过语音指令即可完成精准修图。
该模型采用多模态大模型架构,将语音指令解析为结构化操作参数。例如,用户说“将照片中穿红衣服的人背景虚化”,模型可自动识别人物位置、服装颜色及背景区域,生成符合语义的虚化效果。技术实现上,模型通过以下流程实现精准控制:
针对复杂指令(如“调整人物肤色至自然状态,但保留阴影细节”),模型支持多轮对话修正。用户可通过语音追加条件(如“再亮一点”),系统实时生成调整后的预览图,直至达到满意效果。这种交互模式显著降低了专业修图软件的学习成本,普通用户无需掌握Photoshop等工具的复杂操作即可完成高质量修图。
与修图模型同步上线的扣子开源版,是豆包面向开发者推出的低代码AI开发平台。其核心价值在于降低AI应用开发门槛,支持快速构建语音交互、图像生成等场景化应用。
以“语音控制图片风格迁移”应用为例,开发者可通过扣子平台快速实现:
# 示例代码:调用扣子API实现语音指令风格迁移import kouzi_sdkdef voice_to_style(voice_path):# 语音转文本text = kouzi_sdk.asr(voice_path)# 语义解析提取风格关键词(如“油画风格”)style = kouzi_sdk.nlp_parse(text)["style"]# 调用图像生成APIresult_img = kouzi_sdk.image_generate(input_img="input.jpg",style=style)return result_img
通过此类代码,开发者无需从零训练模型,即可在数小时内完成功能开发。
扣子开源版提供企业级服务方案,包括:
豆包此次发布的同声传译功能,实现了语音识别、机器翻译与语音合成的全链路优化,支持中英日韩等32种语言的实时互译。
豆包此次发布的三大功能(语音修图、扣子开源、同声传译),标志着AI技术从单一能力向全场景工具链的演进。未来,豆包计划进一步整合多模态能力,例如:
对于开发者与企业用户而言,豆包的革新不仅提供了更高效的工具,更开启了“以自然语言驱动AI”的新范式。无论是快速验证AI应用创意,还是构建企业级AI解决方案,豆包生态均提供了从技术到商业化的全链路支持。此次发布或将成为AI工具领域的重要分水岭,推动行业向更智能、更普惠的方向发展。