在文字作画方面,通义万相可根据文字内容生成风格多样的图像,包括水彩、扁平插画、二次元、油画、中国画、3D 卡通和素描等风格,其基于阿里研发的组合式生成模型 composer,能对配色、布局、风格等图像设计元素进行拆解和组合,为用户提供高度可控性和极大自由度的图像生成效果。同时,它还支持相似图片生成和图像风格迁移功能。用户上传任意图片后,可进行创意发散,生成内容、风格相似的 AI 画作;也可上传原图和风格图,将原图自动处理为指定的风格图。
在视频生成方面,通义万相于 2024 年 9 月 19 日全面升级并发布全新视频生成模型。该模型集成了多项创新技术,有效解决画面表现力和大幅度运动等视频生成技术难题。用户输入任意文字提示词,即可生成一段高清视频,支持中英文多语言输入,并能通过灵感扩写功能智能丰富视频内容表现力,支持多种比例生成。同时,它还支持将任意图片转化为动态视频,用户可按照上传的图像比例或预设比例进行生成,并通过提示词来控制视频运动,且能生成与画面匹配的音效。目前所有用户均可通过通义 app 及通义万相官网免费体验视频生成功能。
自 2023 年 7 月发布以来,通义万相已累计生成 7500 万张图片,其视觉生成大模型全面升级为 diffusion transformer 框架,结合通义千问复杂提示词解释能力,有效提升了画面表现力、语义理解能力和可控生成能力。通义万相覆盖了文本生成、图像理解、视频理解、音频理解、图像生成、视频生成等全模态场景,可应用于艺术设计、电商、游戏和文创等多个领域,为用户带来全新的创作体验,帮助他们将奇思妙想转化为精美的图片和视频作品。
无论是专业设计师还是普通用户,都能借助通义万相轻松实现创意构想,满足各种图片和视频创作需求。同时,阿里云也在不断推动通义万相的优化和发展,致力于为用户提供更优质、更智能的服务。