admin管理员组

文章数量:1531434

“给你一瓶魔法药水
喝下去就不怕身体结冰
轻轻念着你懂的咒语
一扇门就通往银河系”
——————《给你一瓶魔法药水》告五人

潞晨云上新SD3镜像!低价实现dream画面再也不是梦

近日SD模型迎来重磅更新,网友们都开始玩起了接力大赛。例如从下面这几幅“1girl,在错误的方向上拦出租车,纽约” 能看出SD3模型对AI绘图不会画手的问题做了很好的修复,目前已经能很好处理手部细节。

网友评价:“看,妈妈,我有一只功能齐全的手!”

通过SD3,你可以轻松实现脑海中天马行空的创意:

想融合大师的画风吗?无论是梵高、毕加索、达芬奇与伦勃朗的混搭,还是大卫·霍克尼与莫奈的融合,SD3都能轻松驾驭,让你成为大师之上的大师!

  

还想看到Hello Kitty、Snoopy、Garfield和Homer Simpson等动画角色的大乱斗吗?用SD3创造你自己的动画故事集吧!

    

Stability AI 的 Stable Diffusion 家族最新成员——SD3)现已登陆潞晨云!潞晨云平台支持一键调用,提供全网最低算力租赁价格,搭配高端GPU机型H800和A800,等你来体验!

潞晨云网址:https://cloud.luchentech

潞晨云ComfyUI with SD3 镜像操作教程

1.为机器添加 ssh 公钥

#本地terminal输入
cd /root/.ssh
#本地terminal 输入
nano authorized_keys

在潞晨云“云主机”页面,点击“添加新SSH公钥”添加 public key 后保存

在算力市场选择GPU(推荐使用1卡4090),并选择“ComfyUI with SD3”镜像

勾选“挂载公开数据”

2.本镜像已预选内置 ComfyUI 代码,详细路径可见:/root/ComfyUI

#访问指定文件夹
cd /root/ComfyUI
#运行
python main.py

运行成功后可以看到以下界面

查看 local URL ,可以看到端口为8188

3.开放本地口,登录ComfyUI开始作画:

云主机界面复制并保留 ssh 连接方式

#本地 terminal输入
ssh -CNg -L 8003:127.0.0.1:8188 root@云主机地址 -p

本地浏览器打开:http://localhost:8003/ ,可看到以下界面:

ComfyUI 需手动添加 workflow,可登录 Huggingface 自行下载:https://huggingface.co/stabilityai/stable-diffusion-3-medium/tree/main/comfy_example_workflows(填写基础信息后即可看到下载页面)。

也可在/root/commonData/stable-diffusion-3-medium/comfy_example_workflows获取。

如下图,点击“load” 加载 sd3_medium_example_workflow_basic.json 这个 workflow。

在 load Checkpoint 中选择 “sd3_medium”

输入  Prompt,Negative prompt 等提示词,点击右侧 “Queue Prompt”

  

等待片刻,即可收到生成的图片,如生成一只可爱的猫咪:


SD3 技术介绍‍‍


Stable Diffusion 3 更新

  • SD3采用新的多模态扩散变换器 (MMDiT) 架构对图像和语言表示使用单独的权重集,与以前版本的稳定扩散相比提高了文本理解和拼写能力。同时使用的重新加权的 Rectified Flow模型、引入了T5-XXL来作为text encoder等进一步提升模型的文本理解能力。


  • Stable Diffusion 3 模型在基于人类对视觉美学、在文字渲染和对文本提示词的遵循上,已经达到甚至超过目前STOA的文生图模型如DALL·E 3、Midjourney v6和Ideogram v1

    ‍‍‍

SD3 最大的亮点在于采用了一种称为Diffusion Transformer(MMDiT)的全新架构,取代了传统的 U-Net 主干网络。不同于 U-Net 对图像进行特征提取, Diffusion Transformer 将图像分割成一个个小方块(补丁),并将它们转换为一系列向量表示这一架构对图像和语言表示使用单独的权重集。

这一架构对图像和语言表示使用单独的权重集,与之前版本的稳定扩散相比,它提高了文本理解和拼写能力,使用户可以非常精准地控制需要出现在图片中地文字内容,有望带来更高质量和更多样化的图像生成结果。

另一个新功能是条件流匹配(Conditional Flow Matching),这一技术可以使 AI 图像生成过程中的指令控制更加精细和同步。传统上,生成式 AI 系统很难对整个生成过程实现全局控制,因为它们是混沌系统,难以达到完全平衡。

条件流匹配为不同生成步骤之间的协调提供了新的可能性。也因此,新模型能够生成更加以假乱真的逼真图片,对于完全虚构的图片也能做到美学和细节真实度的统一,对于人物,面部细节也更加真实手也近乎没有瑕疵了。

模型核心构架

SD3的核心技术在于StabilityAI 开发的MMDiT技术。

模型使用三种不同的文本嵌入器(两个 CLIP 模型和 T5)来编码文本表示,并使用改进的自动编码模型来编码图像编码图像token。这个构架的核心,采用的是和Sora一样的DiT技术。

由于文本和图像Embedding在概念上存在显著差异, 因此他们对这两种模式使用两组独立的权重。相当于为每种模态分配了独立的转换器,但是将两种模态的序列连接起来进行注意力操作,这样两种表征都可以在自己的空间中工作,同时考虑另一种表征。基于这种特殊架构,MMDiT的性能超越了传统UViT或DiT模型。

该方法使信息可在图像和文本标记间流动,提高生成输出的整体理解和排版质量。此架构还可轻松扩展至视频等多模态场景。再加上SD3改进的提示跟随能力,模型能创建聚焦于不同主题和质量要求的图像,同时保持对图像风格的高度灵活性。

特别活动

【百万补贴】优质线上算力资源百万补贴等你来薅,随开随用。

【企业认证】企业用户参与潞晨云企业认证可得500元代金券(有效期一月)。

【分享有礼】用户在社交媒体和专业论坛(如知乎、小红书、微博、CSDN等)上分享使用体验(带#潞晨云@潞晨科技),有效分享一次可得100元代金券(有效期一周)。

【用户社群】不定时发放特价资源、代金券等优惠活动。

参考链接:

SD3官方技术报告:https://github/mini-sora/minisora/blob/main/notes/SD3_zh-CN.md

本文标签: 解锁模型新境界潞晨云助您畅玩