Stable Diffusion V2.1发布

Stable Diffusion V2.1发布,支持非标准分辨率图像高清渲染。

SD2.1在线体验

在线体验地址:http://acg.aiartwork.online/
模型包括:

  • NovelAI,NovelAI的模型训练使用了数千个网站的数十亿张图片,包括 Pixiv、Twitter、DeviantArt、Tumblr等网站的作品。
  • Waifu,waifu的模型可用于生成二次元的卡通形象,可以生成独有的二次元动漫小姐姐和主人公
  • Stable diffusion-v2.1,以英文为输入的通用图像生成模型

这次发布,距离2.0大版本更新相距不到两周时间。一方面体现了公司效率之高;但另一方面,也暴露了前代模型存在的诸多不足。

本次更新,主要有三大亮点。

减少人像过滤:可以涩涩,但不完全能

在2.0版本中,为了防止色情内容和名人肖像的滥用,保护人类艺术家的权益,Stability AI使用了LAION的NSFW(不适宜办公场所观看)过滤器,过滤成人内容。

但是,许多用户反映,该过滤器过于保守,对于一些模棱两可的图像,只要机器认定是NSFW的内容,就会惨遭「和谐」。

这减少了模型训练数据集中的人物数量,导致用2.0创作的人像图片都显得异常诡异。

StabilityAI听取了用户的反馈,调整过滤器以减少限制。

在与LAION-5B的开发者合作分析了NSFW过滤器及其对训练数据的影响后,将设置调整得更加平衡。

调整后的版本在引入新的提示词的基础上,加入了许多之前版本的提示词,以便在2.0中过滤掉的绝大多数图像重新加入训练数据集,用以训练2.1版本。

但是官方也给各位老司机泼了盆冷水:2.1版本仍然会去除绝大多数成人内容。

毕竟,减少过滤限制是为了提升人像精度。

2.1版本在2.0的模型上进行微调,不仅可以轻松呈现美丽的建筑概念和自然风光,也可以生成人物和流行文化的梦幻形象。

SD2.1下的超级英雄

非标准分辨率图像渲染加强,轻松制作8K大片

该模型还能够渲染非标准分辨率的图像。这可以帮助用户完成各种创举,例如使用极致的纵横比,为用户提供美丽的远景和史诗般的宽屏图像。

2.0版本相较于1.0版本,最大的更新在于生成图像,尤其是建筑概念和自然风光图像的质量。

而2.1版本更是在建筑、室内设计、野生动物和景观场景方面的图像质量上,进行了又一次飞跃。

Prompt: A valley in the Alps at sunset, epic vista, beautiful landscape, 4k, 8k / Stable Diffusion v2.1-768 CLIP off

Prompt: A Hyperrealistic photograph of ancient Malaysian architectural ruins in Borneo's East Malaysia, lens flares, cinematic, hdri, matte painting, concept art, celestial, soft render, highly detailed, cgsociety, octane render, trending on artstation, architectural HD, HQ, 4k, 8k

Prompt: A view underwater of colorful schools of fish swimming by a coral reef, professional, 4k, 8k / SD v2.1-768 CLIP off

2.1版本之所以能轻松呈现美丽的建筑概念和自然风光,主要依靠其更长的训练时长。

与模型2.0相比,新版本在LAION数据集上多训练了接近20万个样本。训练数据的增加,大大提升了非标准分辨率图像的渲染能力。

加强反向提示词,图像更精致

反向提示词(negative prompt)与提示相反,它允许用户告诉模型不生成什么。

该版本加强了反向提示词的应用,用于消除不需要的细节,进行图像微调,例如手部损坏、手指过多或失焦和图像模糊。

Prompt: a portrait of a beautiful blonde woman, fine - art photography, soft portrait shot 8 k, mid length, ultrarealistic uhd faces, unsplash, kodak ultra max 800, 85 mm, intricate, casual pose, centered symmetrical composition, stunning photos, masterpiece, grainy, centered composition : 2 | blender, cropped, lowres, poorly drawn face, out of frame, poorly drawn hands, blurry, bad art, blurred, text, watermark, disfigured, deformed, closed eyes : -2 / Stable Diffusion v2.1-768

用户可以使用加权提示提示模型,对组合中的特定元素进行微调,例如某些颜色、对象或属性。

使用提示加权优化整体图像,以增加或减少合成元素,使用户能够更好地控制图像合成。

根据没有反向提示词(左)和有反向提示词(右)生成图片的比较,可以发现后者在细节方面更加完美。

该图中,反向提示用于告诉模型限制树木、灌木丛、树叶和绿色植物的突出程度,同时保持相同的初始输入提示。

Image Prompt: A hyperrealistic painting of an astronaut inside of a massive futuristic metal mechawarehouse, cinematic, sci-fi, lens flares, rays of light, epic, matte painting, concept art, celestial, soft render, octane render, trending on artstation, 4k, 8k : 2 | blender, cropped, lowres, out of frame, blurry, bad art, blurred, text, disfigured, deformed : -2 / Stable Diffusion v.2.1 with CLIP Guidance ON

虽然此次版本更新未能完全开放NSFW内容,但并不影响用户使用的热情。毕竟在AIGC领域,Stable Diffusion是当之无愧的顶流。