一、生成式人工智能绘画模型
生成式人工智能在绘画领域的应用涉及到利用神经网络生成艺术作品,其中深度学习技术在图像生成和风格迁移方面取得了显著的进展:
1. 深度卷积生成对抗网络(DCGAN):DCGAN是一种生成对抗网络,专门设计用于生成逼真的图像。它使用卷积神经网络来学习图像的分布,生成器通过学习将随机噪声映射到逼真图像的过程。
2. 变分自动编码器生成对抗网络(VAE-GAN):结合了变分自动编码器和生成对抗网络的优点,VAE-GAN在生成逼真图像的同时,还具有潜在空间的良好结构,可以进行图像编辑和插值。
3. 神经风格迁移(Neural Style Transfer):该技术使用卷积神经网络,通常是预训练的卷积神经网络(如VGG网络),通过将图像的内容与艺术风格分离,从而将一个图像的内容应用到另一个图像上。
4. 生成式对抗网络(GAN)的变体:除了常规的GAN,还有一些针对绘画的GAN变体,如ArtGAN,专注于生成艺术风格的图像。
5. BigGAN:BigGAN是一种大规模生成对抗网络,通过增加网络的规模和参数来提高生成图像的质量和多样性。
6. Pix2Pix:该模型旨在将输入图像与输出图像之间的关系进行学习,可用于实现从草图生成真实图像、黑白照片上色等任务。(参见:https://www.tensorflow.org/tutorials/generative/pix2pix?hl=zh-cn)
二、 AI模型提示词一般结构和写法:
一般结构: 主体词+修饰词+环境词+艺术风格词+其它相关词
案例1:使用豆包模型设计
提示词:(如果使用通用大模型绘画,第一个词一般先告诉模型生成的类型,比如:生成绘画、生成音乐、生成视频等,前提是大模型需要具备该功能才能生成。)
生成图像:女青年头像素描,超写实素描,黑白灰素描,精微素描,阴影、徒手绘画、俏皮的线条,表情俏皮,无以言状的美,风格细致逼真,线条和阴影错落复杂,细节层次丰富,精细刻画的表情,栩栩如生,白色背景,超写实主义风格。


案例2:也可以告诉模型是要画一幅作品,这样模型就会启动绘画功能。不写这个提示词的话,模型默认为文字聊天,不会生成图像。


然后,把图片下载下来。
因为,豆包、文心一言等是免费的,大家可以用来练手,练熟以后,比较好的提示词要选最优秀的AI绘画模型画,才可以画出质量最好的作品。
提示词的写法,早期模型一般是按词的先后顺序授予权重,后面的权重偏低。第一组词的权重系数高。所以,一般第一组词都是写主体词如“女青年头像素描”。
接下去第二组词,一般写修饰词,是对主体词的修饰,如 超写实素描,黑白灰素描,阴影、徒手绘画、俏皮的线条,表情俏皮,无以言状的美,风格细致逼真,线条和阴影错落复杂,细节层次丰富,精细刻画的表情,栩栩如生。也可以第一组和第二组词结合在一起,模型会理解并自动分配权重。
第三组词,写艺术风格词。比如原始艺术中的“自然主义风格”,现代艺术中的“超现实主义风格”等等风格词,风格词的选取要与作品的时代、环境、功能、内容等综合考虑,作品才会增添艺术魅力。
第四组词及之后的权重系数相差不大,所以先后顺序可以根据自己的需要写,比如对清晰度、色彩、对比度等等之类的专业词汇。
有些,比如镜头光圈值、镜头类型、渲染器等之类的也可以写,但是,生成的图像可能会有偏差的,一些模型对这些词各有侧重,国外著名模型生成的效果会好一点,但是,随着国内技术的快速发展,当前国内外著名模型已经各具特色。随着模型推理能力的加强,词的顺序与权重的关系也在变弱。
总之,一幅优秀的图像作品,是图像形式、风格与内容的高度统一。因此,提示词中的关键词一般都是在时空上一致;艺术上协调;相互关系上补充;风格上不矛盾的。
------------------------------------------------------------------------------------------
三、 三大著名人工智能绘画模型
【1】 Midjourney https://midjourney.com/ (因美国国家风控,较难直接使用且价高。)
Midjourney使用文档: https://docs.midjourney.com/docs/prompts-2
Midjourney参数:https://docs.midjourney.com/docs/parameter-list
Midjourney 最新版本: https://docs.midjourney.com/docs/models
在国内还可用的Midjourney绘画模型: https://www.easygpt.cloud/register?invite_code=jxBL3wOqX3
在国内还可用的Midjourney绘画模型 小野AI: https://aimy.fun/?inVitecode=SNEWABJQEF
Midjourney绘画模型 官方网站:https://www.midjourney.com/(使用教程:https://docs.midjourney.com/docs) Midjourney是由位于美国旧金山的独立研究实验室 Midjourney, Inc.由Leap Motion 的前联合创始人David Holz创建。Midjourney根据自然语言描述生成图像,称为提示,是AI Spring的技术之一。该公司一直致力于改进其算法,每隔几个月发布新的模型版本。他们的算法的版本 2 于 2022 年 4 月发布, 2022 年 7 月 12 日首次进入公开测试版,2023 年 12 月 21 日,版本 6 的 alpha 迭代发布。
中途只能通过其官方 Discord 服务器上的 Discord 机器人、直接向机器人发送消息或邀请机器人访问第三方服务器来访问。要生成图像,用户使用 /imagine 命令并输入提示;然后机器人返回一组四张图像。然后,用户可以选择他们想要升级的图像。Midjourney 也在开发网络界面。
除了/imagine命令之外,Midjourney 还提供许多其他命令发送到 Discord 机器人。包括但不限于/blend允许用户混合两个图像的命令、/shorten允许用户获得关于如何使长提示变短的建议的命令以及其他改进中途体验的命令等。
----------------------------------------------------------------------------
【2】 Stable Diffusion https://platform.stability.ai/
https://stablediffusionweb.com
SDXL 1.0 https://clipdrop.co/stable-diffusion
稳定扩散 3:研究论文 https://stability.ai/news/stable-diffusion-3-research-paper
Stable Cascade的官方代码库:https://github.com/Stability-AI/StableCascade
Stable 稳定扩散模型/生成模型/语言模型等(自训练模型)本地安装运行下载地址: https://github.com/Stability-AI
Stable Diffusion绘画模型 官方网站:https://stability.ai/ 直通 https://platform.stability.ai/
ComfyUI : https://github.com/comfyanonymous/ComfyUI
控制扩散模型 ControlNet: https://github.com/lllyasviel/ControlNet
动画生成器 AnimateDiff: https://github.com/guoyww/AnimateDiff
图像到图像调节模型 ComfyUI IPAdapter: https://github.com/cubiq/ComfyUI_IPAdapter_plus
Stable Diffusion是由英国初创公司 Stability AI 资助和塑造的。该模型的技术许可证由慕尼黑路德维希马克西米利安大学的 CompVis 小组发布。开发由Runway的 Patrick Esser和 CompVis 的 Robin Rombach 领导,他们是早期发明稳定扩散所使用的潜在扩散模型架构的研究人员之一。Stability AI 还将EleutherAI和LAION(一家德国非营利组织,组装了 Stable Diffusion 训练的数据集)作为该项目的支持者。
稳定扩散使用一种扩散模型(DM),称为潜在扩散模型 (LDM),由慕尼黑大学的 CompVis 小组开发。于 2015 年推出,训练扩散模型的目的是消除训练图像上连续应用的高斯噪声,可以将其视为一系列去噪自动编码器。稳定扩散由 3 部分组成:变分自动编码器(VAE)、U-Net和可选的文本编码器。VAE编码器将图像从像素空间压缩到更小维的潜在空间,捕获图像更基本的语义。在前向扩散过程中,高斯噪声被迭代地应用于压缩的潜在表示。U-Net 块由ResNet主干组成,对前向扩散向后的输出进行去噪以获得潜在表示。最后,VAE 解码器通过将表示转换回像素空间来生成最终图像。
稳定扩散模型是一种生成式人工智能模型,可根据文本和图像提示生成独特的逼真图像。 它使用了一种称为扩散的技术,该技术从随机噪声开始,并逐渐将其转换为目标图像。
稳定扩散模型由三个主要部分组成:
文本编码器:将文本提示转换为机器可读的格式。
扩散模型:从随机噪声生成图像。
图像解码器:将图像从机器可读格式转换为可视格式。
工作原理
稳定扩散模型的工作原理是首先将文本提示通过文本编码器转换为机器可读的格式。 然后,扩散模型使用该格式生成一系列图像,从随机噪声开始,逐渐转换为目标图像。 最后,图像解码器将图像从机器可读格式转换为可视格式。
稳定扩散模型具有以下优势:
可以生成高质量的逼真图像。
可以根据文本和图像提示生成图像。
可以控制图像的生成过程。
可以用于各种应用程序,例如图像生成、图像编辑和视频创作。
稳定扩散模型可以用于各种应用程序,例如:
图像生成:可以根据文本或图像提示生成新的图像。
图像编辑:可以用于编辑现有图像,例如添加或删除元素、更改颜色或调整大小。
视频创作:可以用于创建视频和动画。
稳定扩散模型也有一些局限性,例如:
生成图像的质量可能因文本提示的质量而异。
生成图像可能需要大量的时间和计算资源。
生成图像可能存在偏见或不准确性。
未来发展趋势:
生成图像的质量将进一步提高。
生成图像的速度和效率将进一步提高。
生成图像的偏见和不准确性将得到减少。
参考资料
Stable Diffusion: A Text-Guided Image Generation Model: [https://arxiv.org/abs/2204.01216
---------------------------------------------------------------------------------
【3】DALL·E https://www.bing.com/create
https://www.bing.com/images/create?
DALL·E-3 On ChatGPT: https://chat.openai.com/ (因风控,较难直接使用且价高。)
DALL·E-3 On CoPilot: https://copilot.microsoft.com/
DALL-E绘画模型 官方网站: https://labs.openai.com/
DALL·E是OpenAI开发的文本到图像模型,使用深度学习方法从自然语言描述(称为“提示”)生成数字图像。在 2021 年 1 月 5 日的博客文章中披露,并使用修改后的GPT-3版本来生成图像。
第一个生成式预训练 Transformer (GPT) 模型最初由 OpenAI 于 2018 年开发,使用Transformer架构。第一次迭代 GPT-1,于 2019 年扩大规模生产GPT-2;2020 年,它再次扩大规模,生产出GPT-3,拥有 1750 亿个参数。DALL·E是与CLIP(对比语言-图像预训练)联合开发并向公众公布的。CLIP 是一个基于零样本学习的独立模型,它是在 4 亿对带有从互联网上抓取的文本标题的图像上进行训练的。其作用是通过从数据集中随机选择的 32,768 个标题(其中一个是正确答案)的列表中预测哪个标题最适合于 DALL·E 的输出来“理解和排序”一个图像。该模型用于过滤 DALL·E 生成的更大的初始图像列表,以选择最合适的输出。
----------------------------------------------------------------------------------
四、 国外其它著名绘画模型
人工智能绘画模型(2024年)
1、跑道 runway: https://runwayml.com/
2 、莱昂纳多leonardo: https://app.leonardo.ai/ai-generations
leonardo绘画作品范例: https://app.leonardo.ai/
3、Adobe萤火虫:https://firefly.adobe.com/ (部分免费)
4、 ImageFX: https://aitestkitchen.withgoogle.com/
5、 游乐场:https://playgroundai.com/create (部分免费)
playground绘画作品范例1:https://playground.com/post/full-bodyby-chiaroscuro-and-gustave-dore-jason-limonraw-p-cltu3ht1h05u2s601qzofdqe9
playground绘画作品范例2:https://playground.com/post/dolphin-clu39pkl30ak8s601trdouext
6、梦想工作室:https://dreamstudio.ai/generate
7、表意文字 ideogram: https://ideogram.ai/
8、蓝柳 Bluewillow: https://www.bluewillow.ai/
画布canva: https://www.canva.com/features/ai-sketch-and-draw/
艺术饲养员 Art breeder: https://www.artbreeder.com/create
夜咖啡馆 nightcafe: https://creator.nightcafe.studio/
深梦生成器:https://deepdreamgenerator.com/
莱娅·皮克斯: https://www.leiapix.com/
莱克西卡 lexica:https://lexica.art/
CapCut生成图像功能:https://www.capcut.com/ (免费)
繁星点点AI: https://starryai.com/
海艺AI:https://www.seaart.ai/zhCN (部分免费)
Dall·E mini https://www.craiyon.com/
https://huggingface.co/spaces/dalle-mini/dalle-mini
像素艺术 pix art: https://picsart.com/zh
krea : https://www.krea.ai/
openart: https://openart.ai/
hotpot: https://hotpot.ai/art-generator
img2go: https://www.img2go.com/ai-art-generator
iamfy: https://www.iamfy.co/
cutout: https://www.cutout.pro/ai-art-generation
starryai: https://starryai.com/
Deepai: https://deepai.org/machine-learning-model/text2img
journeydraw绘画插件: https://chromewebstore.google.com/
Artguru: https://www.artguru.ai/ai-art-generator-from-photo/
neural:https://neural.love/
fotor: https://www.fotor.com/ai-art-generator/
vizcom: https://www.vizcom.ai/
newarc: https://www.newarc.ai/
iamfy: https://www.iamfy.co/studio/landing/ai-drawing
国外免费实验模型
https://replicate.com/stability-ai/stable-diffusion (免费)
随机人脸生成器: https://randomoutputs.com/random-face-generator
https://picsart.com/ai-image-generator/face/
https://generated.photos/face-generator/new
数字绘画
自动绘画: https://www.autodraw.com/
--------------------------------------------------------------------------------------------------------
五、国内可用AI绘画模型
5.1. 混元: https://hunyuan.tencent.com/image
文心一言 https://yiyan.baidu.com/X1 跨模态大模型,在手机应用商店下载安装APP免费生成图像
文心一格: https://yige.baidu.com/creation?mode=0
通义千问:https://tongyi.aliyun.com/
讯飞星火:https://xinghuo.xfyun.cn/
特赞AI: https://app.museai.cc/ai-generations
智谱AI: https://chatglm.cn/main/detail
剪映 dreamina:https://dreamina.jianying.com/ai-tool/image/generate
4.2.2.在国内可用的国外绘画模型:
MJ绘画模型——Midjourney: https://www.easygpt.cloud/register?invite_code=jxBL3wOqX3
Google浏览器插件绘画模型:
https://sider.ai/invited?c=750f17a14e7745282bd0ede76029d7ad
国外绘画模型:https://limewire.com/studio
----------------------------------------------------------------------------------
六、 人工智能模型提示词:
2.1 一般结构(通用): 主体词+修饰词+环境词+艺术风格词+其它相关词
2.2 提示词参考网站: https://midlibrary.io/ https://docs.midjourney.com/docs
Midjourney中文使用文档网址: https://trateou.github.io/midjourney/cn/
2.3 提示词市场:PromptBase https://promptbase.com/
2.4 提示生成器: https://promptfolder.com/midjourney-prompt-helper/
2.5 AI艺术作品网站 https://civitai.com/
----------------------------------------------------------------------------------------------------------
七、 人工智能实验与创意平台
Discord https://discord.com
Github https://github.com/
八、 艺术资源集聚的平台
INS https://www.instagram.com/
YouTube https://www.youtube.com/
--------------------------------------------------------------------------------------------------------

