扩散模型原理到实战：让AIGC成功破圈的《太空歌剧院》

智源社区2年前 (2023)发布智源社区

725 0 0

福利！免费寄送图书！！

公众号【机器学习与AI生成创作】后台回复：168。即可参与免费寄送【扩散模型】图书活动，活动截止日期为 2023-08-28 晚上10点。

公众号后台回复：168（建议选中复制）

也可自行购买，戳如下优惠京东专属链接：

▲

点击专属特价入口，即可

5折

购书，限50人

你能想象吗？下面这些精美绝伦的图片竟然都是AI自动生成的！

图：书中插图

没想到，AI界已经有如此炫酷的技术！而在整个过程中，创作者只用做一件事，那就是：用一段文字描述想要的图片内容。

这种效果背后的技术被称作扩散模型（Diffusion Model）。

事实上，它在很多领域都占有一席之地，在游戏、生物、医疗等行业都能看到它的身影。其中，最知名的当属画作《太空歌剧院》。

可见，AI绘画已经彻底出圈。现如今，要进入AI领域，AIGC几乎已经是人手必备的生存技能了。

那么，在这一过程中，关乎其效果的背后的技术扩散模型是如何发挥魅力的呢？

今天，就让我们借由这本得到澜舟科技创始人兼 CEO，创新工场首席科学家，CCF副理事长周明、北京大学人工智能研究院研究员杨耀东等联袂推荐的《扩散模型从原理到实战》，一窥究竟。

▲

点击封面，即可

5折

购书，限50人

赶超AI风口，让模型“扩散”起来！

扩散模型是基于扩散思想的深度学习生成模型，其背后蕴含着复杂的数学原理。

小异发现，为了便于读者理解，作者特意避开了这些复杂内容。但是，读者依旧可以基于本书内容学会如何生成精美图像。

扩散模型是一类生成模型，它借鉴了物理热力学中的扩散思想：分子从高浓度区域扩散到低浓度区域。这与由于噪声干扰导致的信息丢失十分相似。

书中采用了一滴墨水在水中扩散的过程举例。

▮ 初始状态：扩散开始之前，这滴墨水会在水中的某个地方形成一个大的斑点。

▮ 扩散过程：这滴墨水随着时间的推移逐步扩散到水中，水的颜色也逐渐变成这滴墨水的颜色。

图：一滴墨水在水中扩散分布的示意图（选自书中）

就这个过程而言，描述该初始状态的概率分布很困难，因为该分布非常复杂。而扩散后的墨水分子的概率分布更加简单和均匀，可以很轻松地用数学公式来描述。

这时候非平衡热力学就派上用场了，它可以描述墨水随时间推移的扩散过程中每一个时间步状态的概率分布。如果把这个过程反过来，就可以从简单的分布中逐步推断出复杂的分布。

扩散模型和这个过程类似，只不过它分为前向扩散和反向扩散两个过程。

▮ 前向扩散：引入噪声，并学习由噪声引起的信息衰减，最终得到纯随机噪声分布的数据，即类似稳定墨水系统的状态。

▮ 反向扩散：前向扩散的反向过程，是“去噪”的过程，即从随机噪声中迭代恢复出清晰数据的过程。通俗地说，就是生成模型的采样过程。

图：DDPM 的扩散过程（选自书中）

公认最早的扩散模型 DDPM（Denoising Diffusion Probabilistic Mode）的扩散原理就由此而来。

作者在书中对扩散模型做了大量的诠释，也给出了对应的案例和代码，降低了理解门槛，提高了学习效率。

图：使用现有模型再学习到指定主体图像的功能

在第3章中，作者以实战方式演示了从0开始搭建扩散模型的过程，从一个简单的扩散模型讲起，展示其不同部分的工作原理。

▮ 退化：引入噪声并和内容混合。

▮ 训练模型：获取一批数据添加随机噪声，之后将数据输入模型，对模型预测与初始图像进行比较，计算损失更新模型的参数。

图：模型的预测结果（选自书中）

▮ 采样过程：从完全随机的噪声开始，先检查一下模型的预测结果，然后只朝着预测方向移动一小部分（比如，20%），如果新的预测结果比上一次的预测结果稍微好一点，就可以根据这个新的、更好的预测结果继续往前迈出一步。

图：采样过程（选自书中）

此外，作者还对调整时间步、优化采样步骤等提出了思考，以便更好地改善模型效果。同时，读者可以访问B站观看Hugging Face平台提供的课程，来以互动性更强的方式学习扩散模型知识。

图：B站扩散模型直播活动

正如一开始所说，扩散模型已经逐渐渗透到了生活、工作的方方面面，甚至有科学家已经开始尝试结合大型语言模型的信息与图像生成扩散模型，用文本指导扩散过程。

作者也希望各位读者可以将学到的知识与专业领域或技能相结合，解决生活或工作中的实际问题。

巧用工具，你的模型你做主！

工欲善其事，必先利其器。

想要更高效地打造扩散模型并解决日常问题，少不了给力的工具。作者也在书中介绍了很多实用工具——

首先是Hugging Face，它是专门服务机器学习从业者的协作和交流平台，致力于构建开放、负责的人工智能的未来。本书第3-8章的内容就是基于Hugging Face平台上的Diffusion课程设计的。

Hugging Face 的核心产品是 Hugging Face Hub——一个基于 Git 进行版本管理的存储库，由模型、数据集、应用程序三块组成。

截至 2023 年 3 月底，Hugging Face Hub 上已经托管了 16.2 万个模型、2.6 万个数据集以及 2.5 万个应用程序。

▮ 模型：每一个模型都有一个模型卡片页面，包括介绍、用途和限制、使用方法、训练方法、模型评估、使用的数据集，甚至还有供快速体验的示例应用，让读者快速体验。

图：Hugging Face Hub 上的模型卡片（选自书中）

▮ 数据集：Hugging Face 归集了超过5000个数据集，涵盖100多种语言，可用于自然语言处理、计算机视觉和音频等广泛领域的任务。

图：某个模型的训练数据集以及使用该模型建立的应用列表（选自书中）

▮ 应用程序：Hugging Face Hub 提供了Spaces 功能，它可以让你在几分钟内创建和部署一个应用程序。

图：Hugging Face Hub 内展示的本周热门 Spaces 应用

除此之外，Hugging Face 还在 GitHub 上开源了一系列机器学习库和工具，比如Transformer、Datasets、diffusers等。

此外，作者还介绍了开源的 Python 库Gradio。它由 Hugging Face 推出，用于构建机器学习和数据科学演示以及 Web 等应用。

当需要向用户展示机器学习模型的时候，Gradio 可以有效地帮助你创建交互式应用。

图：使用 Gradio 运行“Hello World ！”程序（选自书中）

大咖助力，内容注定精彩

扩散模型之所以能被研究得如此透彻，离不开作者背后多方团队的鼎力支持。这些人中，有专业内容生产者，也有各行各业的先锋领袖，更有默默无闻的奉献者。

本书第 3 章～第 8 章的内容基于 Hugging Face 的 Diﬀusion课程。课程的设计者Jonathan Whitaker和 LewisTunstall对本书提供了诸多宝贵建议。

图：Hugging Face其他精品课程

图灵联合创始人和创始总编刘江、作家马伯庸、Stability.AI 技术产品总监郑屹州以及声网 CTO 钟声博士也为本书的创作提出了宝贵的参考意见。

“

纵观人类历史，机遇永远属于抢先一步占据未来高度的人。我们每一个人都有必要去探究人工智能的奥秘，以便在即将到来的变革大潮中争得一席之地。

—— 马伯庸作家

”

“

本书系统地介绍了扩散模型的原理和相关细节，同时书中丰富的实战案例也将引领读者快速上手扩散模型。对于任何想要学习和了解扩散模型的人来说，本书都是颇具价值的参考资料。

—— 周明澜舟科技创始人兼CEO 、创新工场首席科学家、CCF副理事长

”

“

本书从“一滴墨水”开始，由浅入深，从理论到实践“扩散”出了图像、文本与音频的AIGC蓝图，并为读者保留了精华，去除了“噪声”，还原出了知识体系最真实的“分布”。

—— 杨耀东北京大学人工智能研究院研究员

”

“

仔细阅读本书，你既可以对扩散模型背后的原理有较为深刻的理解，也可以依此动手进行实践，从而牢固掌握扩散模型，为进一步创新或深度应用打下坚实基础。

—— 钟声声网CTO

”

“

《扩散模型从原理到实战》以Hugging Face的扩散模型课程为基础，通过理论和实例相结合的方式，为读者构建了一个完整的学习框架。无论你是新手还是经验丰富的从业者，这本以实战为导向的图书都能够帮助你更好地理解和应用扩散模型。

—— 王铁震 Hugging Face中国地区负责人、高级工程师

”

图：书中教学内容

此外，Hugging Face 团队成员和中国社区的志愿者、开发者也功不可没。这些低调的技术服务者为本书的出版付出了巨大的努力。

正是因为有了这样庞大的支持团队，本书才得以顺利完成！

未来趋势，就在你手中！

剑桥大学的2022年 AI 全景报告（《State of AI Report 》）指出：扩散模型席卷计算机视觉世界是AI五大趋势之一。

从国内外各机构、大厂近期的种种操作看来，这个预测已经照进现实：

▮ 清华朱军团队开源首个基于Transformer的多模态扩散大模型；

▮ 谷歌提出扩散模型推理加速新方法；

▮ 英特尔研究院宣布与Blockade Labs合作发布LDM3D扩散模型，使用生成式AI创建3D视觉内容……

扩散模型不再是论文里的畅想，而是握在手中的实际成果。如何用扩散模型创造更多可能？欢迎入手这本书寻找答案！

▲

点击封面，即可购书

作者老王sai【参考资料】

1.AI蛋白设计再登Nature：Diffusion模型助力更强的蛋白质从头设计

2.扩散模型家族再添一员，最新 Cold Diffusion 不再依赖高斯噪声

3.2022 剑桥 AI 全景报告出炉：扩散模型是风口，中国论文数量为美国的 4.5 倍

4.AI生成艺术的底层原理：非平衡物理的扩散模型

5.AI不止ChatGPT，上 Hugging Face Hub，带你探索更多AI模型和应用https://zhuanlan.zhihu.com/p/623521984

6.英特尔实验室推出AI扩散模型，可从文本提示产生360度图片

7.OpenAI全面开放GPT-4 API；Stability AI推出新扩散模型SDXL

—END—

# 智源社区 # 检索与挖掘 # 工程实践 # 扩散模型 # 检索与挖掘

文章版权归作者所有，未经允许请勿转载。

商汤/AI Lab/港大提出HQNet | 一个Query即可解决检测/分割/姿态/结构化

智源社区

632

University of Colorado Boulder : Mateo Perez | 循环强化学习

智源社区

734

我要把你“吃干榨尽”，也欢迎你把我“吃干榨尽”

智源社区

647

曾挽救阿斯利康的5R框架更新了，“第6R”是……

智源社区

710

加密艺术：协议、交互与多主体网络 | 周一直播·复杂科学x艺术系列研讨会

智源社区

693

机器学习泰斗Michael Jordan最新报告：去中心化机器学习中的契约、不确定性和激励

智源社区

644

暂无评论

暂无评论...

扩散模型原理到实战：让AIGC成功破圈的《太空歌剧院》

技能 | 三种主流的深度学习模型部署框架

端到端自动驾驶离我们还有多远？

相关文章

暂无评论

相关文章

热门标签

热门网址