2024-06-02
大语言模型发展
宇行信
文生图(以DALLE2为例)
a teddybear
on a
skateboard in
times square
1
0
1
0
0
1
Prior GLIDE
CLIP text embedding CLIP image embedding
One-hot representation vs word embedding
1. 无法表达词语之间的关系
2. 这种过于稀疏的向量,导致计算和存储的效率都不高
1. 它可以将文本通过一个低维向量来表达,不像 one-hot 那么长。
2. 语意相似的词在向量空间上也会比较相近。
3. 通用性很强,可以用在不同的任务中。
Transformer模型
注意力机制
CLIP模型
编码文本和对应图像
PRIOR模型
文本编码转换为图像编码
GUIDE模型
从图像编码生成图像
CLIP模型
通过4亿张图片和文本预训练建立文本到图片分类数据集,并通过零次学习推理来生成新的图片
零次学习:根据描述外形,条纹,颜色能够模仿人类推理出来斑马的具体形态
类比教小孩认识世界
Zero-Shot Learning(ZSL)
PRIOR模型
PRIOR训练过程
将CLIP中训练好的text encoder拿出来,输入文本y,得到文本编码zt。同样将CLIP中训练好的img encoder拿出来,输入图像 x 得到图像编码zi。我们希望
prior能从zt获取相对应的zi。假设zt经过prior输出的特征为zi′,那么我们自然希望zi′与zi越接近越好,这样来更新我们的prior模块。最终训练好的prior,将与
CLIP的text encoder串联起来,它们可以根据我们的输入文本y生成对应的图像编码特征zi了
由text encoder将文本进行编码,再由prior将文本编码转换为图像编码,最后由decoder进行解码生成图像
文本编码到视觉编码产生多样性
GUIDE扩散模型
类比教小孩学画画:
1. 对于一幅简笔画,一笔一笔逐渐擦去,直到空白画面出现(计算机视角:添加高斯噪声)
2. 小孩再在老师指导下,一笔一笔画出来(计算机视角:概率去除高斯噪声)
前向扩散过程
逆向扩散过程
无分类指引(类比大人教小孩学骑车)
Transformer架构
注意力机制:模拟人看图的逻辑
基于规则的,从有
限集合找特征
注意力机制
给定图片和文本找重
点
从一个笨拙的小孩变成一个聪明的小孩
回顾发展趋势
基于规则 机器学习 神经网络 Transformer GPT3 ChatGPT
基于规则,简单粗暴,
处理有限数据
通过函数分类回归
处理固定量数据
提前标记一些数据,开始像
人脑分类学习大量数据
模拟人脑学习过程,
开始关注重点而非全部
投喂海量数据,
无需分类标注
接受人类反馈
成为学习过程一部分
1950 1980 1990-2016 2017 2020 2022
参考
• https://www.daimajia.com/2023/01/03/aigc
• https://blog.csdn.net/kittyzc/article/details/125171172
• https://stable-diffusion-art.com/how-stable-diffusion-work/
• https://blog.csdn.net/zcyzcyjava/article/details/126992705
• https://easyai.tech/ai-definition/attention/
• https://easyai.tech/ai-definition/word-embedding/
THANKS

The Development of Large Language Models