SigLIP 笔记

在 CLIP 中使用 InfoNCE loss:

L_{I \to T} = - lo g \frac{exp ( \frac{sim ( I _{i} , T _{i} )}{τ} )}{\sum _{j = 1}^{B} exp ( \frac{sim ( I _{i} , T _{j} )}{τ} )}

基于 softmax 的 loss 计算涉及到整个 batch，导致扩展 batch size 时会出现极大的计算负担，内存占用是 $O (B^{2})$ ；这里为了计算一对正样本 $(I_{i}, T_{i})$ 的 loss 就遍历了整个 batch

而 SigLIP 则将 loss 转化为一系列独立的二元分类问题：

L_{SigLIP} = - \frac{1}{B ^{2}} i = 1 \sum B j = 1 \sum B lo g \frac{1}{1 + exp ( - z _{ij} ( t \cdot sim ( I _{i} , T _{j} ) + b ))}

其中 $z_{ij} = 1$ 当且仅当 $i = j$ ，否则 $z_{ij} = - 1$ 。这里 $t$ 和 $b$ 都是可学习的。这里设置偏置项 $b$ 是因为每个 batch 中正负样本的数量不均衡（ $B^{2} - B v.s. B$ ），训练初期会严重偏向于将所有对都预测为负，原论文中设置 $b$ 初始值为 10 来缓解这个问题

另外，还发现 batch size 并不是越大越好，32k 左右饱和（符合直觉，因为 $B$ 越大，负样本占比越多，模型学偏的可能性越大）

description	—
tags	loss, multimodal

Kinnari

探索

关系图谱

最近的笔记

Fedora 环境搭建记录

Welcome

Learning Latent Dynamics for Planning from Pixels