US
UK
CLIP 中的 "C "代表對比(contrastive),因為該模型學會對比匹配和不匹配的影像-標題對。
現在,如果我取下與我戴帽子相對應的向量,再減去我不戴帽子的向量,我們就會在嵌入空間中得到一個新的向量。
這就是所謂的對比語言影像預訓練,簡稱 CLIP。
通過對 4 億對影像和文本進行訓練,影像編碼器學會了捕捉和概括各種視覺概念。
英語有對比性節奏,而母音就是承載它的關鍵。