CLIPähnliche
CLIPähnliche Modelle bezeichnet eine Familie multimodaler Architekturen, die darauf abzielen, Bilder und Text in einem gemeinsamen Repräsentationsraum abzubilden. Sie trainieren auf großen Sammlungen von Bild-Text-Paaren mittels kontrastivem Lernen, um passende Paare nah beieinander und nicht passende Paare weit auseinander zu bringen. Dadurch ergeben sich Fähigkeiten wie Null-Shot-Bildklassifikation und abfragebasierte Bildsuche, ohne task-spezifische Labels zu benötigen.
Typischer Aufbau umfasst zwei Encoder: einen Bild-Encoder (häufig Vision Transformer oder Konvolutionalnetzwerk) und einen Text-Encoder (Transformers).
Zu CLIPähnlichen Modellen zählen CLIP von OpenAI, OpenCLIP (offene Implementierung), ALIGN von Google sowie LiT (Labeled
Chancen und Grenzen: CLIP-ähnliche Modelle zeigen starke Zero-Shot-Leistungen und robuste Bild-Text-Alignment, benötigen jedoch enorme Rechenressourcen und