CLIPähnliche - Infinite Lexicon - Infinite Lexicon

CLIPähnliche

CLIPähnliche Modelle bezeichnet eine Familie multimodaler Architekturen, die darauf abzielen, Bilder und Text in einem gemeinsamen Repräsentationsraum abzubilden. Sie trainieren auf großen Sammlungen von Bild-Text-Paaren mittels kontrastivem Lernen, um passende Paare nah beieinander und nicht passende Paare weit auseinander zu bringen. Dadurch ergeben sich Fähigkeiten wie Null-Shot-Bildklassifikation und abfragebasierte Bildsuche, ohne task-spezifische Labels zu benötigen.

Typischer Aufbau umfasst zwei Encoder: einen Bild-Encoder (häufig Vision Transformer oder Konvolutionalnetzwerk) und einen Text-Encoder (Transformers).

Zu CLIPähnlichen Modellen zählen CLIP von OpenAI, OpenCLIP (offene Implementierung), ALIGN von Google sowie LiT (Labeled

Chancen und Grenzen: CLIP-ähnliche Modelle zeigen starke Zero-Shot-Leistungen und robuste Bild-Text-Alignment, benötigen jedoch enorme Rechenressourcen und

Projektionsköpfe

Trainingsobjective

Text-zu-Bild-Richtungen.

Bild-Text-Paare

kommerzielleren

Klassifikation,

Retrieval-Aufgaben

voreingenommene

Datensammlungen.

Promptabhängigkeiten

Verteilungsverschiebungen

Generalisierung

Forschungsfelder.