Topic cluster · 3 items

multimodal

VioletVision-3B

An open vision-language model for captioning and VQA.

Joint training recipes that align images and text in one embedding space.

A starter kit for training vision-language models.