Enterprise Pricing

Topic cluster · 4 items

vision

VioletVision-3B

An open vision-language model for captioning and VQA.

Diffuse-XL

A text-to-image diffusion model with photographic fidelity.

Vision-language pretraining at scale

Joint training recipes that align images and text in one embedding space.

vlm-starter

A starter kit for training vision-language models.

Related topics

multimodal (3)diffusion (1)