Topic cluster · 8 items

efficiency

Nano-Refuse-0.4B

A tiny safety classifier for fast content filtering.

Accelerating generation by drafting tokens with a small model.

A new attention scheme cuts memory use for very long inputs.

Post-training quantization tools for transformers.

Shrinking a model by storing its weights at lower precision.

Ternary-weight models that retain most of full-precision quality.

A compact speech-to-text model for on-device use.

A one-click quantization and benchmarking tool.