LLM Model Capacity Calculator

Calculate GPU VRAM, model parameters, context windows, and quantization for Large Language Models

GPU VRAM (GB)

KV Cache Quantization