// klaster

Architektura

Architektury referencyjne, RAG pipelines, GPU sizing benchmarks i integracje.

2 notatki · ostatnia aktualizacja 22 czerwca 2026

Ile GPU realnie potrzeba, żeby postawić Llamę 3.1 70B u siebie? Konkretne konfiguracje (A100, H100, H200), wpływ kwantyzacji (FP16 → FP8 → INT4), tokens/s, TTFT i koszt per 1M tokenów. Bez marketingu, z liczbami z benchmarków vLLM i TensorRT-LLM.