// klaster

Architektura

Architektury referencyjne, RAG pipelines, GPU sizing benchmarks i integracje.

2 notatki · ostatnia aktualizacja 22 czerwca 2026

RAG on-prem: architektura, chunking, retrieval i co naprawdę wpływa na jakość

7 min · 22 czerwca 2026

Jak zbudować RAG poza chmurą publiczną: warstwy pipeline'u, najczęstsze błędy retrievalu, granice danych w promptcie i pytania, które zadaje audytor. Notatka techniczna dla architektów i CISO.

GPU sizing dla Llama 3.1 70B inference: liczby z benchmarków

8 min · 26 maja 2026

Ile GPU realnie potrzeba, żeby postawić Llamę 3.1 70B u siebie? Konkretne konfiguracje (A100, H100, H200), wpływ kwantyzacji (FP16 → FP8 → INT4), tokens/s, TTFT i koszt per 1M tokenów. Bez marketingu, z liczbami z benchmarków vLLM i TensorRT-LLM.