-
Notifications
You must be signed in to change notification settings - Fork 0
compression_strategy
Aktueller Stand:
- ✅ RocksDB Block-Kompression: LZ4 (Level 0-5) + ZSTD (Level 6+) IMPLEMENTIERT
- ✅ Gorilla Time-Series Codec: IMPLEMENTIERT (Roundtrip-Fix für Windows/MSVC)
- 🟡 Vector-Quantisierung (SQ8): IMPLEMENTIERT (auto ab 1M)
- ✅ Gorilla-Integration in TSStore: IMPLEMENTIERT
- ✅ Content-Blob-Kompression (ZSTD): IMPLEMENTIERT
Komprimierungs-Potenziale mit Geschwindigkeitseinbußen:
| Datentyp | Aktuell | Vorschlag | Ratio | CPU-Overhead | Speed-Impact | Priorität |
|---|---|---|---|---|---|---|
| Time-Series | Keine | Gorilla | 10-20x | +15% | -5% read/write | 🔴 HOCH |
| Vektoren (Embeddings) | Keine | Scalar Quantization (int8) | 4x | +20% | -10% search | 🟡 MITTEL |
| Vektoren (Embeddings) | Keine | Product Quantization (PQ) | 8-32x | +50% | -25% search | 🟢 NIEDRIG (nur >100M Vektoren) |
| Content-Blobs (Dokumente) | RocksDB LZ4/ZSTD | Separates ZSTD (Level 19) | 1.5-2x | +30% | -15% upload | 🟡 MITTEL |
| JSON Metadata | RocksDB LZ4 | RocksDB LZ4 (optimal) | — | — | — | ✅ OPTIMAL |
| Graph-Kanten | RocksDB LZ4 | RocksDB LZ4 (optimal) | — | — | — | ✅ OPTIMAL |
-
Gorilla Codec: Vollständig implementiert (
include/timeseries/gorilla.h, Roundtrip-Tests bestehen) - TSStore: Gorilla-Integration aktiv (Chunk-basiert, dual-scan raw+compressed)
- Ratio: 10-20x für typische Metriken (CPU, Memory, Temperatur)
- CPU-Overhead: +10-15% Encode, +5% Decode
- Latenz: +2ms/10k Punkte (encode), +1ms/10k Punkte (decode)
// In TSStore::put()
if (config.compression == "gorilla") {
std::vector<uint8_t> compressed = GorillaCodec::encode(timestamps, values);
db_.put(key, compressed); // Statt raw float64-Array
}
// In TSStore::query()
if (header.compression == "gorilla") {
auto [ts, vals] = GorillaCodec::decode(blob);
return vals;
}{
"timeseries": {
"compression": "gorilla", // "none", "gorilla", "zstd"
"chunk_size_hours": 24 // 24h-Chunks optimal für Gorilla
}
}Zur Laufzeit kann die Kompressionsart und Chunk-Größe ohne Neustart angepasst werden.
GET /ts/config Antwort:
{
"compression": "gorilla",
"chunk_size_hours": 24
}PUT /ts/config Request:
{
"compression": "none", // oder "gorilla"
"chunk_size_hours": 12 // gültiger Bereich: 1–168
}Antwort:
{
"status": "ok",
"compression": "none",
"chunk_size_hours": 12
}- ✅ Speicherersparnis: 10-20x (100GB → 5-10GB)
- ✅ I/O-Reduktion: Weniger Disk-IOPS → schnellere Aggregationen
⚠️ CPU-Kosten: +15% bei Ingestion, +5% bei Queries⚠️ Latenz: +1-2ms/Query (akzeptabel für Time-Series-Workloads)
Empfehlung: ✅ IMPLEMENTIEREN — Time-Series-Workloads sind I/O-bound, nicht CPU-bound. Gorilla zahlt sich aus!
- Storage: Float32-Vektoren in BaseEntity; ab Schwellwert auto-quantisiert (SQ8) beim Persistieren
- Compression: SQ8 mit per-Vektor-Scale auf Disk; In-Memory-Cache bleibt float32 für Suche
- HNSWlib: Unverändert; Vektoren werden beim Laden dequantisiert
Was ist das?
- Konvertiere
float32 → int8via Min-Max-Skalierung oder Learned Quantization - Ratio: 4x Speicherersparnis (32 Bit → 8 Bit)
- Genauigkeit: 95-98% Recall@10 (je nach Datenverteilung)
FAISS-Benchmark (768-dim Embeddings, 1M Vektoren):
Index Type Memory (GB) Search (ms/query) Recall@10
------------------------------------------------------------------
Flat (float32) 3.0 45 100%
SQ8 (int8) 0.75 38 97%
PQ16 (16 Codes) 0.1 12 92%
HNSWlib-Integration:
- HNSWlib unterstützt KEINE native Quantisierung
- Manuelle Implementierung nötig:
- Quantisiere Vektoren vor
addPoint() - Speichere Quantisierungsparameter (min/max, codebook)
- Quantisiere Queryvektoren vor
searchKnn()
- Quantisiere Vektoren vor
CPU-Overhead:
- Encode: +20% (quantize on insert)
- Decode: +10% (dequantize on search)
- Search: -10% schneller (weniger Speicher → bessere Cache-Nutzung)
Implementierungs-Aufwand: 🔴 HOCH (~3-5 Tage, komplexe API-Änderungen)
Was ist das?
- Teile Vektor in Subvektoren (z.B. 768-dim → 16x48-dim)
- Clustere jeden Subvektor (k-means mit 256 Clustern)
- Speichere nur Cluster-IDs (16 Bytes statt 3072 Bytes)
- Ratio: 8-32x Speicherersparnis
Wann sinnvoll?
- ❌ NICHT für Themis: PQ lohnt sich erst ab >10M Vektoren
- ✅ Nur für Hyperscaler: Google, Meta, Pinecone nutzen PQ
⚠️ Recall-Verlust: 85-95% Recall@10 (schlechter als SQ8)
Empfehlung: 🚫 SKIP — Zu komplex für Themis, nur für >10M Vektoren relevant
| Vektoranzahl | Empfehlung | Ratio | Recall | Aufwand |
|---|---|---|---|---|
| < 100k | Keine Quantisierung | 1x | 100% | — |
| 100k - 1M | Scalar Quantization (int8) | 4x | 97% | 🟡 Mittel |
| > 1M | Product Quantization (PQ) | 8-32x | 92% | 🔴 Hoch |
Aktuelle Themis-Empfehlung:
- ✅ Default: Auto-SQ8 ab 1M Vektoren (konfigurierbar via
config:vector→{ "quantization": "auto|none|sq8", "auto_threshold": 1000000 }) - ✅ Für <1M: Float32 (kein Qualitätsverlust, minimaler CPU-Overhead)
-
Storage: RocksDB BlobDB mit
blob_size_threshold = 4096(>4KB → Blob-Datei) - Compression: RocksDB Block-Kompression (LZ4/ZSTD) auf gesamten LSM-Tree
- Problem: BlobDB-Dateien werden NICHT komprimiert (RocksDB Bug/Limitation)
// In ContentManager::importContent()
if (blob.size() > 4096 && config.compress_blobs) {
std::vector<uint8_t> compressed = zstd_compress(blob, level=19); // Max-Ratio
std::string bkey = "content_blob:" + meta.id;
storage_->put(bkey, compressed);
meta.compressed = true;
meta.compression_type = "zstd";
}| Dokumenttyp | Ratio (ZSTD Level 19) | Encode (MB/s) | Decode (MB/s) | CPU-Overhead |
|---|---|---|---|---|
| 3-5x | 20 | 150 | +30% write | |
| DOCX | 1.2x (schon ZIP) | 50 | 200 | +10% write |
| TXT | 4-8x | 30 | 180 | +25% write |
| JSON | 5-10x | 25 | 160 | +30% write |
| Images (JPEG/PNG) | 1.0x (schon komprimiert) | — | — | — |
Wann komprimieren?
bool should_compress_blob(const std::string& mime_type, size_t size) {
// Skip für bereits komprimierte Formate
if (mime_type.find("image/") == 0) return false; // JPEG, PNG, WebP
if (mime_type.find("video/") == 0) return false; // MP4, WebM
if (mime_type == "application/zip") return false;
if (mime_type == "application/gzip") return false;
// Komprimiere Text/JSON/XML/PDF
if (size > 4096) return true; // Nur >4KB
return false;
}10.000 PDF-Dokumente à 500KB (5GB total):
Storage Method Disk Size Write (MB/s) Read (MB/s)
-----------------------------------------------------------------
RocksDB LZ4 (Block) 3.5 GB 120 250
RocksDB ZSTD (Block) 2.8 GB 100 220
ZSTD Level 19 (Blob) 1.5 GB 50 180
Status / Empfehlung:
- ✅ IMPLEMENTIERT (ContentManager komprimiert ZSTD wenn
config:content.compress_blobs=trueundsize>4KB, MIME-Filter möglich) - ⚙️ Config-Keys in DB:
config:content→{ "compress_blobs": true, "compression_level": 19, "skip_compressed_mimes": ["image/", "video/", "application/zip", "application/gzip"] } ⚠️ Skip für Images/Videos (schon komprimiert)
- ContentMeta, ChunkMeta, BaseEntity: Gespeichert als JSON-Strings in RocksDB
- Compression: RocksDB Block-Kompression (LZ4) → optimal für JSON
10.000 ContentMeta-Objekte à 2KB (20MB total):
Compression Disk Size Ratio CPU-Overhead
-------------------------------------------------------
None 20 MB 1.0x —
LZ4 8 MB 2.5x +5%
ZSTD 6 MB 3.3x +15%
Empfehlung: ✅ KEINE ÄNDERUNG — RocksDB LZ4 ist optimal für JSON-Metadaten
-
Graph-Edges: BaseEntity mit
from,to,label,weight,properties -
Storage: RocksDB mit Key-Prefix
graph:edge: - Compression: RocksDB LZ4 (Block-Kompression)
100.000 Kanten à 500 Bytes (50MB total):
Compression Disk Size Ratio CPU-Overhead
-------------------------------------------------------
None 50 MB 1.0x —
LZ4 22 MB 2.3x +5%
ZSTD 18 MB 2.8x +12%
Empfehlung: ✅ KEINE ÄNDERUNG — RocksDB LZ4 ist optimal für Graph-Daten
Aufwand: ~1-2 Tage
Impact: 10-20x Speicherersparnis, +15% CPU
Tasks:
- ✅ Gorilla Codec implementiert + getestet
- ✅ TSStore Integration (Config, Header, Encode/Decode)
- ✅ HTTP-Endpoint
/ts/config(GET/PUT) implementiert (Runtime-Änderung voncompressionundchunk_size_hours) - ✅ Benchmarks (compression_ratio, encode_time, decode_time)
Status: Integration abgeschlossen; läuft defaultmäßig (Gorilla-Chunk-basiert) in TSStore. Runtime-Konfiguration über /ts/config aktiv.
Aufwand: ~1 Tag
Impact: 1.5-2x Speicherersparnis für Text-Dokumente, +30% CPU
Tasks:
- ✅ ZSTD-Wrapper (
utils/zstd_codec.h/.cpp) - ✅ ContentManager-Integration (Pre-compress vor Speicherung)
- ✅ MIME-Type-Filter (skip Images/Videos)
- ✅ Config-Option
config:content.compress_blobs,compression_level,skip_compressed_mimes - ✅ Tests (roundtrip, verschiedene Dokumenttypen) — Manuelle Prüfung
Status: ZSTD-Kompression integriert in ContentManager::importContent(); Transparente Dekompression in getContentBlob().
Aufwand: ~3-5 Tage
Impact: ~4x Speicherersparnis (Disk), -3% Search-Qualität (estimated)
Condition: Automatisch aktiviert ab 1M Vektoren; konfigurierbar via DB-Key config:vector
Tasks:
- ✅ Quantizer-Logik (Per-Vektor Symmetric Quant int8)
- ✅ VectorIndexManager-Integration (quantize on persist)
- ✅ Dequantisierung in
rebuildFromStorageundbruteForceSearch_für on-demand loads - ❌ Benchmarks (recall@k, speed, memory) — Future work
Status: SQ8 implementiert in VectorIndexManager::addEntity-Varianten; Disk-Storage nutzt embedding_q (bytes) + embedding_scale (double) statt embedding (vec). In-Memory-Cache bleibt float32.
{
"storage": {
"db_path": "./data/themis",
"compression_default": "lz4", // ✅ OPTIMAL für JSON/Graph
"compression_bottommost": "zstd", // ✅ OPTIMAL für alte Daten
"blob_size_threshold": 4096 // ✅ >4KB → BlobDB
},
"timeseries": {
"compression": "gorilla", // ✅ IMPLEMENTIERT (Runtime via GET/PUT /ts/config; Werte: "none" | "gorilla")
"chunk_size_hours": 24
},
"content": {
"compress_blobs": true, // ✅ IMPLEMENTIERT (via config:content in DB)
"compression_level": 19, // ZSTD Level
"skip_compressed_mimes": [
"image/", "video/", "application/zip", "application/gzip"
]
},
"vector": {
"quantization": "auto", // ✅ IMPLEMENTIERT: "none", "sq8", "auto" (via config:vector in DB)
"auto_threshold": 1000000, // auto SQ8 ab 1M Vektoren
"dimension": 768
}
}| System | Vector Count | Quantization | Warum? |
|---|---|---|---|
| Pinecone | >100M | PQ + HNSW | Speicher-Kosten dominant |
| Weaviate | <10M | Float32 | Qualität > Speicher |
| Milvus | >1M | SQ8/PQ (optional) | Hybrid-Ansatz |
| Qdrant | <1M | Float32 (default) | Performance > Speicher |
Themis Position: <1M Vektoren → Float32 ist Best-Practice ✅
IF vector_count > 1M AND memory_cost > compute_cost:
USE scalar_quantization (SQ8)
ELIF vector_count > 10M AND recall_tolerance < 95%:
USE product_quantization (PQ)
ELSE:
USE float32 (OPTIMAL)
Themis: Aktuell <1M Vektoren → Keine Quantisierung nötig ✅
| Feature | Status | Priorität | Aufwand | Ratio | CPU-Overhead |
|---|---|---|---|---|---|
| RocksDB LZ4/ZSTD | ✅ Implementiert | — | — | 2.4x | +5% |
| Gorilla Time-Series | ✅ Implementiert | 🔴 HOCH | — | 10-20x | +15% |
| Content-Blob ZSTD | ✅ Implementiert | 🟡 MITTEL | — | 1.5-2x | +30% |
| Vector SQ8 | ✅ Implementiert (auto ≥1M) | 🟢 NIEDRIG | — | ~4x (Disk) | +20% |
| Vector PQ | 🚫 Skip | — | — | 8-32x | +50% |
Empfohlene Reihenfolge:
- ✅ Gorilla für Time-Series (DONE – größter Impact, niedrige Komplexität)
- ✅ Content-Blob ZSTD (DONE – mittlerer Impact, niedrige Komplexität)
- ✅ Vector SQ8 (DONE – auto ab 1M, hohe Komplexität nun implementiert)
Nächste Schritte:
- Recall/Speed-Benchmarks für SQ8 nachmessen
- Erweiterte Metriken für Time-Series Config Changes (Prometheus: ts_config_updates_total)
- Migration Tool für bestehende Float32-Vektoren → SQ8
- AQL Overview
- AQL Syntax Reference
- EXPLAIN and PROFILE
- Hybrid Queries
- Pattern Matching
- Subquery Implementation
- Subquery Quick Reference
- Fulltext Release Notes
- Hybrid Search Design
- Fulltext Search API
- Content Search
- Pagination Benchmarks
- Stemming
- Hybrid Fusion API
- Performance Tuning
- Migration Guide
- Storage Overview
- RocksDB Layout
- Geo Schema
- Index Types
- Index Statistics
- Index Backup
- HNSW Persistence
- Vector Index
- Graph Index
- Secondary Index
- Security Overview
- RBAC and Authorization
- TLS Setup
- Certificate Pinning
- Encryption Strategy
- Column Encryption
- Key Management
- Key Rotation
- HSM Integration
- PKI Integration
- eIDAS Signatures
- PII Detection
- PII API
- Threat Model
- Hardening Guide
- Incident Response
- SBOM
- Enterprise Overview
- Scalability Features
- Scalability Strategy
- HTTP Client Pool
- Enterprise Build Guide
- Enterprise Ingestion
- Benchmarks Overview
- Compression Benchmarks
- Compression Strategy
- Memory Tuning
- Hardware Acceleration
- GPU Acceleration Plan
- CUDA Backend
- Vulkan Backend
- Multi-CPU Support
- TBB Integration
- Time Series
- Vector Operations
- Graph Features
- Temporal Graphs
- Path Constraints
- Recursive Queries
- Audit Logging
- Change Data Capture
- Transactions
- Semantic Cache
- Cursor Pagination
- Compliance Features
- GNN Embeddings
- Geo Overview
- Geo Architecture
- 3D Game Acceleration
- Geo Feature Tiering
- G3 Phase 2 Status
- G5 Implementation
- Integration Guide
- Content Architecture
- Content Pipeline
- Content Manager
- JSON Ingestion
- Content Ingestion
- Filesystem API
- Image Processor
- Geo Processor
- Policy Implementation
- Developer Guide
- Implementation Status
- Development Roadmap
- Build Strategy
- Build Acceleration
- Code Quality Guide
- AQL LET Implementation
- Audit API Implementation
- SAGA API Implementation
- PKI eIDAS
- WAL Archiving
- Architecture Overview
- Strategic Overview
- Ecosystem
- MVCC Design
- Base Entity
- Caching Strategy
- Caching Data Structures
- Docker Build
- Docker Status
- Multi-Arch CI/CD
- ARM Build Guide
- ARM Packages
- Raspberry Pi Tuning
- Packaging Guide
- Package Maintainers
- Roadmap
- Changelog
- Database Capabilities
- Implementation Summary
- Sachstandsbericht 2025
- Enterprise Final Report
- Test Report
- Build Success Report
- Integration Analysis
- Source Overview
- API Implementation
- Query Engine
- Storage Layer
- Security Implementation
- CDC Implementation
- Time Series
- Utils and Helpers
Updated: 2025-11-30