PDF → Structured Data Playbook v2.1

Production-ready pipeline to transform large PDFs into structured data at scale.

True streaming (no full-document loads)
Parallel page batches with bounded memory
Idempotent (SHA-256 hashing) with DB UPSERT
Observability: Prometheus metrics, structured logs, health checks
Resilience: retries, circuit breaker, rate limiting
Security: env-based secrets, basic input validation

Quickstart

python -m venv .venv && source .venv/bin/activate
pip install -e .

# Put a PDF at data/input/report.pdf
cp your.pdf data/input/report.pdf

# Run end-to-end
python run_all_v2.py

# Health check
make health

# Optional: marker one-shot
make marker PDF="data/input/report.pdf"

Outputs

outputs/json/report.json — normalized JSON
outputs/markdown/report.md — Markdown “book”
outputs/csv/table_pX_Y.csv — extracted tables

See run_all_v2.py for full pipeline and src/ for modules.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
data/input		data/input
src		src
tests		tests
tools		tools
.env.example		.env.example
.gitignore		.gitignore
CLAUDE.md		CLAUDE.md
Dockerfile		Dockerfile
Makefile		Makefile
README.md		README.md
docker-compose.yml		docker-compose.yml
example_semantic_integration.py		example_semantic_integration.py
prometheus.yml		prometheus.yml
pyproject.toml		pyproject.toml
requirements-frozen.txt		requirements-frozen.txt
run_all_v2.py		run_all_v2.py
test_ml_enhanced.py		test_ml_enhanced.py
test_ml_features.py		test_ml_features.py
test_search_queries.py		test_search_queries.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

PDF → Structured Data Playbook v2.1

Quickstart

Outputs

About

Uh oh!

Releases

Packages

Languages

zbkilla/pdf-pipeline

Folders and files

Latest commit

History

Repository files navigation

PDF → Structured Data Playbook v2.1

Quickstart

Outputs

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages