Files
ja4-platform/tests/integration
toto 51b8eb57a8 feat: port v14 schema fixes, migration, MV verifier, thesis from ja4/
deploy_views.sql (v13 → v14):
- CRITICAL: ml_detected_anomalies ORDER BY (src_ip) → (src_ip, ja4, host, model_name)
  ReplacingMergeTree was collapsing all detections to 1 row per IP on merge
- Add PARTITION BY toDate + ttl_only_drop_parts on all 4 data tables
- ml_all_scores TTL 3d → 7d; ml_detected_anomalies TTL 30d → 7d
- agg_host_ip_ja4_1h + agg_header_fingerprint_1h: add partition + TTL 7d
- view_ip_recurrence: add WHERE detected_at >= now() - 7 DAY (was full scan)
- Remove dead views: summary/timeseries/threat_dist/variability
- Add view_dashboard_entities (fixes HTTP 500 in clustering/incidents/fingerprints)
- Add view_dashboard_user_agents (fixes HTTP 500 in fingerprints/metrics)
- Add view_ai_features_24h (enables ENABLE_MULTIWINDOW in bot_detector)
- Mark max_requests_per_sec as DEPRECATED (always 0)

New files:
- correlator/sql/migrations/01_ttl_adjustments.sql: ALTER TABLE migration
- tests/integration/verify_mvs.py: MV pipeline verification assertions
- docs/THESIS_HTTP_Traffic_Detection.md: detection techniques thesis

All DB references use ja4_processing/ja4_logs (no mabase_prod).

Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>
2026-04-07 23:51:56 +02:00
..

Tests d'intégration full-stack — ja4-platform

Architecture

┌─────────────────────────────────────────────────────┐
│              platform (Rocky Linux 9)               │
│                                                      │
│  ┌──────────┐   http.socket   ┌────────────┐        │
│  │  Apache   │───────────────→│            │        │
│  │+ mod-reqin│                │ correlator │──→ ClickHouse
│  └──────────┘                 │            │        │
│  ┌──────────┐  network.socket │            │        │
│  │ sentinel  │───────────────→│            │        │
│  │(TLS pcap) │                └────────────┘        │
│  └──────────┘                                        │
│  cap_add: NET_RAW, NET_ADMIN                         │
└─────────────────────────────────────────────────────┘
         ↑ HTTPS                        │
    test traffic                   ja4_logs.http_logs_raw
                                        ↓
                              ┌──────────────────┐
                              │    ClickHouse     │
                              │ ja4_logs          │
                              │ ja4_processing    │
                              └──────────────────┘
                                   ↑          ↑
                           ┌──────┘          └──────┐
                    ┌──────────────┐      ┌──────────────┐
                    │ bot-detector │      │  dashboard   │
                    │  (ML/Python) │      │  (FastAPI)   │
                    └──────────────┘      └──────────────┘

Utilisation

# Lancer les tests (build + start + test + teardown)
./run-tests.sh

# Garder le stack actif après les tests (debug)
./run-tests.sh --no-down

# Build uniquement (pas de tests)
./run-tests.sh --build-only

# Ou depuis la racine du monorepo :
make test-integration

Conteneurs

Conteneur Image Rôle
clickhouse clickhouse/clickhouse-server:24.8 Base de données, schema auto-init
platform Rocky Linux 9 (build custom) Apache HTTPS + mod-reqin-log + sentinel + correlator
bot-detector Python 3.11 Détection d'anomalies ML
dashboard Python 3.11 / FastAPI API SOC

Capabilities réseau

Le conteneur platform a besoin de :

  • NET_RAW — pour la capture de paquets réseau (sentinel/pcap)
  • NET_ADMIN — pour la configuration de l'interface réseau

Ces capabilities sont déclarées dans docker-compose.yml :

platform:
  cap_add:
    - NET_RAW
    - NET_ADMIN

Phases de test

  1. Schema ClickHouse — vérifie les 2 bases, tables clés, utilisateurs
  2. Génération de trafic — 50+ requêtes HTTPS vers Apache
  3. Pipeline de données — vérifie les logs bruts et parsés dans ClickHouse
  4. Dashboard API — vérifie /health et /api/metrics
  5. Bot-detector — vérifie que le processus tourne
  6. Sentinel — vérifie la capture réseau

Debug

# Logs du platform (Apache + correlator + sentinel)
docker compose logs platform

# Logs corrélés
docker compose exec platform cat /var/log/logcorrelator/correlated.log

# Requête ClickHouse directe
docker compose exec clickhouse clickhouse-client \
  -q "SELECT time, src_ip, method, host, path FROM ja4_logs.http_logs ORDER BY time DESC LIMIT 10"

# Shell dans le platform
docker compose exec platform bash