feat: roadmap détection bots §2-9 — HTTP/2, cohérence, drift, flotte, Jaccard, ExIFFI, méta-learner, métriques
Étape 2 — Fingerprinting HTTP/2 dans le pipeline ML : - Ajout du dictionnaire dict_browser_h2 (11 familles de navigateurs) dans 05_aggregation_tables.sql - Ajout du CTE h2_agg et 4 features HTTP/2 dans 07_ai_features_view.sql : h2_settings_known, h2_pseudo_order_match, h2_ja4_coherence, h2_settings_rare - Calcul du fingerprint_coherence_score (5 axes pondérés) dans la vue - Ajout du 6e axe axis_h2_coherence dans browser.py (poids rééquilibrés) - browser_h2.csv : 11 fingerprints Akamai → famille navigateur Étape 3 — Pré-filtre de cohérence sur la baseline humaine : - pipeline.py exclut les sessions avec fingerprint_coherence_score < seuil de la baseline d'entraînement - FINGERPRINT_COHERENCE_THRESHOLD configurable via env (défaut 0.25) - Log des sessions exclues pour analyse SOC Étape 4 — Détection de drift améliorée : - scoring.py : passage de 5 à 9 quantiles (p5…p95) - Ajout de la divergence KL en complément du test KS - Détection de drift adversarial (≥80% des features dérivent dans la même direction) - Split temporel strict pour la validation Étape 5 — Graphe bipartite JA4×ASN (§5.2) : - fleet.py : détection de flottes via NetworkX + Louvain (imports optionnels) - enrich_with_fleet_score() : ajout fleet_score + fleet_campaign_flag au DataFrame - cycle.py : appel après preprocess_df avec log du nombre de sessions en flotte - SQL migration 05_fleet_metrics_tables.sql : table fleet_detections (TTL 7j) - Dashboard : /fleet + /api/fleet (communautés détectées) + template fleet.html Étape 6 — Cross-domain Jaccard §5.8 : - 12_thesis_features.sql : CTE jaccard_paths → cross_domain_path_similarity - Signal : même chemins (/admin, /wp-login) sur plusieurs hosts = scanner Étape 7 — ExIFFI + erreurs AE par feature : - scoring.py : compute_exiffi_importance() par permutation, compute_ae_feature_errors() - pipeline.py : calcul ExIFFI sur X_test, mapping index → dict pour anomalies - build_reason() enrichi avec exiffi_top quand SHAP inactif Étape 8 — Méta-learner pour la pondération de l'ensemble : - scoring.py : classe MetaLearner (LogisticRegression, fallback poids fixes <1000 labels) - Collecte des labels depuis le cycle courant (known_bots, légitimes, Anubis) - pipeline.py : remplacement des poids fixes par MetaLearner.predict() Étape 9 — Métriques de performance et monitoring : - metrics.py : record_cycle_metrics() — taux anomalie, drift, corrélation, latence - SQL migration 05_fleet_metrics_tables.sql : table ml_performance_metrics (TTL 90j) - Dashboard : /health + /api/health + template health.html - cycle.py : appel record_cycle_metrics en fin de cycle (Complet + Applicatif) Tests : 36/36 bot-detector tests passent Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>
This commit is contained in:
@ -467,6 +467,39 @@ cross_domain_features AS (
|
||||
0.0
|
||||
) AS host_coverage_uniformity
|
||||
FROM ja4_drift_features
|
||||
),
|
||||
|
||||
-- ── §5.8b : Similarité Jaccard cross-domaine ────────────────────────────────
|
||||
-- Principe : un scanner visite les mêmes chemins (/admin, /wp-login.php, /.env)
|
||||
-- sur plusieurs hosts distincts. Le coefficient de Jaccard mesure la proportion
|
||||
-- de chemins partagés entre hosts.
|
||||
-- Signal élevé (>0.5) = même liste de chemins sur plusieurs sites → scanning systématique.
|
||||
jaccard_paths AS (
|
||||
SELECT
|
||||
toStartOfHour(time) AS window_start,
|
||||
toIPv6(src_ip) AS src_ip,
|
||||
-- Fraction de chemins normalisés apparaissant sur ≥2 hosts distincts
|
||||
toFloat64(countIf(distinct_hosts >= 2)) / greatest(toFloat64(count()), 1.0)
|
||||
AS cross_domain_path_similarity
|
||||
FROM (
|
||||
SELECT
|
||||
toStartOfHour(time) AS time,
|
||||
src_ip,
|
||||
-- Normaliser le chemin à profondeur 2 (ignorer les paramètres de query)
|
||||
arrayStringConcat(
|
||||
arraySlice(
|
||||
splitByChar('/', replaceRegexpAll(path, '\\?.*', '')),
|
||||
1, 3
|
||||
),
|
||||
'/'
|
||||
) AS path_norm,
|
||||
uniqExact(host) AS distinct_hosts
|
||||
FROM ja4_logs.http_logs
|
||||
WHERE time >= now() - INTERVAL 24 HOUR
|
||||
GROUP BY time, src_ip, path_norm
|
||||
HAVING distinct_hosts >= 1
|
||||
)
|
||||
GROUP BY window_start, src_ip
|
||||
)
|
||||
|
||||
-- ── Jointure finale : features §5.1/§5.3 par (window, ip, ja4, host)
|
||||
@ -498,7 +531,9 @@ SELECT
|
||||
-- §5.8 Cross-Domain Session Linking
|
||||
d.host_diversity,
|
||||
d.host_sweep_speed,
|
||||
d.host_coverage_uniformity
|
||||
d.host_coverage_uniformity,
|
||||
-- §5.8b Jaccard cross-domaine (proportion de chemins partagés entre hosts)
|
||||
coalesce(jp.cross_domain_path_similarity, 0.0) AS cross_domain_path_similarity
|
||||
FROM path_features p
|
||||
LEFT JOIN cadence_features c
|
||||
ON p.window_start = c.window_start
|
||||
@ -508,6 +543,9 @@ LEFT JOIN cadence_features c
|
||||
LEFT JOIN cross_domain_features d
|
||||
ON p.window_start = d.window_start
|
||||
AND p.src_ip = d.src_ip
|
||||
LEFT JOIN jaccard_paths jp
|
||||
ON p.window_start = jp.window_start
|
||||
AND p.src_ip = jp.src_ip
|
||||
LEFT JOIN ja4_processing.view_resource_cascade_1h rc
|
||||
ON p.window_start = rc.window_start
|
||||
AND p.src_ip = rc.src_ip
|
||||
|
||||
Reference in New Issue
Block a user