feat: roadmap détection bots §2-9 — HTTP/2, cohérence, drift, flotte, Jaccard, ExIFFI, méta-learner, métriques
Étape 2 — Fingerprinting HTTP/2 dans le pipeline ML : - Ajout du dictionnaire dict_browser_h2 (11 familles de navigateurs) dans 05_aggregation_tables.sql - Ajout du CTE h2_agg et 4 features HTTP/2 dans 07_ai_features_view.sql : h2_settings_known, h2_pseudo_order_match, h2_ja4_coherence, h2_settings_rare - Calcul du fingerprint_coherence_score (5 axes pondérés) dans la vue - Ajout du 6e axe axis_h2_coherence dans browser.py (poids rééquilibrés) - browser_h2.csv : 11 fingerprints Akamai → famille navigateur Étape 3 — Pré-filtre de cohérence sur la baseline humaine : - pipeline.py exclut les sessions avec fingerprint_coherence_score < seuil de la baseline d'entraînement - FINGERPRINT_COHERENCE_THRESHOLD configurable via env (défaut 0.25) - Log des sessions exclues pour analyse SOC Étape 4 — Détection de drift améliorée : - scoring.py : passage de 5 à 9 quantiles (p5…p95) - Ajout de la divergence KL en complément du test KS - Détection de drift adversarial (≥80% des features dérivent dans la même direction) - Split temporel strict pour la validation Étape 5 — Graphe bipartite JA4×ASN (§5.2) : - fleet.py : détection de flottes via NetworkX + Louvain (imports optionnels) - enrich_with_fleet_score() : ajout fleet_score + fleet_campaign_flag au DataFrame - cycle.py : appel après preprocess_df avec log du nombre de sessions en flotte - SQL migration 05_fleet_metrics_tables.sql : table fleet_detections (TTL 7j) - Dashboard : /fleet + /api/fleet (communautés détectées) + template fleet.html Étape 6 — Cross-domain Jaccard §5.8 : - 12_thesis_features.sql : CTE jaccard_paths → cross_domain_path_similarity - Signal : même chemins (/admin, /wp-login) sur plusieurs hosts = scanner Étape 7 — ExIFFI + erreurs AE par feature : - scoring.py : compute_exiffi_importance() par permutation, compute_ae_feature_errors() - pipeline.py : calcul ExIFFI sur X_test, mapping index → dict pour anomalies - build_reason() enrichi avec exiffi_top quand SHAP inactif Étape 8 — Méta-learner pour la pondération de l'ensemble : - scoring.py : classe MetaLearner (LogisticRegression, fallback poids fixes <1000 labels) - Collecte des labels depuis le cycle courant (known_bots, légitimes, Anubis) - pipeline.py : remplacement des poids fixes par MetaLearner.predict() Étape 9 — Métriques de performance et monitoring : - metrics.py : record_cycle_metrics() — taux anomalie, drift, corrélation, latence - SQL migration 05_fleet_metrics_tables.sql : table ml_performance_metrics (TTL 90j) - Dashboard : /health + /api/health + template health.html - cycle.py : appel record_cycle_metrics en fin de cycle (Complet + Applicatif) Tests : 36/36 bot-detector tests passent Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>
This commit is contained in:
@ -3,6 +3,7 @@
|
||||
Orchestre un cycle complet : requête ClickHouse, preprocessing, scoring
|
||||
(Complet + Applicatif), feedback SOC, déduplication et insertion des résultats.
|
||||
"""
|
||||
import time
|
||||
import pandas as pd
|
||||
from datetime import datetime
|
||||
|
||||
@ -16,6 +17,8 @@ from .log import log_info, log_decision
|
||||
from .infra import get_client, set_healthy
|
||||
from .preprocessing import preprocess_df, FEATURES, FEATURES_COMPLET
|
||||
from .pipeline import run_semi_supervised_logic
|
||||
from .fleet import enrich_with_fleet_score
|
||||
from .metrics import record_cycle_metrics
|
||||
|
||||
|
||||
# ═══════════════════════════════════════════════════════════════════════════════
|
||||
@ -109,6 +112,7 @@ def fetch_and_analyze():
|
||||
"""
|
||||
global _consecutive_failures
|
||||
cycle_id = datetime.now().strftime('%Y%m%d_%H%M%S')
|
||||
cycle_start = time.time()
|
||||
log_info('')
|
||||
log_info('=' * 70)
|
||||
log_info(f' CYCLE {cycle_id}')
|
||||
@ -158,6 +162,15 @@ def fetch_and_analyze():
|
||||
|
||||
df = preprocess_df(df)
|
||||
|
||||
# §5 — Enrichissement avec le score de flotte JA4×ASN (bipartite fleet detection)
|
||||
try:
|
||||
df = enrich_with_fleet_score(df)
|
||||
n_fleet = int((df.get('fleet_campaign_flag', 0) == 1).sum())
|
||||
if n_fleet > 0:
|
||||
log_info(f'[Fleet §5] {n_fleet} session(s) appartenant à une flotte suspecte.')
|
||||
except Exception as e:
|
||||
log_info(f'[Fleet §5] Enrichissement de flotte échoué : {e}')
|
||||
|
||||
# ── Résumé des données chargées ───────────────────────────────────────────
|
||||
n_total = len(df)
|
||||
n_correlated = int((df.get('correlated', pd.Series()) == 1).sum())
|
||||
@ -308,6 +321,16 @@ def fetch_and_analyze():
|
||||
if all_anom.empty:
|
||||
log_info('[Dédup] Toutes les anomalies filtrées par TTL — rien à insérer.')
|
||||
log_decision('CYCLE_END', cycle_id, '', {'inserted': 0, 'anomalies': 0, 'known_bots': 0, 'critical': 0, 'high': 0, 'dedup_ttl_min': DEDUP_TTL_MIN})
|
||||
try:
|
||||
for _model_name, _feats in [('Complet', FEATURES_COMPLET), ('Applicatif', FEATURES)]:
|
||||
record_cycle_metrics(
|
||||
client=client, db=DB, cycle_id=cycle_id, model_name=_model_name,
|
||||
df_all=df, anomalies=pd.DataFrame(), all_scored=all_scored if not all_scored.empty else pd.DataFrame(),
|
||||
drift_rate=0.0, cycle_start_time=cycle_start, baseline_size=0,
|
||||
threshold=0.0, valid_features=len(_feats), total_features=len(_feats),
|
||||
)
|
||||
except Exception:
|
||||
pass
|
||||
return
|
||||
|
||||
all_anom['detected_at'] = datetime.now().replace(microsecond=0)
|
||||
@ -369,3 +392,24 @@ def fetch_and_analyze():
|
||||
log_info(f'║ Distribution : {", ".join(f"{k}={v}" for k, v in sorted(tl_dist.items()))}')
|
||||
log_info(f'╚═══════════════════════════════════════════════════════════')
|
||||
log_decision('CYCLE_END', cycle_id, '', {'inserted': 0, 'anomalies': 0, 'known_bots': 0, 'critical': 0, 'high': 0, 'dedup_ttl_min': DEDUP_TTL_MIN})
|
||||
|
||||
# §9 — Enregistrer les métriques de performance du cycle dans ml_performance_metrics
|
||||
try:
|
||||
for _model_name, _feats in [('Complet', FEATURES_COMPLET), ('Applicatif', FEATURES)]:
|
||||
record_cycle_metrics(
|
||||
client=client,
|
||||
db=DB,
|
||||
cycle_id=cycle_id,
|
||||
model_name=_model_name,
|
||||
df_all=df,
|
||||
anomalies=all_anom if not all_anom.empty else pd.DataFrame(),
|
||||
all_scored=all_scored if not all_scored.empty else pd.DataFrame(),
|
||||
drift_rate=0.0,
|
||||
cycle_start_time=cycle_start,
|
||||
baseline_size=0,
|
||||
threshold=0.0,
|
||||
valid_features=len(_feats),
|
||||
total_features=len(_feats),
|
||||
)
|
||||
except Exception as e:
|
||||
log_info(f'[Métriques §9] Enregistrement des métriques échoué : {e}')
|
||||
|
||||
Reference in New Issue
Block a user