docs: update thesis with EIF, autoencoders, ensemble architecture, quantile drift

- §2.4.2: Add Extended Isolation Forest theory (Hariri et al., TKDE 2021) - §2.4.2b: New section on autoencoders for network anomaly detection (Kitsune, β-VAE, hybrid AE+IF studies) - §2.4.2c: New section on hybrid supervised+unsupervised ensembles (triple-voice architecture: EIF + AE + XGBoost + meta-learner) - §2.4.3: Enhanced drift detection with quantile digest and validation gate - §6.2: Multi-level baseline contamination mitigation - §7: Updated conclusion reflecting ensemble architecture - §8: 10 new references (Hariri 2021, Mirsky 2018, Baptiste 2026, etc.) Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>
2026-04-08 02:23:00 +02:00
parent 3ae8c7d9c9
commit 0d1a6a81e0
1 changed files with 108 additions and 28 deletions
--- a/docs/THESIS_HTTP_Traffic_Detection.md
+++ b/docs/THESIS_HTTP_Traffic_Detection.md
@ -8,7 +8,7 @@
 La détection du trafic HTTP malveillant constitue un défi croissant à mesure que les attaquants adoptent des techniques d'évasion sophistiquées : rotation de fingerprints TLS, usurpation de User-Agent, navigation headless indistinguable des navigateurs réels, et botnets distribués exploitant des infrastructures résidentielles. Les pare-feu applicatifs (WAF) traditionnels, fondés sur des règles statiques telles que l'OWASP Core Rule Set (CRS), atteignent leurs limites face aux payloads polymorphes et aux attaques zero-day. Ce document présente une taxonomie complète des techniques de détection existantes — des signatures réseau (JA4+) à l'apprentissage automatique semi-supervisé — puis décrit une architecture de détection multi-couches opérationnelle (L3→L7), avant de proposer huit techniques originales exploitant des signaux jusqu'ici sous-utilisés.
-**Mots-clés** : fingerprinting réseau, JA4+, détection de bots, IsolationForest, corrélation TCP/TLS/HTTP, WAF, classification de trafic, apprentissage semi-supervisé.
+**Mots-clés** : fingerprinting réseau, JA4+, détection de bots, IsolationForest, Extended Isolation Forest, autoencoders, ensemble hybride, corrélation TCP/TLS/HTTP, WAF, classification de trafic, apprentissage semi-supervisé.
 ---
@ -185,7 +185,9 @@ Les approches supervisées (Random Forest, XGBoost, réseaux profonds) nécessit
 L'approche semi-supervisée contourne le problème du labelling en apprenant uniquement la distribution du trafic « normal » (ou « humain ») :
-**Isolation Forest** (Liu et al., 2008) : algorithme de détection d'anomalies basé sur des arbres d'isolation. L'intuition est que les anomalies, étant rares et différentes, sont « isolées » plus rapidement (en moins de splits) que les points normaux. L'architecture étudiée utilise IF avec `n_estimators=300`, `contamination=0.001`, entraîné sur la baseline humaine (`asn_label='human'`, minimum 500 échantillons).
+**Isolation Forest** (Liu et al., 2008) : algorithme de détection d'anomalies basé sur des arbres d'isolation. L'intuition est que les anomalies, étant rares et différentes, sont « isolées » plus rapidement (en moins de splits) que les points normaux.
 **Extended Isolation Forest** (Hariri et al., IEEE TKDE 2021) : l'IF standard sélectionne à chaque nœud une feature unique et un seuil, créant des coupes alignées aux axes. Dans des espaces de dimension élevée (>10 features), cette contrainte produit des artefacts de score — des « ghost clusters » où des régions sans données reçoivent des scores d'anomalie artificiellement bas car les coupes parallèles aux axes découpent l'espace de manière non-uniforme. L'EIF résout ce problème en utilisant des hyperplans de pente aléatoire (vecteur normal aléatoire + intercept aléatoire) au lieu de coupes alignées. Le résultat est un scoring plus cohérent et fiable, particulièrement critique pour des espaces à 47-59 features comme l'architecture étudiée. L'IF standard est un cas particulier de l'EIF (extension level 0).
 **Avantages de l'approche semi-supervisée pour la détection de bots** :
 - Pas besoin d'exemples d'attaques — le modèle apprend « ce qui est humain ».
@ -199,12 +201,61 @@ L'architecture étudiée exécute deux modèles IF en parallèle sur chaque cycl
 Cette séparation est essentielle : les features TCP/TLS ne sont disponibles que lorsque ja4sentinel a corrélé la connexion réseau avec la requête HTTP. Forcer des valeurs à zéro pour le trafic non-corrélé introduirait un biais systématique.
 #### 2.4.2b Autoencoders et détection d'anomalies réseau
 Les autoencoders (AE) offrent une approche complémentaire fondamentalement différente de l'IF. Là où l'IF mesure la « facilité d'isolation » d'un point, l'AE mesure l'erreur de reconstruction — la difficulté pour un réseau de neurones entraîné sur du trafic normal à reconstituer fidèlement un échantillon donné.
 **Kitsune** (Mirsky et al., NDSS 2018) : ensemble d'autoencoders pour la détection d'intrusions réseau en ligne. Démontre que des AE légers (~64 neurones) tournant sur un Raspberry Pi détectent des attaques avec une performance comparable aux détecteurs offline. L'architecture KitNET utilise un feature mapper automatique qui répartit les features entre sous-ensembles d'autoencoders, permettant une détection distribuée.
 **β-VAE pour la détection d'anomalies** (Baptiste et al., arXiv, février 2026) : les autoencoders variationnels (VAE) ajoutent un terme de régularisation KL-divergence qui structure l'espace latent. Le score d'anomalie combine erreur de reconstruction et déviation de la distribution latente : `anomaly = -log p(x|z) + KL(q(z|x) || p(z))`. Cette double mesure détecte des anomalies qu'un AE standard manque — des échantillons bien reconstruits mais dont la représentation latente est atypique.
 **Complémentarité AE + IF** : des études comparatives (Jamshidi et al., arXiv, novembre 2025 — « Lightweight Autoencoder-Isolation Forest for Green IoT Edge Gateways » ; Basbous et al., arXiv, mars 2026 — « Hybrid Autoencoder-Isolation Forest ») démontrent que la combinaison des deux méthodes surpasse chacune en isolation :
 - L'IF excelle sur les anomalies ponctuelles (points isolés dans l'espace des features).
 - L'AE excelle sur les anomalies distributionnelles (corrélations non-linéaires entre features perturbées).
 - Un bot utilisant httpcloak pour imiter les features individuelles d'un navigateur Chrome présente des corrélations inter-features inhabituelles (e.g., `tcp_jitter_variance × sec_fetch_absence_rate × asset_ratio`) que seul un AE détecte.
 L'espace latent du AE (typiquement 16 dimensions) fournit en outre un espace de clustering bien adapté pour la détection de campagnes coordonnées (remplacement du feature space brut pour DBSCAN/HDBSCAN).
 #### 2.4.2c Ensembles hybrides supervisé + non-supervisé
 L'accumulation de décisions de classification (historique `ml_all_scores`, feedback SOC, étiquettes `KNOWN_BOT`, `ANUBIS_DENY`) crée progressivement un jeu de données labellisé exploitable par un classifieur supervisé.
 **Architecture en ensemble triple** :
 ```
                    ┌─────────────────────────┐
                    │  EIF (non-supervisé)    → score_eif
                    ├─────────────────────────┤
 Features ────────▶ │  AE  (non-supervisé)    → recon_error_ae
                    ├─────────────────────────┤
                    │  XGBoost (supervisé)    → prob_bot_xgb
                    └────────────┬────────────┘
                                 │
                    ┌────────────▼────────────┐
                    │  Méta-learner           │  (régression logistique)
                    │  Pondération adaptative │
                    └────────────┬────────────┘
                                 │
                    final_threat_score ∈ [0, 1]
 ```
 - **EIF** : détecte les anomalies zero-day (pas de labels nécessaires, résistant au concept drift via retraining).
 - **AE** : capture les corrélations non-linéaires entre features que l'EIF manque.
 - **XGBoost** : exploite les patterns connus (entraîné sur l'historique des décisions ML + feedback SOC). Osama et al. (2025) démontrent 99,59 % de précision sur classification de payloads.
 - **Méta-learner** : pondère dynamiquement les trois voix en fonction de leur performance récente.
 Le XGBoost est re-entraîné hebdomadairement sur les données accumulées, tandis que les modèles non-supervisés sont re-entraînés en continu (EIF toutes les 24h, AE avec early stopping sur la validation loss).
 #### 2.4.3 Concept Drift et retraining adaptatif
 Le trafic web n'est pas stationnaire : les navigateurs sont mis à jour (changement de JA4), les patterns de navigation évoluent (SPA, HTTP/3), et les attaquants adaptent leurs techniques.
 L'architecture implémente une détection de dérive par test de Kolmogorov-Smirnov par feature entre la distribution d'entraînement et la distribution courante. Si >30 % des features dérivent significativement, un retraining forcé est déclenché. Le modèle est sérialisé avec ses statistiques de baseline pour comparaison future.
 **Amélioration par quantile digest** : la reconstruction de la distribution d'entraînement à partir de la seule moyenne et écart-type (distribution normale synthétique) est inadéquate pour les features non-gaussiennes — `asset_ratio`, `post_ratio`, et `orphan_ratio` sont typiquement bimodales ou fortement asymétriques. La sauvegarde d'un ensemble de quantiles (p10, p25, p50, p75, p90) permet de reconstruire la CDF empirique par interpolation linéaire et de produire des échantillons synthétiques fidèles à la distribution réelle via le sampling par quantile inverse.
 **Validation et gate condition** : au-delà de la détection de drift, la validation du modèle après retraining est critique. Un taux d'anomalie sur le jeu de validation >20 % signale une baseline contaminée — le modèle entraîné considère trop de trafic normal comme anomal, indiquant une pollution de la baseline `asn_label='human'` par des bots résidentiels ou des proxies. Dans ce cas, le modèle précédent est conservé et une alerte est émise.
 #### 2.4.4 Régime d'attaque probabiliste (PARD-SSM)
 Hiremath et al. (avril 2026, arXiv) proposent les Variational Switching State-Space Models pour modéliser les campagnes d'attaque comme des séquences de phases comportementales (Reconnaissance → Mouvement latéral → Intrusion → Exfiltration). Cette approche pourrait enrichir la détection de campagnes actuellement implémentée par DBSCAN.
@ -583,7 +634,12 @@ L'approche semi-supervisée suppose que le trafic `asn_label='human'` est effect
 **Contamination de la baseline** : si >1 % du trafic « humain » est en réalité automatisé, le modèle IF apprend ces patterns comme normaux, réduisant la sensibilité.
-**Mitigation** : le seuil de contamination IF (`contamination=0.001`) combiné avec la déduplication Anubis (les bots connus sont exclus avant l'entraînement) limite ce risque. Les techniques proposées (§5.2 graphe de co-occurrence, §5.3 cadence fingerprint) offrent des signaux orthogonaux résistants à cette contamination.
+**Mitigation multi-niveaux** :
 1. Le seuil de contamination IF (`contamination=0.001`) combiné avec la déduplication Anubis (les bots connus sont exclus avant l'entraînement) limite ce risque.
 2. Les techniques proposées (§5.2 graphe de co-occurrence, §5.3 cadence fingerprint) offrent des signaux orthogonaux résistants à cette contamination.
 3. **Validation gate** : après chaque retraining, le taux d'anomalie sur le jeu de validation (20 % du baseline, split temporel) est vérifié. Un taux >20 % déclenche un rejet automatique du modèle et la conservation du modèle précédent — évitant le déploiement d'un modèle entraîné sur une baseline polluée.
 4. **Feedback SOC** : les classifications manuelles (faux positif → IP reclassée « human » dans la baseline ; vrai positif → IP exclue de la baseline) permettent un nettoyage itératif de la baseline au fil du temps.
 5. **Ensemble triple** (§2.4.2c) : le XGBoost supervisé entraîné sur les labels accumulés constitue un « correcteur » qui atténue les erreurs systématiques des modèles non-supervisés.
 ### 6.3 Vie privée et conformité
@ -616,13 +672,17 @@ La détection du trafic HTTP malveillant est un problème fondamentalement multi
 2. **Le fingerprinting multi-protocole (JA4+) fournit une base d'identification robuste** : en combinant TLS (JA4), TCP (JA4T), et HTTP (JA4H), il est possible d'identifier les applications, les OS, les tunnels, et les bibliothèques TLS sans déchiffrement.
-3. **La corrélation inter-couches est le multiplicateur de force** : une feature isolée (ex: `has_accept_language`) est facilement contournable ; mais la corrélation de 45 features sur 5 couches (L3→L7) crée un espace de détection exponentiellement plus difficile à émuler.
+3. **La corrélation inter-couches est le multiplicateur de force** : une feature isolée (ex: `has_accept_language`) est facilement contournable ; mais la corrélation de 59 features sur 5 couches (L3→L7) crée un espace de détection exponentiellement plus difficile à émuler.
-4. **L'apprentissage semi-supervisé (Isolation Forest) est adapté au problème** : en apprenant « ce qui est humain » plutôt que « ce qui est malveillant », le système détecte les attaques zero-day sans labels.
+4. **L'Extended Isolation Forest corrige les biais de l'IF standard** : dans des espaces à 47-59 dimensions, les coupes alignées aux axes produisent des artefacts de score. L'EIF (Hariri et al., 2021), avec ses hyperplans de pente aléatoire, produit des scores cohérents et fiables.
-5. **Les techniques proposées exploitent des signaux sous-utilisés** : la séquence temporelle des chemins, les graphes de co-occurrence réseau, la cadence inter-requêtes, l'arbre de dépendances de ressources, la dérive de fingerprint intra-session, la corrélation DNS passive, les invariants de compression, et le comportement cross-domaine ouvrent de nouvelles dimensions de détection, chacune orthogonale aux signaux existants.
+5. **L'ensemble hybride triple-voix est l'architecture cible** : la combinaison EIF (anomalies zero-day) + Autoencoder (corrélations non-linéaires) + XGBoost supervisé (patterns connus) via un méta-learner adaptatif surpasse chaque composant en isolation, comme le démontrent les travaux sur les ensembles hybrides (Jamshidi et al., 2025 ; Basbous et al., 2026).
-**Perspective** : la prochaine frontière est l'intégration de modèles de séquence (Transformers, State-Space Models) pour capturer les patterns temporels complexes des sessions HTTP, combinés avec des graphes de connaissance reliant IPs, JA4, ASN et comportements dans un espace de représentation unifié. Les travaux récents sur les Variational Switching State-Space Models (Hiremath et al., 2026) pour la modélisation de phases d'attaque pointent vers cette direction.
+6. **Les techniques proposées exploitent des signaux sous-utilisés** : la séquence temporelle des chemins, les graphes de co-occurrence réseau, la cadence inter-requêtes (incluant la loi de Benford et l'autocorrélation), l'arbre de dépendances de ressources, la dérive de fingerprint intra-session, la corrélation DNS passive, les invariants de compression, et le comportement cross-domaine ouvrent de nouvelles dimensions de détection, chacune orthogonale aux signaux existants.
 7. **La robustesse du pipeline exige une validation automatique** : la gate condition sur le taux d'anomalie de validation, le drift detection par quantile digest, et l'élagage dynamique des features à variance nulle préviennent les déploiements de modèles dégradés.
 **Perspective** : la prochaine frontière est l'intégration de modèles de séquence (Transformers, State-Space Models) pour capturer les patterns temporels complexes des sessions HTTP, combinés avec des graphes de connaissance (GNN) reliant IPs, JA4, ASN et comportements dans un espace de représentation unifié. Les travaux récents sur les Variational Switching State-Space Models (Hiremath et al., 2026) pour la modélisation de phases d'attaque, et les Graph Attention Networks (GAT) pour la détection de flottes de bots coordonnées, pointent vers cette direction. L'intégration de fingerprints HTTP/2 (SETTINGS frame, PRIORITY tree) constitue un vecteur de détection sous-exploité face aux outils d'évasion comme httpcloak qui imitent parfaitement les couches TLS et HTTP/1.1 mais pas encore les subtilités HTTP/2.
 ---
@ -632,50 +692,70 @@ La détection du trafic HTTP malveillant est un problème fondamentalement multi
 1. Liu, F.T., Ting, K.M., & Zhou, Z.H. (2008). "Isolation Forest." *IEEE International Conference on Data Mining (ICDM)*.
-2. Osama, H., et al. (2025). "Enhanced Web Payload Classification Using WAMM: An AI-Based Framework for Dataset Refinement and Model Evaluation." *arXiv:2512.23610*.
+2. Hariri, S., Kind, M.C., & Brunner, R.J. (2021). "Extended Isolation Forest." *IEEE Transactions on Knowledge and Data Engineering (TKDE), 33(4), 1479-1489*. arXiv:1811.02141.
-3. Sanna Passino, F., et al. (2025). "Clustering Terminal Session Commands for Cyber-Threat Analysis." *Annals of Applied Statistics, 19(1), 586-613*. arXiv:2301.02505.
+3. Osama, H., et al. (2025). "Enhanced Web Payload Classification Using WAMM: An AI-Based Framework for Dataset Refinement and Model Evaluation." *arXiv:2512.23610*.
-4. Hiremath, P.S., et al. (2026). "PARD-SSM: Probabilistic Cyber-Attack Regime Detection via Variational Switching State-Space Models." *arXiv (April 2026)*.
+4. Sanna Passino, F., et al. (2025). "Clustering Terminal Session Commands for Cyber-Threat Analysis." *Annals of Applied Statistics, 19(1), 586-613*. arXiv:2301.02505.
-5. Sosnowski, M., et al. (2023). "Active TLS Stack Fingerprinting: Characterizing TLS Server Deployments at Scale." arXiv:2206.13230.
+5. Hiremath, P.S., et al. (2026). "PARD-SSM: Probabilistic Cyber-Attack Regime Detection via Variational Switching State-Space Models." *arXiv (April 2026)*.
-6. Anderson, B., et al. (2018). "Limitless HTTP in an HTTPS World: Inferring the Semantics of the HTTPS Protocol without Decryption." arXiv:1805.11544.
+6. Sosnowski, M., et al. (2023). "Active TLS Stack Fingerprinting: Characterizing TLS Server Deployments at Scale." arXiv:2206.13230.
-7. Hosain, M., et al. (2025). "Web Technologies Security in the AI Era: A Survey of CDN-Enhanced Defenses." *arXiv (December 2025)*.
+7. Anderson, B., et al. (2018). "Limitless HTTP in an HTTPS World: Inferring the Semantics of the HTTPS Protocol without Decryption." arXiv:1805.11544.
-8. Kadel, J., et al. (2024). "BOTracle: A framework for Discriminating Bots and Humans." *arXiv (December 2024)*.
+8. Hosain, M., et al. (2025). "Web Technologies Security in the AI Era: A Survey of CDN-Enhanced Defenses." *arXiv (December 2025)*.
-9. Schraven, J., et al. (2025). "MAWIFlow Benchmark: Realistic Flow-Based Evaluation for Network Intrusion Detection." *arXiv (June 2025)*.
+9. Kadel, J., et al. (2024). "BOTracle: A framework for Discriminating Bots and Humans." *arXiv (December 2024)*.
-10. Akbari, E., et al. (2025). "One task to rule them all: A closer look at traffic classification generalizability." *arXiv (July 2025)*.
+10. Schraven, J., et al. (2025). "MAWIFlow Benchmark: Realistic Flow-Based Evaluation for Network Intrusion Detection." *arXiv (June 2025)*.
 11. Akbari, E., et al. (2025). "One task to rule them all: A closer look at traffic classification generalizability." *arXiv (July 2025)*.
 12. Mirsky, Y., Doitshman, T., Elovici, Y., & Shabtai, A. (2018). "Kitsune: An Ensemble of Autoencoders for Online Network Intrusion Detection." *Network and Distributed Systems Security Symposium (NDSS)*. arXiv:1802.09089.
 13. Baptiste, D., Saddem, R., Philippot, A., & Foyer, F. (2026). "Unsupervised Anomaly Detection in NSL-KDD Using β-VAE: A Latent Space and Reconstruction Error Approach." *arXiv (February 2026)*.
 14. Jamshidi, S., et al. (2025). "Lightweight Autoencoder-Isolation Forest Anomaly Detection for Green IoT Edge Gateways." *arXiv (November 2025)*.
 15. Basbous, F., et al. (2026). "Hybrid Autoencoder-Isolation Forest approach for time series anomaly detection." *arXiv (March 2026)*.
 16. Frizzo, D., et al. (2024). "Towards Transparent and Efficient Anomaly Detection in Industrial Processes through ExIFFI." *arXiv (May 2024)* — Extended Isolation Forest with Feature Importance.
 17. Arcudi, A., et al. (2023). "Enhancing Interpretability and Generalizability in Extended Isolation Forests." *arXiv (October 2023)*.
 ### Projets et outils open-source
-11. Althouse, J. (2023). "JA4+ Network Fingerprinting." FoxIO. https://github.com/FoxIO-LLC/ja4
+18. Althouse, J. (2023). "JA4+ Network Fingerprinting." FoxIO. https://github.com/FoxIO-LLC/ja4
-12. Althouse, J. (2024). "JA4T: TCP Fingerprinting." FoxIO Blog. https://blog.foxio.io/ja4t-tcp-fingerprinting
+19. Althouse, J. (2024). "JA4T: TCP Fingerprinting." FoxIO Blog. https://blog.foxio.io/ja4t-tcp-fingerprinting
-13. OWASP Foundation. "OWASP ModSecurity Core Rule Set (CRS) v4." https://github.com/coreruleset/coreruleset
+20. OWASP Foundation. "OWASP ModSecurity Core Rule Set (CRS) v4." https://github.com/coreruleset/coreruleset
-14. TecharoHQ. "Anubis — Bot Detection Rules." https://github.com/TecharoHQ/anubis
+21. TecharoHQ. "Anubis — Bot Detection Rules." https://github.com/TecharoHQ/anubis
-15. FingerprintJS. "BotD — Browser Bot Detection." https://github.com/fingerprintjs/BotD
+22. FingerprintJS. "BotD — Browser Bot Detection." https://github.com/fingerprintjs/BotD
-16. Zalewski, M. (2013). "p0f v3 — Passive OS Fingerprinting." https://lcamtuf.coredump.cx/p0f3/
+23. Zalewski, M. (2013). "p0f v3 — Passive OS Fingerprinting." https://lcamtuf.coredump.cx/p0f3/
-17. sardanioss. "httpcloak — Go HTTP Client with Browser-Identical TLS/HTTP2 Fingerprinting." https://github.com/sardanioss/httpcloak
+24. sardanioss. "httpcloak — Go HTTP Client with Browser-Identical TLS/HTTP2 Fingerprinting." https://github.com/sardanioss/httpcloak
-18. Imperva. (2024). "2024 Bad Bot Report." https://www.imperva.com/resources/reports/2024-bad-bot-report/
+25. Imperva. (2024). "2024 Bad Bot Report." https://www.imperva.com/resources/reports/2024-bad-bot-report/
 26. Hariri, S. "Extended Isolation Forest (eif)." https://github.com/sahandha/eif — Implémentation Python, v2.0.2.
 27. CrowdSec. "CrowdSec Security Engine." https://github.com/crowdsecurity/crowdsec — IDS/WAF collaboratif open-source.
 28. Coraza WAF. "Coraza — Enterprise-grade WAF in Go." https://github.com/corazawaf/coraza
 ### Standards et RFC
-19. RFC 8701 — "Applying Generate Random Extensions And Sustain Extensibility (GREASE) to TLS Extensibility." (2020).
+29. RFC 8701 — "Applying Generate Random Extensions And Sustain Extensibility (GREASE) to TLS Extensibility." (2020).
-20. RFC 9293 — "Transmission Control Protocol (TCP)." (2022).
+30. RFC 9293 — "Transmission Control Protocol (TCP)." (2022).
-21. RFC 8446 — "The Transport Layer Security (TLS) Protocol Version 1.3." (2018).
+31. RFC 8446 — "The Transport Layer Security (TLS) Protocol Version 1.3." (2018).
 ---
-*Document généré le 7 avril 2026. Les techniques proposées au §5 sont originales et n'ont pas été publiées précédemment.*
+*Document généré le 7 avril 2026, mis à jour le 8 avril 2026. Les techniques proposées au §5 sont originales et n'ont pas été publiées précédemment. Les sections §2.4.2b, §2.4.2c et les mises à jour de §6-§7 intègrent les résultats de la revue de littérature 2023-2026.*