ja4-platform/docs/thesis/00_resume.md

[<< Sommaire](README.md) | [Suivant >>](01_introduction.md)

---

# Détection et Classification du Trafic HTTP Malveillant : Approche Multi-Couches par Corrélation Passive L3–L7

**Document technique — Avril 2026**
**Version 4.1 — Révision scientifique**

---

## Résumé

Ce document présente une architecture opérationnelle de détection et classification du trafic HTTP malveillant, s'inscrivant dans la continuité des approches de génération 3 (fingerprinting multi-protocole et ML comportemental). Le système exploite 96 features organisées en 8 familles couvrant les couches réseau L3 à L7, corrélant des signaux TCP, TLS et HTTP en un vecteur unifié par session. La détection repose sur un ensemble triple-voix combinant un Extended Isolation Forest (EIF), un autoencodeur (AE) et XGBoost, fusionnés par une régression logistique calibrée activée à partir de 1 000 étiquettes accumulées. L'explicabilité est assurée par l'importance des features par profondeur d'isolation (EIF) et SHAP TreeExplainer (XGBoost). Le clustering de campagnes est réalisé par HDBSCAN dans l'espace latent 16 dimensions de l'autoencodeur, et la détection de flottes coordonnées par graphes bipartis via NetworkX. Le fingerprinting HTTP/2 passif — extraction des trames SETTINGS, WINDOW_UPDATE et de l'ordre des pseudo-headers côté serveur — exploite un signal déjà utilisé par des solutions industrielles (Akamai, Cloudflare, F5), ici implémenté via eBPF. L'infrastructure repose sur 16 modules Python (4 800 lignes), une base ClickHouse à double schéma (ja4_logs bruts TTL 2 h, ja4_processing agrégés TTL 7 j), des cycles d'analyse de 300 secondes, et traite en production plus de 3 millions de logs, environ 34 000 sessions par cycle, avec approximativement 777 anomalies détectées par cycle (≈ 2,3 % — chiffre opérationnel brut, non validé comme taux de détection). Le système intègre un moteur de profiling dynamique automatique des navigateurs (HDBSCAN sur les vecteurs H2 observés, centroïdes auto-appris, scoring temps réel par distance normalisée) qui s'adapte aux évolutions des piles HTTP/2 sans intervention manuelle.

**Mots-clés** : fingerprinting réseau, JA4+, HTTP/2 fingerprinting, détection de bots, Extended Isolation Forest, autoencodeurs, ensemble hybride, corrélation TCP/TLS/HTTP, WAF, classification de trafic, apprentissage semi-supervisé, clustering HDBSCAN

---

## Table des matières

1. [Introduction](#1-introduction)
   - 1.1 Contexte et ampleur de la menace
   - 1.2 Quatre générations de défenses
   - 1.3 Portée et caractéristiques de ce document

2. [État de l'art](#2-état-de-lart)
   - 2.1 Détection par règles statiques
     - 2.1.1 OWASP Core Rule Set (CRS)
     - 2.1.2 Listes de réputation IP et ASN
     - 2.1.3 Projet Anubis (TecharoHQ)
   - 2.2 Fingerprinting réseau
     - 2.2.1 TLS Fingerprinting : de JA3 à JA4+
     - 2.2.2 TCP Fingerprinting
     - 2.2.3 Fingerprinting TLS avancé
   - 2.3 Analyse comportementale HTTP
     - 2.3.1 Signaux d'en-têtes HTTP
     - 2.3.2 Patterns de navigation
     - 2.3.3 Brute-force et credential stuffing
   - 2.4 Apprentissage automatique pour la détection d'intrusions
     - 2.4.1 Approches supervisées et leurs limites
     - 2.4.2 Approches semi-supervisées
     - 2.4.2b Autoencoders (AE) et détection d'anomalies
     - 2.4.2c Ensembles hybrides supervisé + non-supervisé
     - 2.4.3 Concept Drift et retraining adaptatif
     - 2.4.4 Modélisation des phases d'attaque
     - 2.4.5 Explicabilité par SHAP et ExIFFI
   - 2.5 Détection côté client (Browser Fingerprinting)
     - 2.5.1 JavaScript Challenges
     - 2.5.2 FingerprintJS BotD
     - 2.5.3 Fingerprinting HTTP/2 passif côté serveur
   - 2.6 Synthèse des limites de l'état de l'art

3. [Architecture de détection multi-couches](#3-architecture-de-détection-multi-couches)
   - 3.1 Vue d'ensemble du pipeline
   - 3.2 Couche L3 — IP et paquets
   - 3.3 Couche L4 — TCP
   - 3.4 Couche L5 — TLS
   - 3.5 Couche L7 — HTTP
   - 3.6 Corrélation inter-couches (ja4ebpf)
   - 3.7 Agrégation temporelle et features dérivées
   - 3.8 Détection ML semi-supervisée (full pipeline)

4. [Taxonomie des features de détection](#4-taxonomie-des-features-de-détection)
   - Famille 1 : Volumétrie et vitesse (4 features)
   - Famille 2 : Diversité et exploration (7 features)
   - Famille 3 : Authenticité protocolaire (12 features)
   - Famille 4 : Cohérence cross-layer (14 features)
   - Famille 5 : Empreinte réseau (13 features)
   - Famille 6 : Comportement de navigation (10 features)
   - Famille 7 : Intelligence contextuelle (23 features)
   - Famille 8 : Features comportementales avancées (13 features)

5. [Techniques comportementales avancées](#5-techniques-comportementales-avancées)
6. [Discussion et limites](#6-discussion-et-limites)
7. [Conclusion et perspectives](#7-conclusion-et-perspectives)
8. [Références](#8-références)

---