docs: add standardized comments to all services (Python, Go, Bash)

- Add docs/commenting-standard.md defining per-language comment standards (Go godoc, Python PEP-257, C Doxygen, Bash header blocks, SQL banners) - services/dashboard: 100% docstring coverage (100/100 functions) - All FastAPI route handlers, helpers, classes, and models documented - Language: French (project convention) - services/bot-detector: 100% docstring coverage (53/53 symbols) - bot_detector.py: 14 functions + module docstring - anubis/fetch_rules.py: 9 functions - shared/python/ja4_common: full docstrings on ClickHouseClient (7 methods) and ClickHouseSettings class - services/correlator: 24 godoc comments added across 6 Go files - correlation_service.go: 10 private helpers - unixsocket/source.go: 6 parsing/socket helpers - correlated_log.go: 4 field extraction helpers - orchestrator.go, logger.go, main.go: 4 comments - services/correlator/scripts/audit-architecture.sh: standardized header block Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>
2026-04-07 21:32:29 +02:00
parent 12d60975da
commit 3dfeba860b
22 changed files with 388 additions and 10 deletions
--- a/docs/commenting-standard.md
+++ b/docs/commenting-standard.md
@ -0,0 +1,210 @@
 # Standard de commentaires — ja4-platform
 Ce document définit les conventions de commentaires pour tous les projets du monorepo.
 Toutes les nouvelles contributions doivent respecter ce standard.
 Les commentaires de **code fonctionnel** sont en **français** ; les identifiants, types, et
 noms de variables restent en anglais (convention Go / Python).
 ---
 ## Go
 ### Règles
 - Tout package public : `// Package foo fournit...`
 - Toute fonction/méthode **exportée** : commentaire godoc commençant par le nom de la fonction
 - Toute fonction/méthode **privée non triviale** (>5 lignes) : une ligne `// nomFonction fait X`
 - Structures exportées : un commentaire par champ si la sémantique n'est pas évidente
 - Pas de commentaires pour les getters/setters triviaux ni les stubs
 ### Exemple
 ```go
 // Package capture gère la capture de paquets réseau bruts via libpcap.
 package capture
 // RawPacket représente un paquet TCP/IP brut capturé sur l'interface réseau.
 type RawPacket struct {
    Data      []byte    // Contenu brut du paquet (à partir de la couche Ethernet)
    Timestamp time.Time // Horodatage de capture (précision nanoseconde)
    SrcIP     net.IP    // Adresse IP source
    DstIP     net.IP    // Adresse IP destination
 }
 // Capture définit l'interface pour la capture de paquets bruts.
 // Les implémentations doivent écouter sur une interface réseau configurée,
 // appliquer des filtres BPF et émettre des RawPacket vers un canal.
 // Close doit être appelé pour libérer le handle pcap.
 type Capture interface {
    Start(ctx context.Context) (<-chan RawPacket, error)
    Close() error
 }
 // NewCapture crée une nouvelle instance de capture pcap sur l'interface donnée.
 // Retourne une erreur si l'interface n'existe pas ou si les droits NET_RAW sont absents.
 func NewCapture(iface string, ports []int) (Capture, error) { ... }
 // buildBPFFilter construit le filtre BPF pour les ports et IPs locales spécifiés.
 // Format : "(tcp dst port 443) and (dst host 192.168.1.10)"
 func buildBPFFilter(ports []int, localIPs []net.IP) string { ... }
 ```
 ---
 ## Python
 ### Règles
 - Tout module : docstring triple-guillemets en première ligne
 - Toute classe : docstring décrivant le rôle et les attributs principaux
 - Toute fonction/méthode publique : docstring une ou plusieurs lignes
 - Fonctions privées simples (`_helper`) : une ligne si non triviales
 - Routes FastAPI : docstring courte décrivant ce que renvoie l'endpoint (utilisée par Swagger/OpenAPI)
 - Langue : **français**
 ### Exemple
 ```python
 """
 Module de détection de bots par machine learning.
 Utilise un modèle IsolationForest entraîné sur les features comportementales
 extraites de ja4_processing.agg_host_ip_ja4_1h.
 """
 class BotDetector:
    """
    Détecteur de bots basé sur IsolationForest.
    Attributes:
        model: Modèle entraîné (None avant le premier entraînement).
        threshold: Seuil de score d'anomalie en dessous duquel un IP est flaggée.
    """
    def train(self, df: pd.DataFrame) -> None:
        """
        Entraîne le modèle IsolationForest sur le DataFrame fourni.
        Le DataFrame doit contenir les colonnes de features définies dans FEATURE_COLS.
        Le modèle précédent est remplacé à chaque appel.
        """
    def score_batch(self, ips: list[str]) -> dict[str, float]:
        """Calcule le score d'anomalie pour une liste d'IPs. Retourne {ip: score}."""
 # --- Routes FastAPI ---
@router.get("/hourly")
 async def get_heatmap_hourly(db=Depends(get_db)):
    """Retourne les hits agrégés par heure sur les 72 dernières heures."""
 ```
 ---
 ## C
 ### Règles
 - Chaque fichier : bloc d'en-tête `/* filename.c — description */`
 - Chaque fonction : bloc `/** @brief description */` au-dessus de la déclaration
 - Macros complexes : commentaire inline expliquant le comportement
 - Section logique : bannière `/* ====== Nom de section ====== */`
 - Membres de struct : commentaire `/* description */` en fin de ligne si non évident
 ### Exemple
 ```c
 /*
 * mod_reqin_log.c — Module Apache HTTPD pour la journalisation JSON des requêtes HTTP.
 *
 * Ce module capture chaque requête entrante, sérialise ses métadonnées (headers,
 * IP, méthode, path) en JSON et les envoie vers une socket Unix pour le correlateur.
 */
 /* ====== Fonctions de buffer dynamique ====== */
 /**
 * @brief Initialise un buffer dynamique avec une capacité initiale.
 *
 * @param buf   Pointeur vers le buffer à initialiser.
 * @param pool  Pool APR utilisé pour les allocations.
 * @param init  Capacité initiale en octets.
 */
 static void dynbuf_init(dynbuf_t *buf, apr_pool_t *pool, size_t init) { ... }
 /**
 * @brief Ajoute une chaîne dans le buffer, réalloue si nécessaire.
 *
 * Croissance exponentielle (×2) pour amortir les allocations.
 * Retourne 0 en cas de succès, -1 si la taille maximale MAX_JSON_SIZE est dépassée.
 */
 static int dynbuf_append(dynbuf_t *buf, const char *str, size_t len) { ... }
 ```
 ---
 ## Bash
 ### Règles
 - Tout script : bloc d'en-tête standardisé avec description, Usage, et variables d'environnement
 - Toute fonction : commentaire `# nomFonction — description` sur la ligne précédente
 - Variables globales non évidentes : commentaire `# description` en fin de ligne
 ### Exemple
 ```bash
 #!/usr/bin/env bash
 # =============================================================================
 # script.sh — Description courte du script
 #
 # Description longue si nécessaire.
 #
 # Usage:
 #   ./script.sh [OPTIONS]
 #
 # Options:
 #   --dry-run    Simuler sans modifier
 #   --verbose    Afficher les détails
 #
 # Variables d'environnement:
 #   CLICKHOUSE_HOST — Hôte ClickHouse (défaut: localhost)
 #   CLICKHOUSE_PORT — Port natif ClickHouse (défaut: 9000)
 # =============================================================================
 set -euo pipefail
 # log — Affiche un message horodaté sur stderr
 log() { echo "[$(date +%H:%M:%S)] $*" >&2; }
 ```
 ---
 ## SQL (ClickHouse)
 ### Règles
 - Chaque fichier : bannière `-- ==== filename.sql — description ====`
 - Chaque table/vue/dictionnaire : section `-- --- Nom ---` + description du rôle
 - Colonnes groupées : commentaire de groupe `-- Groupe (ex: Réseau, TLS, Métadonnées IP)`
 - TODOs de sécurité : `-- TODO: ...` clairement identifiés
 ### Exemple
 ```sql
 -- =============================================================================
 -- 01_raw_tables.sql — Tables brutes (ingestion directe du correlateur)
 --
 -- Ces tables reçoivent les logs JSON bruts du correlateur via INSERT.
 -- Le TTL d'un jour évite l'accumulation de données non traitées.
 -- =============================================================================
 -- -----------------------------------------------------------------------------
 -- http_logs_raw — Table d'ingestion brute
 -- Reçoit les entrées du correlateur ; la MV mv_http_logs parse et enrichit.
 -- TTL : 1 jour (données transformées conservées dans http_logs)
 -- -----------------------------------------------------------------------------
 CREATE TABLE IF NOT EXISTS ja4_logs.http_logs_raw
 (
    -- Identifiant de flux
    conn_id   String,
    -- Payload JSON brut
    raw_json  String CODEC(ZSTD(3))
 )
 ENGINE = MergeTree ...
 ```
--- a/services/bot-detector/anubis/fetch_rules.py
+++ b/services/bot-detector/anubis/fetch_rules.py
@ -72,6 +72,7 @@ UA_PARENT_OVERRIDE: dict[str, str] = {}
 # ──────────────────────────────────────────────────────────────────────────────
 def _fetch_url(url: str, timeout: int = 15) -> str | None:
    """Télécharge le contenu d'une URL en texte UTF-8. Retourne None en cas d'erreur réseau."""
    try:
        with urllib.request.urlopen(url, timeout=timeout) as resp:
            return resp.read().decode("utf-8")
@ -81,6 +82,7 @@ def _fetch_url(url: str, timeout: int = 15) -> str | None:
 def fetch_yaml_url(url: str) -> list | dict | None:
    """Télécharge et désérialise un fichier YAML depuis une URL. Retourne None si inaccessible."""
    content = _fetch_url(url)
    if content:
        return yaml.safe_load(content)
@ -334,6 +336,7 @@ def collect_all_rules() -> tuple[list, list, list, list]:
 # ──────────────────────────────────────────────────────────────────────────────
 def get_ch_client():
    """Crée et retourne un client ClickHouse configuré depuis les variables d'environnement."""
    return clickhouse_connect.get_client(
        host=os.environ.get("CLICKHOUSE_HOST", "clickhouse"),
        database=os.environ.get("CLICKHOUSE_DB_PROCESSING", os.environ.get("CLICKHOUSE_DB", "ja4_processing")),
@ -346,6 +349,10 @@ DB_PROC = os.environ.get("CLICKHOUSE_DB_PROCESSING", os.environ.get("CLICKHOUSE_
 def insert_ua_rules(client, rules: list[dict]) -> None:
    """Tronque et remplace la table anubis_ua_rules avec les règles User-Agent fournies.
    Le format cible est REGEXP_TREE (colonnes id, parent_id, regexp, keys[], values[]).
    """
    if not rules:
        print("[INFO] Aucune règle UA.")
        return
@ -366,6 +373,7 @@ def insert_ua_rules(client, rules: list[dict]) -> None:
 def insert_ip_rules(client, rules: list[dict]) -> None:
    """Tronque et remplace la table anubis_ip_rules avec les règles CIDR/IP fournies."""
    if not rules:
        print("[INFO] Aucune règle IP.")
        return
@ -381,6 +389,7 @@ def insert_ip_rules(client, rules: list[dict]) -> None:
 def insert_asn_rules(client, rules: list[dict]) -> None:
    """Tronque et remplace la table anubis_asn_rules avec les règles ASN fournies."""
    if not rules:
        print("[INFO] Aucune règle ASN.")
        return
@ -392,6 +401,7 @@ def insert_asn_rules(client, rules: list[dict]) -> None:
 def insert_country_rules(client, rules: list[dict]) -> None:
    """Tronque et remplace la table anubis_country_rules avec les règles pays fournies."""
    if not rules:
        print("[INFO] Aucune règle pays.")
        return
@ -403,6 +413,7 @@ def insert_country_rules(client, rules: list[dict]) -> None:
 def reload_dicts(client) -> None:
    """Recharge les quatre dictionnaires ClickHouse Anubis après mise à jour des tables sources."""
    dicts = [
        f"{DB_PROC}.dict_anubis_ua",
        f"{DB_PROC}.dict_anubis_ip",
@ -422,6 +433,7 @@ def reload_dicts(client) -> None:
 # ──────────────────────────────────────────────────────────────────────────────
 def print_summary(ua_rules, ip_rules, asn_rules, country_rules):
    """Affiche un résumé lisible des règles collectées (UA, IP, ASN, pays) sur la sortie standard."""
    print("\n── Règles UA ──")
    by_cat: dict[str, list] = {}
    for r in ua_rules:
@ -460,6 +472,7 @@ def print_summary(ua_rules, ip_rules, asn_rules, country_rules):
 # ──────────────────────────────────────────────────────────────────────────────
 def main() -> None:
    """Point d'entrée principal : collecte les règles Anubis et les charge dans ClickHouse."""
    print("[INFO] Collecte des règles Anubis depuis GitHub…")
    ua_rules, ip_rules, asn_rules, country_rules = collect_all_rules()
--- a/services/bot-detector/bot_detector/bot_detector.py
+++ b/services/bot-detector/bot_detector/bot_detector.py
@ -1,3 +1,13 @@
 """Détecteur de bots par apprentissage automatique semi-supervisé (IsolationForest).
 Ce module implémente le cycle de détection IA du service bot_detector :
  - chargement et retraining automatique du modèle IsolationForest,
  - scoring, normalisation et classification du trafic (fenêtre 1h / 24h),
  - intégration des règles Anubis (ALLOW / DENY / WEIGH),
  - clustering comportemental DBSCAN, déduplication inter-cycles,
  - explainabilité SHAP, détection de dérive conceptuelle,
  - écriture des résultats dans ClickHouse (ml_detected_anomalies, ml_all_scores).
 """
 import time
 import os
 import json
@ -30,6 +40,10 @@ warnings.filterwarnings('ignore')
 # CONFIGURATION
 # ═══════════════════════════════════════════════════════════════════════════════
 def _require_float(name, default, lo=None, hi=None):
    """Lit une variable d'environnement comme flottant et valide la plage si spécifiée.
    Lève SystemExit si la valeur est non numérique ou hors plage (lo, hi) exclusive.
    """
    raw = os.getenv(name, str(default))
    try:
        v = float(raw)
@ -119,9 +133,15 @@ logger.addHandler(_file_handler)
 # Wrapper court pour homogénéiser les appels de logging (évite d'importer logger partout).
 def log_info(message: str):
    """Enregistre un message de niveau INFO dans le logger du service."""
    logger.info(message)
 def log_decision(event: str, cycle_id: str, model: str = '', row: dict = None):
    """Enregistre un événement de décision IA au format JSONL dans le fichier de log rotatif.
    Chaque ligne contient l'horodatage, le cycle_id, l'événement, le modèle,
    la contamination, le seuil et les données supplémentaires de ``row``.
    """
    entry = {
        'ts': datetime.now().strftime('%Y-%m-%dT%H:%M:%S'),
        'cycle_id': cycle_id,
@ -136,6 +156,7 @@ def log_decision(event: str, cycle_id: str, model: str = '', row: dict = None):
    _file_handler.stream.flush()
 def _append_training_history(entry: dict):
    """Ajoute une entrée de métadonnées d'entraînement au fichier d'historique JSONL."""
    with open(TRAINING_HISTORY_FILE, 'a', encoding='utf-8') as f:
        f.write(json.dumps(entry, ensure_ascii=False, default=str) + '\n')
@ -143,6 +164,7 @@ def _append_training_history(entry: dict):
 # ARRÊT PROPRE ET HEALTH CHECK
 # ═══════════════════════════════════════════════════════════════════════════════
 def _shutdown(sig, frame):
    """Gestionnaire de signal SIGTERM/SIGINT : journalise l'arrêt et quitte proprement."""
    log_info(f"Signal {sig} reçu — arrêt propre.")
    log_decision('SERVICE_STOP', 'shutdown', '', {'signal': sig})
    sys.exit(0)
@ -152,12 +174,20 @@ signal.signal(signal.SIGINT, _shutdown)
 _service_healthy = True
 class _HealthHandler(BaseHTTPRequestHandler):
    """Gestionnaire HTTP minimal pour le point de santé du service.
    Répond 200/OK si le service est sain, 503/DEGRADED dans le cas contraire.
    """
    def do_GET(self):
        """Répond à la requête GET : renvoie 200 OK ou 503 DEGRADED selon l'état du service."""
        code = 200 if _service_healthy else 503
        self.send_response(code)
        self.end_headers()
        self.wfile.write(b'OK' if _service_healthy else b'DEGRADED')
-    def log_message(self, *args): pass
+    def log_message(self, *args):
        """Supprime les logs HTTP internes pour ne pas polluer la sortie standard."""
        pass
 threading.Thread(
    target=lambda: HTTPServer(('', HEALTH_PORT), _HealthHandler).serve_forever(),
@ -174,7 +204,10 @@ def get_client():
    return _ja4_get_client().connect()
 def score_to_threat_level(score: float) -> str:
-    # Seuils : CRITICAL < -0.30 | HIGH < -0.15 | MEDIUM < -0.05 | LOW < 0 | NORMAL ≥ 0
+    """Convertit un score d'anomalie brut IsolationForest en niveau de menace textuel.
    Seuils : CRITICAL < −0.30 | HIGH < −0.15 | MEDIUM < −0.05 | LOW < 0 | NORMAL ≥ 0.
    """
    if score < -0.30: return 'CRITICAL'
    if score < -0.15: return 'HIGH'
    if score < -0.05: return 'MEDIUM'
@ -185,9 +218,11 @@ def score_to_threat_level(score: float) -> str:
 # GESTION DES MODÈLES
 # ═══════════════════════════════════════════════════════════════════════════════
 def _current_pointer_path(name: str) -> str:
    """Retourne le chemin du fichier pointeur vers la version courante du modèle ``name``."""
    return os.path.join(MODEL_DIR, f'model_{name}.current')
 def _get_current_version(name: str):
    """Lit le fichier pointeur et retourne (chemin_modèle, métadonnées) ou (None, None) si absent."""
    pointer = _current_pointer_path(name)
    if not os.path.exists(pointer): return None, None
    with open(pointer) as f: version_id = f.read().strip()
@ -198,6 +233,7 @@ def _get_current_version(name: str):
    return model_path, meta
 def _purge_old_versions(name: str):
    """Supprime les versions excédentaires du modèle ``name`` en ne conservant que MODEL_HISTORY_COUNT fichiers."""
    pattern = os.path.join(MODEL_DIR, f'model_{name}_*.joblib')
    versions = sorted(glob.glob(pattern))
    to_delete = versions[:-MODEL_HISTORY_COUNT] if len(versions) > MODEL_HISTORY_COUNT else []
@ -209,6 +245,15 @@ def _purge_old_versions(name: str):
        log_info(f"[{name}] Version purgée : {version_id} (limite={MODEL_HISTORY_COUNT})")
 def load_or_train_model(name: str, human_baseline: pd.DataFrame, features: list, cycle_id: str):
    """Charge le modèle IsolationForest existant ou en entraîne un nouveau si nécessaire.
    Réutilise le modèle si son âge est inférieur à RETRAIN_INTERVAL_H et si aucune
    dérive conceptuelle significative n'est détectée (A1). En cas d'expiration ou de
    dérive, entraîne un nouveau modèle sur ``human_baseline``, le sérialise sur disque,
    met à jour le fichier pointeur et purge les anciennes versions.
    Retourne l'objet IsolationForest entraîné ou rechargé.
    """
    model_path, meta = _get_current_version(name)
    if model_path and meta:
        trained_at = datetime.fromisoformat(meta['trained_at'])
@ -475,7 +520,15 @@ def _cluster_anomalies(anomalies: pd.DataFrame, features: list) -> pd.DataFrame:
 # ANALYSE SEMI-SUPERVISÉE
 # ═══════════════════════════════════════════════════════════════════════════════
 def run_semi_supervised_logic(df, features, name, cycle_id, recurrence_map):
-    # ── Trifurcation du trafic selon bot_name et Anubis ─────────────────────
+    """Applique le pipeline de détection semi-supervisée sur un sous-ensemble du trafic.
    Trifurque le trafic en bots connus, bots Anubis ALLOW et trafic inconnu,
    entraîne ou charge le modèle IsolationForest sur la baseline humaine,
    score le trafic inconnu, applique les améliorations A2/A4/A6/A8,
    et retourne (threats, all_scored) sous forme de DataFrames.
    Effets de bord : écriture dans les logs de décision via log_decision.
    """
    # 1. Bots connus (dict_bot_ip / dict_bot_ja4) → exclus du scoring IF
    known_bots = df[df['bot_name'] != ''].copy()
    rest = df[df['bot_name'] == ''].copy()
@ -668,6 +721,7 @@ def _filter_recent_detections(client, all_anom: pd.DataFrame) -> pd.DataFrame:
            return all_anom
        recent_map = dict(zip(recent_df['src_ip'], recent_df['best_score']))
        def _should_insert(row):
            """Détermine si une anomalie doit être réinsérée selon l'évolution du score."""
            prev = recent_map.get(row['src_ip'])
            if prev is None:
                return True
@ -712,7 +766,13 @@ def _preprocess_df(df: pd.DataFrame) -> pd.DataFrame:
 # ═══════════════════════════════════════════════════════════════════════════════
 _consecutive_failures = 0
 def fetch_and_analyze():
-    global _service_healthy, _consecutive_failures
+    """Exécute un cycle complet de détection : requête ClickHouse, scoring et insertion des résultats.
    Récupère le trafic depuis la vue view_ai_features_1h (et optionnellement view_ai_features_24h),
    applique run_semi_supervised_logic sur les deux modèles (Complet / Applicatif),
    insère les scores dans ml_all_scores et les anomalies dans ml_detected_anomalies.
    Met à jour _service_healthy et _consecutive_failures en cas d'échec de requête.
    """
    cycle_id = datetime.now().strftime('%Y%m%d_%H%M%S')
    log_info('=== Lancement cycle IA ===')
--- a/services/correlator/cmd/logcorrelator/main.go
+++ b/services/correlator/cmd/logcorrelator/main.go
@ -1,3 +1,4 @@
 // Package main initialise et démarre le service logcorrelator.
 package main
 import (
@ -23,6 +24,7 @@ import (
 var Version = "dev"
 // main configure les sources, les puits et le service de corrélation, puis démarre l'orchestrateur.
 func main() {
 	configPath := flag.String("config", "config.yml", "path to configuration file")
 	version := flag.Bool("version", false, "print version and exit")
--- a/services/correlator/internal/adapters/inbound/unixsocket/source.go
+++ b/services/correlator/internal/adapters/inbound/unixsocket/source.go
@ -117,6 +117,7 @@ func (s *UnixSocketSource) Start(ctx context.Context, eventChan chan<- *domain.N
 	return nil
 }
 // readDatagrams lit en continu les datagrammes sur la socket Unix et envoie les événements normalisés sur le canal.
 func (s *UnixSocketSource) readDatagrams(ctx context.Context, eventChan chan<- *domain.NormalizedEvent) {
 	buf := make([]byte, MaxDatagramSize)
@ -176,6 +177,7 @@ func (s *UnixSocketSource) readDatagrams(ctx context.Context, eventChan chan<- *
 	}
 }
 // resolveSource détermine la source d'un événement à partir du type déclaré ou de la présence d'en-têtes HTTP.
 func resolveSource(sourceType string, headers map[string]string) domain.EventSource {
 	switch strings.ToLower(strings.TrimSpace(sourceType)) {
 	case "a", "apache", "http":
@ -191,6 +193,7 @@ func resolveSource(sourceType string, headers map[string]string) domain.EventSou
 	}
 }
 // parseJSONEvent désérialise un datagramme JSON et construit un NormalizedEvent validé avec ses champs obligatoires.
 func parseJSONEvent(data []byte, sourceType string) (*domain.NormalizedEvent, error) {
 	var raw map[string]any
 	if err := json.Unmarshal(data, &raw); err != nil {
@ -298,6 +301,7 @@ func parseJSONEvent(data []byte, sourceType string) (*domain.NormalizedEvent, er
 	return event, nil
 }
 // getString extrait la valeur d'une clé sous forme de chaîne depuis une map JSON désérialisée.
 func getString(m map[string]any, key string) (string, bool) {
 	if v, ok := m[key]; ok {
 		if s, ok := v.(string); ok {
@ -307,6 +311,7 @@ func getString(m map[string]any, key string) (string, bool) {
 	return "", false
 }
 // getInt extrait la valeur d'une clé sous forme d'entier depuis une map JSON en gérant les conversions de types courants.
 func getInt(m map[string]any, key string) (int, bool) {
 	if v, ok := m[key]; ok {
 		switch val := v.(type) {
@ -328,6 +333,7 @@ func getInt(m map[string]any, key string) (int, bool) {
 	return 0, false
 }
 // getInt64 extrait la valeur d'une clé sous forme d'entier 64 bits depuis une map JSON en gérant les conversions de types courants.
 func getInt64(m map[string]any, key string) (int64, bool) {
 	if v, ok := m[key]; ok {
 		switch val := v.(type) {
--- a/services/correlator/internal/app/orchestrator.go
+++ b/services/correlator/internal/app/orchestrator.go
@ -103,6 +103,7 @@ func (o *Orchestrator) Start() error {
 	return nil
 }
 // processEvents lit les événements du canal, les soumet au service de corrélation et écrit les résultats dans le puits.
 func (o *Orchestrator) processEvents(eventChan <-chan *domain.NormalizedEvent) {
 	for {
 		select {
--- a/services/correlator/internal/domain/correlated_log.go
+++ b/services/correlator/internal/domain/correlated_log.go
@ -101,6 +101,7 @@ func NewCorrelatedLog(apacheEvent, networkEvent *NormalizedEvent) CorrelatedLog
 	}
 }
 // extractFields copie l'ensemble des champs bruts d'un événement dans une nouvelle map.
 func extractFields(e *NormalizedEvent) map[string]any {
 	result := make(map[string]any)
 	for k, v := range e.Raw {
@ -109,6 +110,7 @@ func extractFields(e *NormalizedEvent) map[string]any {
 	return result
 }
 // mergeFields fusionne les champs bruts de deux événements en préfixant les clés en collision par "a_" et "b_".
 func mergeFields(a, b *NormalizedEvent) map[string]any {
 	result := make(map[string]any)
@ -136,6 +138,7 @@ func mergeFields(a, b *NormalizedEvent) map[string]any {
 	return result
 }
 // coalesceString retourne la première chaîne non vide parmi les deux arguments.
 func coalesceString(a, b string) string {
 	if a != "" {
 		return a
@ -143,6 +146,7 @@ func coalesceString(a, b string) string {
 	return b
 }
 // coalesceInt retourne le premier entier non nul parmi les deux arguments.
 func coalesceInt(a, b int) int {
 	if a != 0 {
 		return a
--- a/services/correlator/internal/domain/correlation_service.go
+++ b/services/correlator/internal/domain/correlation_service.go
@ -74,6 +74,7 @@ type eventBuffer struct {
 	events *list.List
 }
 // newEventBuffer crée un nouveau tampon d'événements vide basé sur une liste doublement chaînée.
 func newEventBuffer() *eventBuffer {
 	return &eventBuffer{
 		events: list.New(),
@ -288,6 +289,7 @@ func (s *CorrelationService) ProcessEvent(event *NormalizedEvent) []CorrelatedLo
 	return results
 }
 // getBufferSize retourne la taille actuelle du tampon correspondant à la source donnée.
 func (s *CorrelationService) getBufferSize(source EventSource) int {
 	switch source {
 	case SourceA:
@ -298,6 +300,7 @@ func (s *CorrelationService) getBufferSize(source EventSource) int {
 	return 0
 }
 // isBufferFull vérifie si le tampon de la source donnée a atteint sa capacité maximale.
 func (s *CorrelationService) isBufferFull(source EventSource) bool {
 	switch source {
 	case SourceA:
@ -355,6 +358,7 @@ func (s *CorrelationService) rotateOldestB() {
 	delete(s.networkTTLs, elem)
 }
 // processSourceA traite un événement de source A (HTTP/Apache) et retourne les journaux corrélés ou les place en attente d'orphelins.
 func (s *CorrelationService) processSourceA(event *NormalizedEvent) ([]CorrelatedLog, bool) {
 	key := event.CorrelationKey()
 	// Assign Keep-Alive sequence number (1-based) for this connection
@ -457,6 +461,7 @@ func (s *CorrelationService) processSourceA(event *NormalizedEvent) ([]Correlate
 	return nil, true
 }
 // processSourceB traite un événement de source B (réseau) et retourne les journaux corrélés si une correspondance est trouvée.
 func (s *CorrelationService) processSourceB(event *NormalizedEvent) ([]CorrelatedLog, bool) {
 	key := event.CorrelationKey()
 	s.logger.Debugf("processing B event: key=%s timestamp=%v", key, event.Timestamp)
@ -511,6 +516,7 @@ func (s *CorrelationService) processSourceB(event *NormalizedEvent) ([]Correlate
 	return nil, true
 }
 // eventsMatch vérifie si deux événements se trouvent dans la fenêtre temporelle de corrélation configurée.
 func (s *CorrelationService) eventsMatch(a, b *NormalizedEvent) bool {
 	diff := a.Timestamp.Sub(b.Timestamp)
 	if diff < 0 {
@ -536,6 +542,7 @@ func (s *CorrelationService) bEventHasValidTTL(bEvent *NormalizedEvent) bool {
 	return false
 }
 // addEvent ajoute un événement au tampon correspondant à sa source et initialise son TTL réseau si nécessaire.
 func (s *CorrelationService) addEvent(event *NormalizedEvent) {
 	key := event.CorrelationKey()
@ -551,6 +558,7 @@ func (s *CorrelationService) addEvent(event *NormalizedEvent) {
 	}
 }
 // cleanExpired supprime les événements expirés des tampons et retourne les orphelins forcés par l'expiration du TTL réseau.
 func (s *CorrelationService) cleanExpired() []CorrelatedLog {
 	// Clean expired B events first - use TTL map only (not event timestamp)
 	// This is critical for Keep-Alive: TTL is reset on each correlation,
@ -693,6 +701,7 @@ func (s *CorrelationService) cleanNetworkBufferByTTL() []CorrelatedLog {
 	return forced
 }
 // findAndPopFirstMatch recherche et supprime le premier événement satisfaisant le critère dans le tampon.
 func (s *CorrelationService) findAndPopFirstMatch(
 	buffer *eventBuffer,
 	pending map[string][]*list.Element,
@ -908,6 +917,7 @@ func (s *CorrelationService) EmitPendingOrphans() []CorrelatedLog {
 	return s.emitPendingOrphans()
 }
 // removeElementFromSlice retire l'élément ciblé d'une tranche de list.Element sans modifier l'ordre.
 func removeElementFromSlice(elements []*list.Element, target *list.Element) []*list.Element {
 	if len(elements) == 0 {
 		return elements
--- a/services/correlator/internal/observability/logger.go
+++ b/services/correlator/internal/observability/logger.go
@ -4,8 +4,10 @@ package observability
 import jalogger "github.com/antitbone/ja4/ja4common/logger"
-// Type aliases — all existing correlator code compiles unchanged.
+// Logger est un alias du type Logger de ja4common pour la journalisation structurée.
 type Logger = jalogger.Logger
 // LogLevel est un alias du type LogLevel de ja4common pour le niveau de journalisation.
 type LogLevel = jalogger.LogLevel
 const (
--- a/services/correlator/scripts/audit-architecture.sh
+++ b/services/correlator/scripts/audit-architecture.sh
@ -1,4 +1,21 @@
-#!/bin/bash
+#!/usr/bin/env bash
 # =============================================================================
 # audit-architecture.sh — Vérifie la conformité de l'architecture du correlateur
 #
 # Ce script valide que les composants implémentés (service systemd, packaging RPM,
 # configuration YAML, sockets Unix, sinks de sortie, logique de corrélation) sont
 # présents et correctement configurés, conformément aux spécifications d'architecture.
 #
 # Usage:
 #   ./audit-architecture.sh
 #   docker run --rm -v $(pwd):/src <image> /src/scripts/audit-architecture.sh
 #
 # Prérequis:
 #   - Exécuté depuis le répertoire source /src du correlateur (ou monté en volume)
 #   - Les sources Go doivent être présentes (les checks sont basés sur grep)
 #
 # Variables d'environnement: aucune
 # =============================================================================
 set -e
 echo "=== AUDIT ARCHITECTURE COMPLIANCE ==="
--- a/services/dashboard/backend/init.py
+++ b/services/dashboard/backend/init.py
@ -1 +1 @@
-# Backend package
+"""Package principal du backend FastAPI bot-detector."""
--- a/services/dashboard/backend/config.py
+++ b/services/dashboard/backend/config.py
@ -5,6 +5,7 @@ from pydantic_settings import BaseSettings
 class Settings(BaseSettings):
    """Paramètres de configuration de l'application chargés depuis l'environnement."""
    # ClickHouse
    CLICKHOUSE_HOST: str = "clickhouse"
    CLICKHOUSE_PORT: int = 8123
@ -22,6 +23,7 @@ class Settings(BaseSettings):
    CORS_ORIGINS: list = ["http://localhost:3000", "http://127.0.0.1:3000"]
    class Config:
        """Configuration Pydantic pour le chargement du fichier .env."""
        env_file = ".env"
        case_sensitive = True
--- a/services/dashboard/backend/models.py
+++ b/services/dashboard/backend/models.py
@ -8,6 +8,7 @@ from enum import Enum
 class ThreatLevel(str, Enum):
    """Niveaux de menace supportés par le modèle de détection."""
    CRITICAL = "CRITICAL"
    HIGH = "HIGH"
    MEDIUM = "MEDIUM"
@ -19,6 +20,7 @@ class ThreatLevel(str, Enum):
 # ─────────────────────────────────────────────────────────────────────────────
 class MetricsSummary(BaseModel):
    """Résumé agrégé des métriques sur les dernières 24 heures."""
    total_detections: int
    critical_count: int
    high_count: int
@ -30,6 +32,7 @@ class MetricsSummary(BaseModel):
 class TimeSeriesPoint(BaseModel):
    """Point de série temporelle par heure pour les métriques."""
    hour: datetime
    total: int
    critical: int
@ -39,6 +42,7 @@ class TimeSeriesPoint(BaseModel):
 class MetricsResponse(BaseModel):
    """Réponse complète des métriques du dashboard avec série temporelle."""
    summary: MetricsSummary
    timeseries: List[TimeSeriesPoint]
    threat_distribution: Dict[str, int]
@ -49,6 +53,7 @@ class MetricsResponse(BaseModel):
 # ─────────────────────────────────────────────────────────────────────────────
 class Detection(BaseModel):
    """Représentation d'une détection d'anomalie émise par le modèle ML."""
    detected_at: datetime
    src_ip: str
    ja4: str
@ -82,6 +87,7 @@ class Detection(BaseModel):
 class DetectionsListResponse(BaseModel):
    """Liste paginée de détections d'anomalies."""
    items: List[Detection]
    total: int
    page: int
@ -94,6 +100,7 @@ class DetectionsListResponse(BaseModel):
 # ─────────────────────────────────────────────────────────────────────────────
 class AttributeValue(BaseModel):
    """Valeur d'attribut avec comptage, pourcentage et métadonnées temporelles."""
    value: str
    count: int
    percentage: float
@ -105,6 +112,7 @@ class AttributeValue(BaseModel):
 class VariabilityAttributes(BaseModel):
    """Ensemble des attributs de variabilité comportementale pour une entité."""
    user_agents: List[AttributeValue] = Field(default_factory=list)
    ja4: List[AttributeValue] = Field(default_factory=list)
    countries: List[AttributeValue] = Field(default_factory=list)
@ -115,11 +123,13 @@ class VariabilityAttributes(BaseModel):
 class Insight(BaseModel):
    """Message d'analyse contextuelle (alerte, information ou succès)."""
    type: str  # "warning", "info", "success"
    message: str
 class VariabilityResponse(BaseModel):
    """Réponse d'analyse de variabilité pour un attribut donné."""
    type: str
    value: str
    total_detections: int
@ -134,11 +144,13 @@ class VariabilityResponse(BaseModel):
 # ─────────────────────────────────────────────────────────────────────────────
 class AttributeListItem(BaseModel):
    """Élément de la liste des valeurs uniques d'un attribut avec son comptage."""
    value: str
    count: int
 class AttributeListResponse(BaseModel):
    """Réponse de la liste des valeurs uniques pour un type d'attribut."""
    type: str
    items: List[AttributeListItem]
    total: int
@ -149,6 +161,7 @@ class AttributeListResponse(BaseModel):
 # ─────────────────────────────────────────────────────────────────────────────
 class UserAgentValue(BaseModel):
    """Valeur de User-Agent avec comptage et plage temporelle d'observation."""
    value: str
    count: int
    percentage: float
@ -157,6 +170,7 @@ class UserAgentValue(BaseModel):
 class UserAgentsResponse(BaseModel):
    """Réponse de la liste des User-Agents associés à une entité."""
    type: str
    value: str
    user_agents: List[UserAgentValue]
@ -169,12 +183,14 @@ class UserAgentsResponse(BaseModel):
 # ─────────────────────────────────────────────────────────────────────────────
 class ClassificationLabel(str, Enum):
    """Étiquettes de classification SOC pour les IPs et fingerprints JA4."""
    LEGITIMATE = "legitimate"
    SUSPICIOUS = "suspicious"
    MALICIOUS = "malicious"
 class ClassificationBase(BaseModel):
    """Modèle de base partagé pour les classifications SOC."""
    ip: Optional[str] = None
    ja4: Optional[str] = None
    label: ClassificationLabel
@ -198,6 +214,7 @@ class Classification(ClassificationBase):
 class ClassificationsListResponse(BaseModel):
    """Liste paginée des classifications SOC enregistrées."""
    items: List[Classification]
    total: int
--- a/services/dashboard/backend/routes/init.py
+++ b/services/dashboard/backend/routes/init.py
@ -1 +1 @@
-# Routes package
+"""Package des routes FastAPI de l'API bot-detector."""
--- a/services/dashboard/backend/routes/analysis.py
+++ b/services/dashboard/backend/routes/analysis.py
@ -374,6 +374,7 @@ async def analyze_user_agents(ip: str):
        # Classification des UAs
        def classify_ua(ua: str) -> str:
            """Classe un User-Agent en 'bot', 'script', 'browser' ou 'unknown'."""
            ua_lower = ua.lower()
            if any(bot in ua_lower for bot in ['bot', 'crawler', 'spider', 'curl', 'wget', 'python', 'requests', 'scrapy']):
                return 'bot'
--- a/services/dashboard/backend/routes/botnets.py
+++ b/services/dashboard/backend/routes/botnets.py
@ -10,6 +10,7 @@ router = APIRouter(prefix="/api/botnets", tags=["botnets"])
 def _botnet_class(unique_countries: int) -> str:
    """Classifie un JA4 selon sa dispersion géographique."""
    if unique_countries > 100:
        return "global_botnet"
    if unique_countries > 20:
--- a/services/dashboard/backend/routes/clustering.py
+++ b/services/dashboard/backend/routes/clustering.py
@ -222,6 +222,7 @@ def _run_clustering_job(k: int, hours: int, sensitivity: float = 1.0) -> None:
                continue
            def avg_f(key: str, crows: list[dict] = cluster_rows[j]) -> float:
                """Calcule la moyenne flottante d'un champ numérique sur les lignes du cluster."""
                return float(np.mean([float(r.get(key) or 0) for r in crows]))
            mean_ttl   = avg_f("ttl")
@ -245,6 +246,7 @@ def _run_clustering_job(k: int, hours: int, sensitivity: float = 1.0) -> None:
            orgs      = [str(r.get("asn_org") or "") for r in cluster_rows[j] if r.get("asn_org")]
            def topk(lst: list[str], n: int = 5) -> list[str]:
                """Retourne les n valeurs les plus fréquentes d'une liste (valeurs vides exclues)."""
                return [v for v, _ in Counter(lst).most_common(n) if v]
            radar = [
--- a/services/dashboard/backend/routes/fingerprints.py
+++ b/services/dashboard/backend/routes/fingerprints.py
@ -489,6 +489,7 @@ async def get_ua_analysis(
 def _build_ua_risk_flags(ua: str, ua_type: str, unique_ja4s: int, ip_count: int) -> list:
    """Construit la liste des indicateurs de risque pour un User-Agent."""
    flags = []
    if ua_type == "bot":
        flags.append("ua_bot_signature")
--- a/services/dashboard/backend/routes/metrics.py
+++ b/services/dashboard/backend/routes/metrics.py
@ -144,6 +144,7 @@ async def get_metrics_baseline():
        row = r.result_rows[0] if r.result_rows else None
        def pct_change(today: int, yesterday: int) -> float:
            """Calcule la variation en pourcentage entre aujourd'hui et hier. Retourne 100 si hier=0 et aujourd'hui>0."""
            if yesterday == 0:
                return 100.0 if today > 0 else 0.0
            return round((today - yesterday) / yesterday * 100, 1)
--- a/services/dashboard/backend/routes/ml_features.py
+++ b/services/dashboard/backend/routes/ml_features.py
@ -11,6 +11,7 @@ router = APIRouter(prefix="/api/ml", tags=["ml_features"])
 def _attack_type(fuzzing_index: float, hit_velocity: float,
                 is_fake_nav: int, ua_ch_mismatch: int) -> str:
    """Déduit le type d'attaque depuis les métriques comportementales."""
    if fuzzing_index > 50:
        return "brute_force"
    if hit_velocity > 1.0:
@ -113,6 +114,7 @@ async def get_ip_radar(ip: str):
        row = result.result_rows[0]
        def _f(v) -> float:
            """Convertit une valeur nullable en float (None ou falsy → 0.0)."""
            return float(v or 0)
        return {
--- a/shared/python/ja4_common/ja4_common/clickhouse.py
+++ b/shared/python/ja4_common/ja4_common/clickhouse.py
@ -1,4 +1,4 @@
-"""Unified singleton ClickHouse client for the JA4 security suite."""
+"""Client ClickHouse singleton partagé pour la suite de sécurité JA4."""
 import clickhouse_connect
 from typing import Optional
@ -6,10 +6,19 @@ from .settings import settings
 class ClickHouseClient:
    """Client ClickHouse singleton avec reconnexion automatique.
    Attributs :
        _client : instance du client clickhouse_connect sous-jacent,
                  ou None si la connexion n'est pas encore établie.
    """
    def __init__(self):
        """Initialise le client sans ouvrir de connexion immédiate."""
        self._client: Optional[clickhouse_connect.driver.client.Client] = None
    def connect(self) -> clickhouse_connect.driver.client.Client:
        """Retourne un client connecté, en créant ou rétablissant la connexion si nécessaire."""
        if self._client is None or not self._ping():
            self._client = clickhouse_connect.get_client(
                host=settings.CLICKHOUSE_HOST,
@ -22,6 +31,7 @@ class ClickHouseClient:
        return self._client
    def _ping(self) -> bool:
        """Vérifie que la connexion existante est active. Retourne False en cas d'erreur."""
        try:
            if self._client:
                self._client.ping()
@ -31,15 +41,19 @@ class ClickHouseClient:
        return False
    def query(self, query: str, params: Optional[dict] = None):
        """Exécute une requête SELECT et retourne le résultat."""
        return self.connect().query(query, params)
    def command(self, query: str, params: Optional[dict] = None):
        """Exécute une commande DDL/DML (INSERT, CREATE, TRUNCATE, etc.)."""
        return self.connect().command(query, parameters=params)
    def insert(self, table: str, data, column_names=None):
        """Insère des données dans la table cible."""
        return self.connect().insert(table, data, column_names=column_names)
    def close(self):
        """Ferme la connexion et réinitialise le client interne."""
        if self._client:
            self._client.close()
            self._client = None
@ -49,6 +63,7 @@ _client: Optional[ClickHouseClient] = None
 def get_client() -> ClickHouseClient:
    """Retourne l'instance singleton du ClickHouseClient, en la créant si nécessaire."""
    global _client
    if _client is None:
        _client = ClickHouseClient()
--- a/shared/python/ja4_common/ja4_common/settings.py
+++ b/shared/python/ja4_common/ja4_common/settings.py
@ -1,8 +1,19 @@
-"""Unified ClickHouse settings using pydantic-settings."""
+"""Paramètres de connexion ClickHouse centralisés, chargés depuis les variables d'environnement."""
 from pydantic_settings import BaseSettings
 class ClickHouseSettings(BaseSettings):
    """Paramètres de connexion ClickHouse lus depuis l'environnement ou un fichier .env.
    Attributs :
        CLICKHOUSE_HOST     : hôte du serveur ClickHouse.
        CLICKHOUSE_PORT     : port HTTP de l'API ClickHouse (défaut 8123).
        CLICKHOUSE_DB       : base de données de connexion par défaut.
        CLICKHOUSE_DB_LOGS  : base de données des logs bruts.
        CLICKHOUSE_DB_PROCESSING : base de données de traitement analytique.
        CLICKHOUSE_USER     : nom d'utilisateur.
        CLICKHOUSE_PASSWORD : mot de passe (chaîne vide si aucun).
    """
    CLICKHOUSE_HOST: str = "clickhouse"
    CLICKHOUSE_PORT: int = 8123
    CLICKHOUSE_DB: str = "ja4_processing"  # default connection database
`@ -1 +1 @@`
	`# Backend package`	`"""Package principal du backend FastAPI bot-detector."""`
`@ -1 +1 @@`
	`# Routes package`	`"""Package des routes FastAPI de l'API bot-detector."""`