dashboard

Author	SHA1	Message	Date
SOC Analyst	185518fd92	feat(clustering): limites sensibilité et k étendues pour classification maximale Backend: - k max: 30 → 100 (Query le=100), default: 14 → 20 - sensitivity max: 3.0 → 5.0 (Query le=5.0) - k_actual cap: min(50,...) → min(300,...) — plus de coupure silencieuse - n_init adaptatif: 3 quand k≤60, 1 quand k>60 (maintient performance) - Résultat max effectif: k=100 × sens=5.0 = 500, plafonné à 300 clusters Frontend: - Slider sensibilité: max 3.0 → 5.0, step 0.5 - Libellés: Grossière/Normale/Fine/Très fine/Maximale/Extrême - Label affiche '(N clusters effectifs)' au lieu de '(N clusters)' - Slider k avancé: max 30 → 100 - Label k avancé: 'k → N clusters effectifs' (montre le résultat réel) - Default k: 14 → 20 Test: k=20 × sens=5.0 = 100 clusters, Scanner pur detecté à 0.43, Bot UA simulé 0.38 Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>	2026-03-19 11:20:11 +01:00
SOC Analyst	6ff59a36d7	feat(clustering): intégration Fingerprint HTTP Headers (agg_header_fingerprint_1h) Sources des nouvelles features : - agg_header_fingerprint_1h : Cookie, Referer par src_ip (JOIN sur IPv6) - ml_detected_anomalies : header_order_shared_count, distinct_header_orders (déjà jointé) Nouvelles features (indices 27-30) : [27] FP Popularité : popularité du fingerprint headers (log1p/log1p(500k)) fingerprint rare (bot artisanal) → 0.0 ; très populaire (browser) → 1.0 [28] FP Rotation : distinct_header_orders (log1p/log1p(10)) rotation de fingerprint entre requêtes = comportement bot [29] Cookie Présent : présence header Cookie (engagement utilisateur réel) [30] Referer Présent: présence header Referer (navigation HTTP normale) risk_score_from_centroid() : 14 termes, somme=1.0 + hfp_rare (1-popularité) × 0.06 + hfp_rotating × 0.06 ML × 0.25 reste dominant name_cluster() : 2 nouveaux labels '🔄 Bot fingerprint tournant' : hfp_rotating>0.6 + anomalie>0.15 '🕵️ Fingerprint rare suspect' : hfp_popular<0.15 + anomalie>0.20 '🌐 Navigateur légitime' : fingerprint populaire confirmé N_FEATURES : 27 → 31 Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>	2026-03-19 11:13:37 +01:00
SOC Analyst	8fb054c8b7	feat(clustering): ajout features headers HTTP (Accept-Language, Accept-Encoding, Sec-Fetch, nb headers) - SQL: LEFT JOIN sur view_dashboard_entities pour extraire la présence des headers Accept-Encoding, Sec-Fetch-* et le nombre de headers par src_ip/ja4 (via subquery) - SQL: ajout avg(ml.has_accept_language) depuis ml_detected_anomalies - FEATURES: 23 → 27 dimensions [23] Accept-Language (0=absent=bot-like) [24] Accept-Encoding (0=absent=bot-like) [25] Sec-Fetch-* (1=vrai navigateur) [26] Nb Headers (normalisé /20; 3=bot, 15=browser) - risk_score_from_centroid(): poids réajustés (somme=1.0), 4 nouveaux termes header absence Accept-Language ×0.05, absence Accept-Encoding ×0.05, absence Sec-Fetch ×0.04, peu de headers ×0.04 - name_cluster(): nouveau label 'Bot UA simulé' (ua_ch mismatch + sec_fetch absent) et 'Scanner pur (no headers)' + 'Navigateur légitime' + 'Headless (no Sec-Fetch)' - Fix: %% dans les LIKE ClickHouse (échappement paramètres Python %-format) Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>	2026-03-19 11:04:08 +01:00
SOC Analyst	f456c807db	feat(clustering): ASN + country risk features, fix risk scoring and cluster labels - Add country_risk() feature (index 21): lookup table 30 pays, CN/RU/KP=1.0, US/DE=0.1 - Add asn_cloud_score() feature (index 22): 50+ keyword match (cloud/CDN/VPN/crawler) - N_FEATURES: 20 → 23 (SQL query extended with country + asn_org columns) - Fix centroids_orig: denormalize K-means z-score centroids to [0,1] for display - Update risk_score_from_centroid(): weights 0.30 ML + 0.12 fuzzing + 0.12 UA-CH + 0.12 country_risk + 0.10 asn_cloud (total=1.0) - Update name_cluster(): new labels 'Source pays risqué', 'Bot cloud UA-CH', 'Infrastructure cloud'; thresholds lowered for better sensitivity - Risk scores now discriminate: pays risqué 0.35, bot cloud 0.23-0.28, sain 0.06 Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>	2026-03-19 10:15:21 +01:00
SOC Analyst	fc3392779b	feat: slider sensibilité + z-score standardization pour clustering plus précis Sensibilité (0.5x–3.0x) : - Multiplie k : sensibilité=2x avec k=14 → 28 clusters effectifs - Labels UI : Grossière / Normale / Fine / Très fine / Maximum - Paramètres avancés (k, fenêtre) masqués dans un <details> - Cache invalidé si sensibilité change Z-score standardisation (Bishop 2006 PRML §9.1) : - Normalise par variance de chaque feature avant K-means - Features discriminantes (forte std) pèsent plus - Résultat : risque 0→1.00 sur clusters bots vs 0→0.27 avant - Bots détectés : 4 337 IPs vs 1 604 (2.7x plus) - Nouveaux clusters : Bot agressif, Tunnel réseau, UA-CH Mismatch distincts Fix TextLayer deck.gl : - Translittération des accents (é→e, à→a, ç→c…) + strip emojis - Évite les warnings 'Missing character' sur caractères non-ASCII Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>	2026-03-19 10:07:23 +01:00
SOC Analyst	08054cb571	fix: bulles plus petites + viewport auto-fit avec padding 18% - Backend: radius = log1p(ip_count)2.2 au lieu de sqrt2 (max 30px vs 80px) ex: 60K IPs → 24px, 1K IPs → 15px, 100 IPs → 10px - Frontend: zoom initial -0.5 (vue dézoomée par défaut) - Fit viewport basé sur dimensions réelles canvas - panneaux latéraux - Padding 18% autour de l'étendue des données pour éviter le débord Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>	2026-03-19 09:50:41 +01:00
SOC Analyst	b2c3379aa0	feat: WebGL clustering (deck.gl) + K-means++ sur toutes les IPs (183K) - Ajout numpy + scipy à requirements.txt (K-means vectorisé, convex hull) - Réécriture clustering_engine.py : * K-means++ entièrement vectorisé numpy (100x plus rapide que pur Python) * PCA-2D par power iteration (numpy) * Enveloppes convexes par cluster via scipy.spatial.ConvexHull * Traitement des probabilités nulles (points dupliqués) en K-means++ init - Réécriture clustering.py : * Calcul sur la TOTALITÉ des IPs (sans LIMIT) : 183K IPs, 16.8 MB features * Computation en background thread (ThreadPoolExecutor) + cache 30 min * Endpoint /api/clustering/status pour polling frontend * Endpoint /api/clustering/cluster/{id}/points (coordonnées PCA pour WebGL) - Réécriture ClusteringView.tsx en WebGL (deck.gl) : * PolygonLayer : enveloppes convexes colorées par niveau de menace * ScatterplotLayer centroïdes : taille ∝ sqrt(ip_count) * ScatterplotLayer IPs : chargé sur sélection (LOD), GPU-accelerated * TextLayer : labels (emojis strippés — non supportés par bitmap font) * LineLayer : arêtes inter-clusters (optionnel) * OrthographicView avec pan/zoom natif * Sidebar : radar 21 features, pagination IPs, export CSV * Polling automatique toutes les 3s pendant le calcul - Ajout @deck.gl/react @deck.gl/core @deck.gl/layers à package.json Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>	2026-03-19 09:40:27 +01:00
SOC Analyst	e2db8ca84e	feat: clustering multi-métriques + TCP fingerprinting amélioré - TCP fingerprinting: 20 signatures OS (p0f-style), scoring multi-signal TTL/MSS/scale/fenêtre, détection Masscan 97% confiance, réseau path (Ethernet/PPPoE/VPN/Tunnel), estimation hop-count - Clustering IPs: K-means++ (Arthur & Vassilvitskii 2007) sur 21 features TCP stack + anomalie ML + TLS/protocole + navigateur + temporel PCA-2D par puissance itérative (Hotelling) pour positionnement - Visualisation redesign: 2 vues lisibles - Tableau de bord: grille de cartes groupées par niveau de risque (Bots / Suspects / Légitimes), métriques clés + mini-barres - Graphe de relations: ReactFlow avec nœuds-cartes en colonnes par niveau de menace, arêtes colorées par similarité, légende - Sidebar: RadarChart comportemental + toutes métriques + export CSV Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>	2026-03-18 18:22:57 +01:00

8 Commits