|
|
185518fd92
|
feat(clustering): limites sensibilité et k étendues pour classification maximale
Backend:
- k max: 30 → 100 (Query le=100), default: 14 → 20
- sensitivity max: 3.0 → 5.0 (Query le=5.0)
- k_actual cap: min(50,...) → min(300,...) — plus de coupure silencieuse
- n_init adaptatif: 3 quand k≤60, 1 quand k>60 (maintient performance)
- Résultat max effectif: k=100 × sens=5.0 = 500, plafonné à 300 clusters
Frontend:
- Slider sensibilité: max 3.0 → 5.0, step 0.5
- Libellés: Grossière/Normale/Fine/Très fine/Maximale/Extrême
- Label affiche '(N clusters effectifs)' au lieu de '(N clusters)'
- Slider k avancé: max 30 → 100
- Label k avancé: 'k → N clusters effectifs' (montre le résultat réel)
- Default k: 14 → 20
Test: k=20 × sens=5.0 = 100 clusters, Scanner pur detecté à 0.43, Bot UA simulé 0.38
Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>
|
2026-03-19 11:20:11 +01:00 |
|
|
|
6ff59a36d7
|
feat(clustering): intégration Fingerprint HTTP Headers (agg_header_fingerprint_1h)
Sources des nouvelles features :
- agg_header_fingerprint_1h : Cookie, Referer par src_ip (JOIN sur IPv6)
- ml_detected_anomalies : header_order_shared_count, distinct_header_orders (déjà jointé)
Nouvelles features (indices 27-30) :
[27] FP Popularité : popularité du fingerprint headers (log1p/log1p(500k))
fingerprint rare (bot artisanal) → 0.0 ; très populaire (browser) → 1.0
[28] FP Rotation : distinct_header_orders (log1p/log1p(10))
rotation de fingerprint entre requêtes = comportement bot
[29] Cookie Présent : présence header Cookie (engagement utilisateur réel)
[30] Referer Présent: présence header Referer (navigation HTTP normale)
risk_score_from_centroid() : 14 termes, somme=1.0
+ hfp_rare (1-popularité) × 0.06 + hfp_rotating × 0.06
ML × 0.25 reste dominant
name_cluster() : 2 nouveaux labels
'🔄 Bot fingerprint tournant' : hfp_rotating>0.6 + anomalie>0.15
'🕵️ Fingerprint rare suspect' : hfp_popular<0.15 + anomalie>0.20
'🌐 Navigateur légitime' : fingerprint populaire confirmé
N_FEATURES : 27 → 31
Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>
|
2026-03-19 11:13:37 +01:00 |
|
|
|
8fb054c8b7
|
feat(clustering): ajout features headers HTTP (Accept-Language, Accept-Encoding, Sec-Fetch, nb headers)
- SQL: LEFT JOIN sur view_dashboard_entities pour extraire la présence des headers
Accept-Encoding, Sec-Fetch-* et le nombre de headers par src_ip/ja4 (via subquery)
- SQL: ajout avg(ml.has_accept_language) depuis ml_detected_anomalies
- FEATURES: 23 → 27 dimensions
[23] Accept-Language (0=absent=bot-like)
[24] Accept-Encoding (0=absent=bot-like)
[25] Sec-Fetch-* (1=vrai navigateur)
[26] Nb Headers (normalisé /20; 3=bot, 15=browser)
- risk_score_from_centroid(): poids réajustés (somme=1.0), 4 nouveaux termes header
absence Accept-Language ×0.05, absence Accept-Encoding ×0.05,
absence Sec-Fetch ×0.04, peu de headers ×0.04
- name_cluster(): nouveau label 'Bot UA simulé' (ua_ch mismatch + sec_fetch absent)
et 'Scanner pur (no headers)' + 'Navigateur légitime' + 'Headless (no Sec-Fetch)'
- Fix: %% dans les LIKE ClickHouse (échappement paramètres Python %-format)
Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>
|
2026-03-19 11:04:08 +01:00 |
|
|
|
f456c807db
|
feat(clustering): ASN + country risk features, fix risk scoring and cluster labels
- Add country_risk() feature (index 21): lookup table 30 pays, CN/RU/KP=1.0, US/DE=0.1
- Add asn_cloud_score() feature (index 22): 50+ keyword match (cloud/CDN/VPN/crawler)
- N_FEATURES: 20 → 23 (SQL query extended with country + asn_org columns)
- Fix centroids_orig: denormalize K-means z-score centroids to [0,1] for display
- Update risk_score_from_centroid(): weights 0.30 ML + 0.12 fuzzing + 0.12 UA-CH
+ 0.12 country_risk + 0.10 asn_cloud (total=1.0)
- Update name_cluster(): new labels 'Source pays risqué', 'Bot cloud UA-CH',
'Infrastructure cloud'; thresholds lowered for better sensitivity
- Risk scores now discriminate: pays risqué 0.35, bot cloud 0.23-0.28, sain 0.06
Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>
|
2026-03-19 10:15:21 +01:00 |
|
|
|
fc3392779b
|
feat: slider sensibilité + z-score standardization pour clustering plus précis
Sensibilité (0.5x–3.0x) :
- Multiplie k : sensibilité=2x avec k=14 → 28 clusters effectifs
- Labels UI : Grossière / Normale / Fine / Très fine / Maximum
- Paramètres avancés (k, fenêtre) masqués dans un <details>
- Cache invalidé si sensibilité change
Z-score standardisation (Bishop 2006 PRML §9.1) :
- Normalise par variance de chaque feature avant K-means
- Features discriminantes (forte std) pèsent plus
- Résultat : risque 0→1.00 sur clusters bots vs 0→0.27 avant
- Bots détectés : 4 337 IPs vs 1 604 (2.7x plus)
- Nouveaux clusters : Bot agressif, Tunnel réseau, UA-CH Mismatch distincts
Fix TextLayer deck.gl :
- Translittération des accents (é→e, à→a, ç→c…) + strip emojis
- Évite les warnings 'Missing character' sur caractères non-ASCII
Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>
|
2026-03-19 10:07:23 +01:00 |
|
|
|
08054cb571
|
fix: bulles plus petites + viewport auto-fit avec padding 18%
- Backend: radius = log1p(ip_count)*2.2 au lieu de sqrt*2 (max 30px vs 80px)
ex: 60K IPs → 24px, 1K IPs → 15px, 100 IPs → 10px
- Frontend: zoom initial -0.5 (vue dézoomée par défaut)
- Fit viewport basé sur dimensions réelles canvas - panneaux latéraux
- Padding 18% autour de l'étendue des données pour éviter le débord
Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>
|
2026-03-19 09:50:41 +01:00 |
|
|
|
b2c3379aa0
|
feat: WebGL clustering (deck.gl) + K-means++ sur toutes les IPs (183K)
- Ajout numpy + scipy à requirements.txt (K-means vectorisé, convex hull)
- Réécriture clustering_engine.py :
* K-means++ entièrement vectorisé numpy (100x plus rapide que pur Python)
* PCA-2D par power iteration (numpy)
* Enveloppes convexes par cluster via scipy.spatial.ConvexHull
* Traitement des probabilités nulles (points dupliqués) en K-means++ init
- Réécriture clustering.py :
* Calcul sur la TOTALITÉ des IPs (sans LIMIT) : 183K IPs, 16.8 MB features
* Computation en background thread (ThreadPoolExecutor) + cache 30 min
* Endpoint /api/clustering/status pour polling frontend
* Endpoint /api/clustering/cluster/{id}/points (coordonnées PCA pour WebGL)
- Réécriture ClusteringView.tsx en WebGL (deck.gl) :
* PolygonLayer : enveloppes convexes colorées par niveau de menace
* ScatterplotLayer centroïdes : taille ∝ sqrt(ip_count)
* ScatterplotLayer IPs : chargé sur sélection (LOD), GPU-accelerated
* TextLayer : labels (emojis strippés — non supportés par bitmap font)
* LineLayer : arêtes inter-clusters (optionnel)
* OrthographicView avec pan/zoom natif
* Sidebar : radar 21 features, pagination IPs, export CSV
* Polling automatique toutes les 3s pendant le calcul
- Ajout @deck.gl/react @deck.gl/core @deck.gl/layers à package.json
Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>
|
2026-03-19 09:40:27 +01:00 |
|
|
|
e2db8ca84e
|
feat: clustering multi-métriques + TCP fingerprinting amélioré
- TCP fingerprinting: 20 signatures OS (p0f-style), scoring multi-signal
TTL/MSS/scale/fenêtre, détection Masscan 97% confiance, réseau path
(Ethernet/PPPoE/VPN/Tunnel), estimation hop-count
- Clustering IPs: K-means++ (Arthur & Vassilvitskii 2007) sur 21 features
TCP stack + anomalie ML + TLS/protocole + navigateur + temporel
PCA-2D par puissance itérative (Hotelling) pour positionnement
- Visualisation redesign: 2 vues lisibles
- Tableau de bord: grille de cartes groupées par niveau de risque
(Bots / Suspects / Légitimes), métriques clés + mini-barres
- Graphe de relations: ReactFlow avec nœuds-cartes en colonnes
par niveau de menace, arêtes colorées par similarité, légende
- Sidebar: RadarChart comportemental + toutes métriques + export CSV
Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>
|
2026-03-18 18:22:57 +01:00 |
|