docs: update thesis and docs with Cleanlab label filtering integration

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
2026-04-13 02:19:46 +02:00
parent 9d27abf43c
commit 6e5eb38efd
3 changed files with 38 additions and 4 deletions
--- a/docs/services/bot-detector.md
+++ b/docs/services/bot-detector.md
@ -161,7 +161,7 @@ Le bot-detector utilise trois modèles en parallèle, combinés par une pondéra
                  ┌──────────────────────┐        │
                  │  XGBoost             │        ├──→ anomaly_score
                  │  (supervisé, labels  │──→ xgb_prob  (0–1)
-                  │   SOC)               │   × XGB_WEIGHT
+                  │   SOC + Cleanlab)    │   × XGB_WEIGHT
                  └──────────────────────┘
 ```

@ -229,7 +229,7 @@ dim2 = min(32, max(dim1 // 2, latent_dim + 2))

 ### XGBoost (supervisé)

-Entraîné sur les labels issus du feedback SOC (table `soc_feedback`) :
+Entraîné sur les labels issus du feedback SOC (table `soc_feedback`), filtrés par Cleanlab :

 ```python
 xgb.XGBClassifier(
@ -248,6 +248,7 @@ xgb.XGBClassifier(
 - Labels négatifs (légitime) : `NORMAL`, `LEGITIMATE_BROWSER`
 - Activation requiert ≥ `XGB_MIN_LABELS` (100) labels
 - Réentraînement tous les `XGB_RETRAIN_INTERVAL_HOURS` (168h = 7 jours)
+- **Filtrage Cleanlab** : avant l'entraînement, un XGBoost rapide (80 arbres, 3-fold CV) produit des `pred_probs` qui alimentent `cleanlab.filter.find_label_issues()`. Les exemples identifiés comme bruités sont exclus du jeu d'entraînement. En cas d'échec, les labels bruts sont conservés.

 ---