docs: update thesis and docs with Cleanlab label filtering integration

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
Jacquin Antoine
2026-04-13 02:19:46 +02:00
parent 9d27abf43c
commit 6e5eb38efd
3 changed files with 38 additions and 4 deletions

View File

@ -161,7 +161,7 @@ Le bot-detector utilise trois modèles en parallèle, combinés par une pondéra
┌──────────────────────┐ │
│ XGBoost │ ├──→ anomaly_score
│ (supervisé, labels │──→ xgb_prob (01)
│ SOC) × XGB_WEIGHT
│ SOC + Cleanlab)× XGB_WEIGHT
└──────────────────────┘
```
@ -229,7 +229,7 @@ dim2 = min(32, max(dim1 // 2, latent_dim + 2))
### XGBoost (supervisé)
Entraîné sur les labels issus du feedback SOC (table `soc_feedback`) :
Entraîné sur les labels issus du feedback SOC (table `soc_feedback`), filtrés par Cleanlab :
```python
xgb.XGBClassifier(
@ -248,6 +248,7 @@ xgb.XGBClassifier(
- Labels négatifs (légitime) : `NORMAL`, `LEGITIMATE_BROWSER`
- Activation requiert ≥ `XGB_MIN_LABELS` (100) labels
- Réentraînement tous les `XGB_RETRAIN_INTERVAL_HOURS` (168h = 7 jours)
- **Filtrage Cleanlab** : avant l'entraînement, un XGBoost rapide (80 arbres, 3-fold CV) produit des `pred_probs` qui alimentent `cleanlab.filter.find_label_issues()`. Les exemples identifiés comme bruités sont exclus du jeu d'entraînement. En cas d'échec, les labels bruts sont conservés.
---