docs: update thesis and docs with Cleanlab label filtering integration
Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
This commit is contained in:
@ -161,7 +161,7 @@ Le bot-detector utilise trois modèles en parallèle, combinés par une pondéra
|
||||
┌──────────────────────┐ │
|
||||
│ XGBoost │ ├──→ anomaly_score
|
||||
│ (supervisé, labels │──→ xgb_prob (0–1)
|
||||
│ SOC) │ × XGB_WEIGHT
|
||||
│ SOC + Cleanlab) │ × XGB_WEIGHT
|
||||
└──────────────────────┘
|
||||
```
|
||||
|
||||
@ -229,7 +229,7 @@ dim2 = min(32, max(dim1 // 2, latent_dim + 2))
|
||||
|
||||
### XGBoost (supervisé)
|
||||
|
||||
Entraîné sur les labels issus du feedback SOC (table `soc_feedback`) :
|
||||
Entraîné sur les labels issus du feedback SOC (table `soc_feedback`), filtrés par Cleanlab :
|
||||
|
||||
```python
|
||||
xgb.XGBClassifier(
|
||||
@ -248,6 +248,7 @@ xgb.XGBClassifier(
|
||||
- Labels négatifs (légitime) : `NORMAL`, `LEGITIMATE_BROWSER`
|
||||
- Activation requiert ≥ `XGB_MIN_LABELS` (100) labels
|
||||
- Réentraînement tous les `XGB_RETRAIN_INTERVAL_HOURS` (168h = 7 jours)
|
||||
- **Filtrage Cleanlab** : avant l'entraînement, un XGBoost rapide (80 arbres, 3-fold CV) produit des `pred_probs` qui alimentent `cleanlab.filter.find_label_issues()`. Les exemples identifiés comme bruités sont exclus du jeu d'entraînement. En cas d'échec, les labels bruts sont conservés.
|
||||
|
||||
---
|
||||
|
||||
|
||||
Reference in New Issue
Block a user