Complete implementation of HTTP/2 passive fingerprinting per thesis §2.5.3: mod-reqin-log (C module): - Replace connection-level filter with ap_hook_process_connection (APR_HOOK_FIRST) to capture H2 preface before mod_http2 takes over the connection - AP_MODE_SPECULATIVE read of 512 bytes from c->input_filters - Parse SETTINGS, WINDOW_UPDATE, PRIORITY flags, pseudo-header order - Output individual SETTINGS params as separate JSON fields (IDs 1-6, 8) - Read H2 notes from c1 (master connection) for mod_http2 secondary conns - Fix header_order_signature JSON length bug (26→strlen) ClickHouse schema: - Add 8 new columns to http_logs: h2_has_priority, h2_header_table_size, h2_enable_push, h2_max_concurrent_streams, h2_initial_window_size, h2_max_frame_size, h2_max_header_list_size, h2_enable_connect_protocol - Use Int32/Int64 with DEFAULT -1 to distinguish absent vs zero - Update mv_http_logs to extract individual fields via JSONHas/JSONExtractInt - Migration 04_http2_fields.sql updated for existing deployments Correlator: - Accept both timestamp_ns and timestamp field names (backward compat) Integration: - Enable HTTP/2 in Apache: Protocols h2 http/1.1 in httpd-integration.conf Validated end-to-end via Playwright: H2 curl traffic → mod-reqin-log → correlator → ClickHouse with all 12 H2 columns populated correctly. Co-authored-by: Copilot <223556219+Copilot@users.noreply.github.com>
Schéma ClickHouse — ja4-platform
Ce répertoire contient les 13 fichiers SQL définissant le schéma complet de la plateforme. Le schéma utilise un patron double-base :
ja4_logs— ingestion brute et logs HTTP parsésja4_processing— agrégations, ML, vues, dictionnaires, audit
Les noms de base sont configurables via variables d'environnement
(CLICKHOUSE_DB_LOGS, CLICKHOUSE_DB_PROCESSING).
Fichiers SQL
Appliquer dans l'ordre numérique :
| Fichier | Contenu |
|---|---|
00_database.sql |
Création des bases ja4_logs et ja4_processing |
01_raw_tables.sql |
Table d'ingestion http_logs_raw |
02_dictionaries.sql |
Dictionnaire dict_iplocate_asn, tables ref_bot_networks, bot_ip, bot_ja4 |
03_anubis_tables.sql |
Tables de règles Anubis (anubis_ip_rules, anubis_asn_rules) et dictionnaires (dict_anubis_ip, dict_anubis_asn) |
04_mv_http_logs.sql |
Table http_logs + vue matérialisée mv_http_logs (parse JSON + enrichissement Anubis IP→ASN) |
05_aggregation_tables.sql |
Dictionnaires de réputation (dict_bot_ip, dict_bot_ja4, dict_browser_ja4, dict_asn_reputation) + tables d'agrégation + MVs |
06_ml_tables.sql |
Tables ML (ml_detected_anomalies, ml_all_scores) + vue view_ip_recurrence |
07_ai_features_view.sql |
Vue view_ai_features_1h (~65+ features ML) |
08_users.sql |
Utilisateurs data_writer et analyst avec permissions |
09_audit_table.sql |
Table audit_logs pour le journal d'audit SOC |
10_perf_indexes.sql |
Index secondaires et projections de performance |
11_views.sql |
Vues dashboard (entités, user-agents, force brute, rotation JA4, cascade) |
12_thesis_features.sql |
Tables d'agrégation thèse (§5) + vue view_thesis_features_1h |
Déploiement
Méthode recommandée
Utiliser deploy_schema.sh qui applique les 13 fichiers avec substitution
automatique des noms de base :
./deploy_schema.sh
# Ou avec configuration personnalisée :
CLICKHOUSE_DB_LOGS=my_logs \
CLICKHOUSE_DB_PROCESSING=my_proc \
CLICKHOUSE_HOST=clickhouse-server \
CLICKHOUSE_PASSWORD='secret' \
./deploy_schema.sh
Application manuelle
for f in 0*.sql 1*.sql; do
clickhouse-client --multiquery < "$f"
done
Prérequis
- ClickHouse 24.8+ (support
deduplicate_merge_projection_mode) - Fichiers CSV dans
/var/lib/clickhouse/user_files/:iplocate-ip-to-asn.csv— correspondance IP→ASN (~714K entrées)bot_ip.csv— préfixes IP de bots connus (~3,5K CIDR)bot_ja4.csv— empreintes JA4 de bots (~31 entrées)browser_ja4.csv— empreintes JA4 de navigateurs (~1,2K entrées)asn_reputation.csv— labels de réputation ASN (~82K entrées)
- Mots de passe Anubis : remplacer
CHANGE_MEdans03_anubis_tables.sql
Notes
- Toutes les migrations sont idempotentes (
IF NOT EXISTS/CREATE OR REPLACE). 04_mv_http_logs.sqlest la version canonique de la vue matérialisée.- Les références inter-bases existent : les MVs dans
ja4_processinglisent depuisja4_logs.http_logs. - Documentation complète :
docs/database/schema.mdetdocs/database/migrations.md.