Prédiction de l'Innovation Scientifique par Modélisation Hypergraphique et IA
Reproduction, extension et amélioration d'un modèle hypergraphique publié dans Nature Communications pour mesurer l'innovation dans …
Ce projet aborde la compétition Kaggle BirdCLEF+ 2026 : identifier 234 espèces d'oiseaux, d'amphibiens et d'insectes à partir de fenêtres de 5 secondes d'enregistrements de terrain bruités, évaluées en macro ROC-AUC.
Le défi central était le décalage de domaine (domain shift) : les données d'entraînement sont des enregistrements focaux propres, tandis que le jeu de test est constitué de paysages sonores denses et bruités provenant d'un environnement acoustique différent. Une deuxième contrainte forte concernait le déploiement : les soumissions doivent s'exécuter uniquement sur CPU, en moins de 90 minutes.
Mon approche combinait deux signaux complémentaires : un modèle de fondation Perch v2 gelé (utilisé comme extracteur de caractéristiques avec des sondes de régression logistique et des priors de métadonnées) fusionné avec un CNN EfficientNetV2-B0 entraîné sur mesure sur des mel-spectrogrammes. Pour attaquer directement le décalage de domaine, j'ai intégré des données de paysages sonores étiquetées dans l'entraînement via une validation croisée à 3 plis, garantissant une validation honnête sans fuite de données.
Décisions techniques clés : validation GroupKFold sans fuite, focal loss pour le déséquilibre des classes, gestion rigoureuse du temps d'inférence CPU (analyse comparative d'ONNX, bfloat16 et JIT, en découvrant empiriquement quelles optimisations aidaient réellement ou nuisaient), et un mélange de probabilités ajusté entre les deux familles de modèles.
Résultat final : un score de 0,912 macro ROC-AUC sur le classement privé, améliorant la référence publique de 0,899. Ce projet a été un exercice de travail sous contraintes de production réalistes non pas seulement maximiser la précision, mais l'équilibrer face à des limites strictes de latence et de matériel.