AImyBee : Constitution d’une base de données d’images d’hyménoptères identifiées à l’espèce pour le développement d’algorithmes d’apprentissage profond
Le développement exponentiel de l’activité humaine au cours des deux derniers siècles a profondément modifié l’environnement dans lequel nous vivons. En particulier le changement d’utilisation des sols, l’utilisation intensive de biocides combinés au réchauffement climatique jouent un rôle majeur dans le déclin de la biodiversité observé mondialement. Les insectes pollinisateurs, espèces auxiliaires nécessaires pour la pollinisation de nombreuses cultures, sont particulièrement touchées, avec des déclins enregistrés à plus de 60% en l’espace de quelques décennies selon les régions du monde (Sánchez-Bayo and Wyckhuys, 2019).
Pour mieux comprendre et enrayer ce déclin massif, il est crucial d’augmenter la fréquence spatiale et temporelle des inventaires d’espèces et des suivis d’abondance (nombre d’individus d’une même espèce par unité de temps ou d’espace), ainsi que leur précision. Pouvoir échantillonner en continu la biodiversité dans une multitude d’environnements plus ou moins affectés par les changements globaux est nécessaire pour identifier précisément les causes des déclins observés et évaluer l’efficacité des politiques de conservation.
Or les inventaires et suivis d’abondance réalisés par des spécialistes (naturalistes ou écologues) sont extrêmement coûteux en main d’œuvre et en temps et donc limitent nos capacités à mener des suivis exhaustifs de biodiversité sur de grands territoires. L’avènement des sciences participatives a permis de contourner partiellement cette difficulté en fournissant des quantités impressionnantes de données. Néanmoins les protocoles de sciences participatives trouvent leurs limites dans la précision des identifications lorsqu’il s’agit de faire reconnaître des espèces morphologiquement proches par des citoyens non experts, un problème récurrent en entomologie. L’utilisation d’outils issus de l’intelligence artificielle, notamment grâce aux techniques dites d’apprentissage profond (deep learning), appliqués sur des photographies collectées par des citoyens permet de dépasser ces limites. L’apprentissage profond basé sur des réseaux de neurones convolutifs (CNN) a récemment révolutionné le champ de la vision par ordinateur en affichant des performances de reconnaissance d’objets complexes dans des scènes naturelles proches ou supérieures à celles des humains (LeCun et al., 2015; Serre, 2019). Néanmoins ces algorithmes sont extrêmement consommateurs en données puisqu’ils requièrent des centaines voir des milliers d’images par classe d’objet à identifier pour effectuer l’entraînement des réseaux, un problème qui peut être facilement contourné en écologie grâce aux sciences participatives tant que les espèces à identifier peuvent être classé de manière fiable sur la base de simple photographie (Horn et al., 2018).
A titre d’exemple, le projet PlantNet qui permet le recueil de données botaniques et offre un service d’identification automatisé des espèces végétales sur la base de photographies prisent avec un smartphone, regroupe actuellement plus d’1,7 millions de photographies de près de 28000 espèces prisent à travers le monde entier. Le système d’apprentissage profond associé à ce projet est maintenant tellement efficace qu’il rivalise avec les plus grands experts en botanique (Bonnet et al., 2016). Un système équivalent permettant la reconnaissance fiable des insectes pollinisateurs européens au niveau de l’espèce reste à concevoir. Le projet deepABIS à très récemment montré qu’une approche similaire pourrait être utilisée pour identifier certaines abeilles sauvages avec une précision proche de 98% à partir de clichés d’ailes (Buschbacher et al., 2020). Néanmoins cette étude se base sur seulement 124 espèces d’abeilles collectées en Allemagne, Brésil, Etats Unis et Chine et utilise des photographies prises en condition standardisées. Pouvoir implémenter un système capable de reconnaître les 2000 espèces européennes sur des photographies d’individus éveillés en milieu naturel représente encore un véritable défi. Ce défi ne réside pas tant dans la capacité des spécialistes en vision par ordinateur à développer de nouveaux modèles d’apprentissage, mais dans la capacité des biologistes et entomologistes à constituer un jeu de données massif contenant des centaines d’exemplaires de photographies de chacune des espèces à identifier. Car les méthodes d’apprentissage profond ne permettent de reconnaître que les espèces pour lesquelles elles ont été entraînées, ce qui nécessite une banque d’images de référence exhaustive.
Le principal écueil à la réalisation d’une telle banque d’images couvrant l’intégralité de la diversité des abeilles est la difficulté d’obtenir à la fois un cliché d’un spécimen en milieu naturel et son identification. Même pour des experts entomologistes, identifier de manière fiable une espèce sur la simple base de clichés photographiques est souvent impossible. De nombreuses espèces d’insectes ne diffèrent que par une combinaison de détails morphologiques subtils qui requièrent une examination méticuleuse de l’animal euthanasié sous une loupe binoculaire pour une identification précise. L’entomologie classique se trouve donc confrontée au dilemme de devoir prélever et mettre en collection les insectes pour mieux les connaître et les protéger. Des alternatives tel que le programme de sciences participatives SPIPOLL, proposent d’étudier et d’identifier les insectes pollinisateurs uniquement à base de photographies au niveau du complexe d’espèces, une telle approche est extrêmement utile pour révéler les grands patrons d’érosion des communautés de pollinisateurs face aux changement globaux, mais reste infructueuse pour un suivi fin de la dynamique des populations nécessaire à la mise en place de programmes de conservation adaptés à chaque espèce.
Dans le projet AImyBee, nous proposons de compiler l’ensemble des photographies d’hyménoptères prises sur le terrain qui ont été suivies d’une capture de l’individu et d’une identification dans les règles de l’art sous loupe binoculaire par un expert reconnu. Si un tel couple de données (photo + identification indépendante) était jusqu’à présent assez rare, il devient de plus en plus courant grâce à la monté en compétence des naturalistes amateurs d’entomologie, la baisse des prix du matériel photographique de qualité et l’existence de plateforme web permettant de partager ses clichés photographiques(ex: Flickr, Instagram, INaturalist).
La compilation des données photographiques disponibles sur le web pour chaque espèce d’hyménoptère présente en europe sera réalisée par la mise en place d’une API (ou interface de programmation) intégrant un système de crawling qui permettra d’interroger les principaux sites naturalistes et les plateformes de stockage ou de partages de photos. L’API retournera le nombre de photo disponibles, les auteurs et leurs contacts ainsi que les métadonnées (ex: coordonnées GPS, période de l’année) associés à chaque cliché le cas échéant. Cette API sera développée par l’entreprise Natural Solutions experte dans le développement web et la gestion de données de biodiversité. Natural Solutions développera également un outil pour le stockage et la visualisation des photographies qui sera intégré au site https://www.idmybee.com/ développé et maintenu par A. Perrard.
En parallèle, nous encadrerons un stagiaire de M1 ou en césure qui sera chargé de contacter tous les plus gros contributeurs identifiés par l’API afin de sélectionner et retenir uniquement les photographies qui ont bénéficié d’une identification morphologique dans les règles de l’art après capture. Ce stagiaire sera aussi responsable de la mise en place et de l’animation d’un réseau d’amateurs et d’experts, identifiés par A. Perrard, D. Genoud et B. Schatz, souhaitant contribuer à la constitution de la base de données, soit par l’envoie de photos existantes répondant aux critères soit en incluant une première phase de photographie (en milieu naturel et/ou des ailes après captures) dans leurs protocoles de captures et d’identifications.
Grâce à ces efforts, nous constituerons la première banque d’images d’abeilles sauvages de France identifiés à l’espèce qui sera constamment enrichie par la communauté. Cette banque d’image servira dans un second temps à développer des algorithmes d’apprentissage profond qui permettra aussi bien aux scientifiques qu’aux citoyens impliqués dans des protocoles de sciences participatives, de reconnaître avec précision différentes espèces sans avoir à sacrifier les individus. En plus de permettre un suivi massif des populations de pollinisateur, cette approche servira à identifier les critères phénotypiques discriminants entre les espèces proches (Figure 1). La méthode pourrait révéler de nouveaux critères diagnostiques plus accessibles pour distinguer les espèces car certains critères de coloration, de positionnement ou de comportement sont présents en milieu naturel mais deviennent indisponibles après la mise en collection.
Résultats préliminaires obtenus par Jean Cohen sur la base de données SPIPOLL représentant les zones utilisées par un algorithme d’apprentissage profond pour différencier certaines espèces pollinisatrices cibles ou des complexes d’espèces.
Porteurs du projet :
Adrien Perrard (IEES), Maxime Cauchoix (SETE)
Autres partenaires :
Bertrand Schatz (CEFE), Colin Fontaine (CESCO), Mathieu Lihoreau (CRCA), Thomas Serre (Brown University), David Genoud, Jean Cohen, Natural Solutions
Références
Bibliography
Bonnet, P., Joly, A., Goëau, H., Champ, J., Vignau, C., Molino, J.-F., Barthélémy, D., and Boujemaa, N. (2016). Plant identification: man vs. machine. Multimed. Tools Appl. 75, 1647–1665. doi:10.1007/s11042-015-2607-4.
Buschbacher, K., Ahrens, D., Espeland, M., and Steinhage, V. (2020). Image-based species identification of wild bees using convolutional neural networks. Ecol. Inform. 55, 101017. doi:10.1016/j.ecoinf.2019.101017.
Horn, G. V., Aodha, O. M., Song, Y., Cui, Y., Sun, C., Shepard, A., Adam, H., Perona, P., and Belongie, S. (2018). The iNaturalist Species Classification and Detection Dataset. in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (IEEE), 8769–8778. doi:10.1109/CVPR.2018.00914.
LeCun, Y., Bengio, Y., and Hinton, G. (2015). Deep learning. Nature 521, 436–444. doi:10.1038/nature14539.
Sánchez-Bayo, F., and Wyckhuys, K. A. G. (2019). Worldwide decline of the entomofauna: A review of its drivers. Biol. Conserv. 232, 8–27. doi:10.1016/j.biocon.2019.01.020.
Serre, T. (2019). Deep learning: the good, the bad, and the ugly. Annu. Rev. Vis. Sci. 5, 399–426. doi:10.1146/annurev-vision-091718-014951.