Une équipe de recherche de l’Université de Bâle et de l’Institut suisse de bioinformatique SIB a découvert un trésor de protéines non caractérisées. Profitant de la récente révolution de l’apprentissage profond, ils ont découvert des centaines de nouvelles familles de protéines et même un nouveau repli protéique prédit. L’étude a maintenant été publiée dans Nature.
Ces dernières années, AlphaFold a révolutionné la science des protéines. Cet outil d’intelligence artificielle (IA) a été formé à partir de données protéiques collectées par des scientifiques du vivant depuis plus de 50 ans et est capable de prédire la forme 3D des protéines avec une grande précision. Son succès a incité à modéliser un nombre incroyable de 215 millions de protéines l’année dernière, fournissant ainsi un aperçu de la forme de presque toutes les protéines. Ceci est particulièrement intéressant pour les protéines qui n’ont pas été étudiées expérimentalement, un processus complexe et long.
« Il existe désormais de nombreuses sources d’informations sur les protéines, contenant des informations précieuses sur la manière dont les protéines évoluent et fonctionnent », explique Joana Pereira, responsable de l’étude. Néanmoins, la recherche est depuis longtemps confrontée à une jungle de données. L’équipe de recherche dirigée par le professeur Torsten Schwede, chef de groupe au Biozentrum de l’Université de Bâle et à l’Institut suisse de bioinformatique (SIB), a réussi à décrypter certaines informations dissimulées.
Une vue plongeante révèle de nouvelles familles et replis de protéines
Les chercheurs ont construit un réseau interactif de 53 millions de protéines dotées de structures AlphaFold de haute qualité. « Ce réseau constitue une source précieuse pour prédire théoriquement des familles de protéines inconnues et leurs fonctions à grande échelle », souligne le Dr Janani Durairaj, premier auteur. L’équipe a pu identifier 290 nouvelles familles de protéines et un nouveau repli protéique ressemblant à la forme d’une fleur.
S’appuyant sur l’expertise du groupe Schwede dans le développement et la maintenance du logiciel leader SWISS-MODEL, ils ont rendu le réseau disponible sous la forme d’une ressource Web interactive, appelée « Atlas de l’univers des protéines ».
L’IA comme outil précieux dans la recherche
L’équipe a utilisé des outils basés sur le Deep Learning pour trouver des nouveautés dans ce réseau, ouvrant ainsi la voie à des innovations dans les sciences de la vie, de la recherche fondamentale à la recherche appliquée. « Comprendre la structure et la fonction des protéines est généralement l’une des premières étapes pour développer un nouveau médicament ou modifier leurs fonctions par l’ingénierie des protéines, par exemple », explique Pereira. Le travail a été soutenu par une subvention « kickstarter » du SIB pour encourager l’adoption de l’IA dans les ressources des sciences de la vie. Il souligne le potentiel transformateur du Deep Learning et des algorithmes intelligents dans la recherche.
Grâce au Protein Universe Atlas, les scientifiques peuvent désormais en apprendre davantage sur les protéines pertinentes pour leurs recherches. « Nous espérons que cette ressource aidera non seulement les chercheurs et les bioconservateurs, mais également les étudiants et les enseignants en fournissant une nouvelle plateforme pour en apprendre davantage sur la diversité des protéines, de la structure à la fonction, en passant par l’évolution », déclare Janani Durairaj.