Détail de l'archive
Journée du digital 2017 : Quel impact la numérisation a-t-elle sur notre futur ?
20 novembre 2017 |
Nous aimerions nous aussi profiter de cette occasion pour nous faire une idée plus précise de l'avenir numérique de l'Eawag. C'est pourquoi nous avons rencontré Carlo Albert. Carlo Albert est responsable du groupe « Méthodes mathématiques dans la recherche environnementale » du département « Analyse des systèmes et modélisation ». Son travail quotidien porte sur le développement et l'application d'algorithmes ainsi que la modélisation de systèmes complexes dans des applications hydrologiques et écologiques et, par conséquent, également sur les nouvelles technologies et l'augmentation des volumes de données.
Le journaliste Chris Anderson a postulé en 2008 que le « déluge » de données rendait les méthodes scientifiques obsolètes. En tant que scientifique, comment réagissez-vous à cette affirmation ?
Selon moi, cette affirmation est fausse pour deux raisons. Je suis convaincu que les méthodes scientifiques, autrement dit l'élaboration de la théorie, améliorent la « Data Science » (en français : la science des données). Car un modèle mathématique est toujours nécessaire pour extraire des informations à partir de données. Dans le cas des méthodes classiques de «machine learning» (en français : apprentissage automatique), il s'agit de modèles absolument non spécifiques dans lesquels aucune connaissance du système n'est intégrée. Cependant, si l'on utilise en plus les connaissances d'un système, sous la forme d'une théorie, on optimise la « Data Science ». Cela signifie qu'avec de meilleures théories, nous pouvons potentiellement extraire des informations plus précieuses à partir des données. Le processus d'apprentissage est itératif : Si nous tirons des connaissances de ces données, cela peut permettre d'améliorer la théorie, et avec une meilleure théorie, nous pouvons alors en retour en apprendre encore davantage à partir des données.
De plus, nous ne voulons pas seulement faire des prédictions basées sur les données. Nous voulons comprendre le système et les processus. Ce n'est pas possible avec les méthodes classiques de « machine learning ». Si vous entraînez un réseau de neurones simplement avec des données d'entrée-sortie, cela donnera peut-être de bonnes prédictions, mais vous n'aurez rien compris au système. En tant que scientifiques, nous ne voulons pas seulement faire des prédictions, mais aussi comprendre comment la nature fonctionne.
Comment le travail et les défis des chercheuses et chercheurs changent-ils avec la quantité croissante de données ?
Plus nous avons de données, plus le défi de la modélisation est grand. Parce que plus de données signifie plus de structures pouvant être trouvées dans ces données. Cela signifie que des méthodes mathématiques plus sophistiquées sont requises pour transformer ces structures en modèle. Le défi est d'une part de nature mathématique, il nécessite plus de compétences mathématiques, et d'autre part, il requiert souvent de meilleures machines pour gérer les modèles plus complexes et de plus grandes quantités de données.
Que pouvons-nous faire pour être préparés de manière optimale à ces défis ?
Nous aurons probablement besoin de plus de modélisateurs et de plus de personnes qui s'y connaissent un peu en matière de Data Science. Martin Vetterli, président de l'EPFL, a récemment déclaré que dans la formation des biologistes, par exemple, les mathématiques et la « Data Science » auront à l’avenir beaucoup plus d’importance qu’actuellement. Cela signifie qu'à l'avenir, les chercheuses et chercheurs auront probablement plus de compétences dans ces domaines, ce qui entraînera aussi des répercussions correspondantes au niveau de l'Eawag.