Les data scientists sont-ils l’avenir de la finance? Par Louis Boulanger / @LouisBachelier

L’article ci-dessous a été publié sur le site web d’Hello Finance, dédié à l’innovation financière.

Louis Boulanger a une double formation d’école d’ingénieurs (Supélec) et de commerce (ESCP Europe et Dauphine). Il s’est alors naturellement tourné vers deux domaines mettant à profit ses connaissances : les data science et la finance quantitative.

La création d’une équipe « data » à l’Institut Louis Bachelier, dans la chaire Évaluation des Modèles Mathématiques utilisés pour la Finance, fut l’occasion parfaite pour ce data scientist de travailler sur des projets de recherche appliquée data science et finance.

Il nous explique, dans cet édito, l’adoption progressive de la data science par les milieux financiers.

Le défi des data science

La finance n’a pas échappé à la déferlante du Big Data reposant sur trois grands facteurs aujourd’hui bien connus. Le premier est un flux toujours plus important de données très hétéroclites. Le second correspond à une augmentation des capacités de stockage et à l’amélioration des technologies associées (Hadoop Stack). Enfin, le troisième et dernier facteur explicatif de cette révolution est l’augmentation continue de la puissance de calcul.

Une fois ces données collectées, se pose la question de leur utilisation et in fine de leur valorisation. C’est là que les data scientists entrent en jeu. La data science ou science des données est le terme retenu pour nommer la science de l’extraction d’information d’une masse de données. Elle repose essentiellement sur deux grands domaines d’expertise : les statistiques et la théorie de l’information.

Le système éducatif a mis du temps à s’adapter à cette nouvelle demande. C’est pour cela que la plupart des data scientists ont un background de statisticien, d’ingénieur des signaux ou encore d’analyste quantitatif. Une bonne illustration en est le profil de Jonathan Del Hoyo, créateur de datasama.com, site de recrutement de data scientists. Après un début de carrière en analyse quantitative, il s’est senti bien placé pour juger des capacités réelles de candidats pour des postes de data scientists.

Quelle différence avec les méthodes traditionnelles telle que la régression linéaire utilisée depuis des années dans tous les domaines ?

La data science inclut aussi des méthodes d’apprentissage automatique ou machine learning.La grande nouveauté de celles-ci, selon Stéphane Mallat, professeur au CMAP de l’Ecole Polytechnique et au Master MVA de l’ENS, est l’inclusion de modélisations non linéaires. Leur utilisation (exemples : arbres, réseaux de neurones) est très gourmande en calcul et c’est l’augmentation de la puissance de calcul qui explique le renouveau d’intérêt pour ces techniques qui existaient pour certaines depuis les années 1950 (comme le perceptron de Rosenblatt datant de 1957 ou encore l’arbre CART de Breiman proposé en 1984).

Une adoption en deux étapes

L’adoption de ces méthodes se fait souvent en deux étapes. En effet, la data science a deux utilisations : l’inférence et la prédiction.

L’inférence revient à expliquer le passé, comprendre un phénomène représenté par une variable que l’on cherche à expliquer. Un exemple sur lequel nous avons travaillé à l’Institut Louis Bachelier est le défaut des prêts immobiliers. La première étape fut de représenter par des combinaisons de facteurs des caractéristiques communes à certains groupes de prêts en défaut.

La prédiction consiste quant à elle à prédire cette variable. Sur ce même exemple, nous avons cherché à prédire les défauts à 6 mois parmi les prêts. Le problème est que les modèles inférentiels sont généralement mauvais en prédiction et, inversement, il sera difficile de comprendre pourquoi un modèle prédit une valeur pour la variable à expliquer. Ainsi, lors des divers projets que nous avons menés, nous avons toujours commencé par travailler l’inférence pour s’approprier les données. La prédiction, si elle était l’objectif final, ne fut étudiée que dans un second temps.

La plupart des grandes entreprises que nous avons rencontrées ont passé la première étape d’appropriation de leur données via des études inférentielles ou sont en passe de l’avoir fait. Les PME n’ont pas forcément les moyens de trouver les profils adéquats pour réaliser ce genre de travaux. La demande de data scientist étant très forte, les salaires s’envolent. Elles doivent alors externaliser l’analyse et trouver dans le maquis des cabinets de conseil ceux ayant réellement les compétences comme EY, Quantmetry et Ekimetrics. Le forum du Big Data rassemble souvent ces cabinets, la plupart d’entre eux n’ayant pas de réelles compétences dans ce domaine. L’effet d’aubaine et la méconnaissance de la data science par de nombreuses entreprises ont poussé les cabinets vers ce segment.

Après une ruée vers les data science observées lors des cinq dernières années en France, l’écosystème commence à se rendre compte que la rigueur est nécessaire. Il est aisé de tirer de mauvaises conclusions à partir des données. Il faut ainsi se méfier comme de la peste de la confusion entre corrélation et causalité. Les données composent le cœur des data science. Vous aurez beau avoir les meilleurs algorithmes du monde, si vous n’avez pas les bonnes données, vous ne pourrez pas bien modéliser un phénomène. De même, il est inutile de faire compliqué lorsque l’on peut faire simple. Une phrase de Pierre Brugière, directeur du Master Ingénierie Statistique et Financière à l’Université Paris Dauphine, résume bien cela : « Vous aurez beau avoir toutes les données que vous voulez pour pricer un forward, si vous n’avez pas le prix spot et la maturité, cela sera inutile ».

Nous sommes passés d’une phase de découverte à une phase d’appropriation des data science. Après des projets lancés tous azimuts, le retour à la base des data science est primordial : trouver les meilleures données pour expliquer les phénomènes souhaités. C’est ce que Pierre-Louis Lions, membre du Collège de France ayant obtenu la médaille Fields en 1994, nommait « meaningful data » en 2015 lors de la conférence Meet the Data II.

Une appropriation à plusieurs vitesses

Le degré d’appropriation de la data science par les acteurs financiers est très hétérogène. La règlementation très forte imposée aux milieux financiers pousse à la prudence. Comme souvent, les entreprises américaines ont été les premières à s’intéresser à ces nouvelles méthodes et ont de fait un coup d’avance. La proximité des GAFA (Google, Apple, Facebook, Amazon), très présents sur ce segment, n’a pu qu’aider.

Les assureurs, baignant historiquement dans les données et dont le business model repose sur la bonne modélisation des risques faite par ses actuaires, se sont lancés très tôt dans ce domaine. En 2014, AXA recherchait déjà plusieurs centaines de data scientists pour consolider ses équipes d’actuaires en plus des reconversions internes. Les modèles de risque gagnent fortement en pouvoir prédictif grâce à la modélisation non linéaire et les assureurs l’ont bien compris.

De même, les banques de détail pour lesquelles le CRM et le marketing sont primordiaux se sont tournées très vite vers les data science afin de prévoir les comportements des clients (très utile pour le bundle ou la publicité ciblée), pour mieux segmenter, pour mieux modéliser les risques via des nouveaux modèles de scoring, etc. Elles ont commencé à l’utiliser depuis quelques années mais la pleine maturité ne semble pas encore atteinte. La même application au CRM des départements Corporate Banking et banque d’investissement paraît toute aussi naturelle. De façon transverse, la science des données peut permettre une grande automatisation de tâches (détection d’évènements, réponses à apporter à ceux-ci) comme proposée par IBM Watson. Le marché n’est pas encore tout à fait mûr sur ce point car peu de POC ont été faits.

Le déploiement de la data science dans le milieu bancaire est encore limité même si l’intérêt est présent, notamment dans la banque de détail. Les marchés financiers sont, eux, plus dubitatifs. Le côté « boîte noire » que peuvent avoir les algorithmes prédictifs les rebutent. Les modèles de régression permettaient aisément d’expliquer la valeur prédite. Il suffisait de regarder les coefficients de régression et les valeurs des variables explicatives. Les méthodes de machine learning perdent ce côté explicatif pour gagner en pouvoir prédictif. Pourtant, de grandes choses semblent possibles dans certains domaines bancaires comme la gestion des stratégies de trading, le CRM ou encore la gestion du risque avec des modèles de détection de fraude novateurs.

Ce scepticisme est particulièrement vrai en asset management même s’il a tendance à diminuer. Lorsque j’évoquais le fait que je travaillais notamment dans une startup tentant de mettre en place un outil utilisant les data science pour prédire l’évolution d’actifs financiers, la plupart des salariés de fonds d’investissements me disaient que cela n’avait aucune chance de marcher. Pourtant, de jeunes startups comme Walnut Algorithms, utilisant la reconnaissance de formes sur les séries temporelles financières, semblent avoir de bons résultats en paper trading. Je dois toutefois avouer que cela a quelque peu changé depuis un an.

Blockchain : la prochaine révolution ?

La data science semble s’imposer petit à petit dans les milieux financiers même si certains domaines résistent encore. Elle peut incontestablement apporter de grandes améliorations aux modélisations existantes du fait de l’introduction de non linéarités. Un des gros problèmes pour l’acceptation de ces nouveaux modèles est que la théorie mathématique n’est pas encore finalisée. Yann le Cun, directeur du laboratoire de recherche d’intelligence artificielle de Facebook, le premier à avoir vu le potentiel des réseaux de neurones, a bien expliqué lors de sa conférence au Collège de France que les mathématiques ne pouvaient pas encore expliquer pourquoi les réseaux de neurones fonctionnaient si bien. Ce n’est que parce qu’en pratique ils donnent de bien meilleurs résultats que les méthodes usuelles que tout le monde s’est tourné vers eux. Cela est aussi vrai pour d’autres méthodes classiques.

La science des données est à mon avis un des éléments sur lequel reposera la finance du futur. C’est déjà en partie le cas et les milieux financiers ont déjà les yeux tournés vers une autre technologie : la blockchain. Celle-ci pourrait potentiellement changer le paradigme de l’écosystème financier, bouleversant le système transactionnel actuel.

Tableau : Changement de paradigme du modèle transactionnel (graphique d’Alexis Collomb et Klara Sok du CNAM)

tableau

Depuis 2 ans, on a prêté tous les pouvoirs à cette technologie. Il est maintenant grand temps d’analyser ses capacités réelles.