L’objectif avec la data, c’est de réduire le nombre d’erreurs
Responsable de l’analyse tactique et de l’innovation pour StatsBomb, l’une des entreprises d’analytics les plus innovantes dans le football, Pablo Peña Rodríguez nous livre quelques clés pour essayer de comprendre ce que la « data » peut apporter au football et vice versa.
Alors, est-ce que la data peut répondre à tous les problèmes posés par une activité aussi complexe que le football ?
Quelle est la philosophie de StatsBomb ?
Ce qui nous caractérise, c’est que tout ce que nous faisons, nous le faisons au travers de la data. Nous sommes organisés en 2 départements différents. D’une part, nous collectons nos propres données, en combinant des données collectées manuellement et automatiquement. Pour notre collecte automatique nous utilisons, entre autres, la vision par ordinateur (computer vision).
C’est une branche de l’intelligence artificielle, qui nous permet d’analyser, traiter et comprendre des images afin d’en extraire les données qui nous intéressent. Entre autres, nous récupérons des images télévisées et certaines données sont automatiquement extraites. Ensuite, il y a le travail des personnes expertes qui manuellement, complètent les données en s’appuyant sur ce qui a été automatiquement extrait.
Deuxièmement, nous avons développé un outil destiné à l’analyse des équipes, l’évaluation des joueurs et au recrutement. Cet outil comporte plusieurs aspects importants avec, notamment, nos propres modèles d’analyse de données. Nous avons, par exemple notre propre modèle pour analyser les expected goals (xG). Mais nous avons aussi des modèles pour évaluer les gardiens de but, la progression du ballon, les aspects défensifs… et puis nous avons des modèles dédiés au recrutement.
Nous avons, par exemple, un modèle dédié à l’identification des joueurs ayant des caractéristiques similaires. Prenons un cas concret : Killian Mbappé. Nous allons, par exemple, déterminer une série de caractéristiques qui nous intéressent chez lui (tirs tentés, expected goals, tentatives de la tête, les passes, les dribbles) et l’outil va identifier la liste des joueurs les plus proches possible de son profil au regard de ces paramètres. On peut aussi filtrer cette liste par âge, par championnat ou par minutes jouées et le modèle identifiera les joueurs avec le plus de similitudes, en fonction des critères choisis.
A lire
Jean-François Vulliez : le département méthodologique, c’est le coeur du réacteur
Même si les expected goals sont assez connus maintenant, pouvez-vous les présenter ?
Les expected goals nous permettent d’évaluer la probabilité qu’un tir donné, soit converti en but. Pour cela, nous allons analyser un très grand nombre de tirs, par exemple, les 20 000 derniers tirs qui ont eu lieu dans le championnat de France. Sur ces 20 000 tirs, nous allons analyser : la distance à laquelle ils ont été effectués, l’angle par rapport au but, le membre utilisé (tête ou le pied), le contexte du tir (issue d’un dribble, d’un centre, …), l’endroit où le gardien de but était placé, la position des défenseurs adverses, etc.
« Les expected goals nous permettent d’évaluer la probabilité qu’un tir donné, soit converti en but »
En fonction de ces critères, nous saurons combien de ces tirs ont été convertis en but et offrir une probabilité de conversion pour les tirs qui réunissent certaines caractéristiques. Un exemple très simple et évident (encore que) : un tir réalisé depuis les six mètres a plus de chance de finir dans le but, qu’un tir provenant de l’extérieur de la surface.
Maintenant, la question est de savoir à quoi cet indicateur va bien pouvoir nous servir ? Cet indicateur a du sens car nous savons que de nombreux facteurs influencent le fait qu’un tir soit converti en but : un faux rebond, un ballon intercepté par un défenseur ou une tête de l’attaquant qui échoue sur le poteau. Si un attaquant ne convertit pas un tir depuis l’intérieur des six mètres et que nous ne comptabilisons que les buts, alors nous conclurons qu’il a généré une valeur qui est nulle.
« Les expected goals sont un bien meilleur outil de prédiction des futures performances des attaquants, que le nombre de buts précédemment marqués »
Avec les expected goals, nous savons quelle était la probabilité qu’il marque et c’est un bien meilleur outil de prédiction des futures performances des attaquants, qu’uniquement le nombre de buts qu’il a précédemment marqués. C’est un indicateur qui est moins sujet aux variations liées à la chance ou au hasard, comme peuvent l’être un mauvais rebond ou un ballon qui lui échappe pour quelques centimètres.
Les indicateurs offensifs sont souvent les plus évoqués lorsqu’on parle d’analytics, mais qu’en est-il des aspects défensifs et notamment du pressing ?
A l’heure actuelle, nous sommes le seul fournisseur de données qui collecte les événements de pressing. D’ailleurs, le terme le plus adapté serait « pression », car en plus des actions habituelles que nous collectons : les tacles, les interceptions… nous collectons aussi, les événements liés au pressing ou au harcèlement.
Alors, que catégorisons-nous en tant que pression ? Ce sont l’ensemble des actions grâce auxquelles un joueur ferme une ligne de passe, attaque le porteur du ballon en le forçant à jouer plus vite, à jouer à vers les couloirs extérieurs, etc. Toutes ces actions constituent la grande majorité des actions défensives qui se produisent pendant un match, car les tacles et les interceptions sont généralement moins fréquents.
Le travail défensif et le pressing sont le résultat du travail de plusieurs joueurs. Ils vont ensemble, forcer le central adverse, par exemple, à se débarrasser du ballon, fermer une ligne de passe à l’intérieur, de telle sorte que le central adverse ne puisse trouver son pivot et soit obligé de jouer vers un couloir extérieur.
« De nombreux attaquants savent très bien presser, fermer les lignes de passe ou forcer le défenseur central à jouer vite afin de le pousser à commettre une erreur »
Avant d’avoir ce type de données de « pression », il était difficile de réellement évaluer le travail défensif des joueurs, car on avait beaucoup moins d’informations. Il y avait donc beaucoup de joueurs qui n’étaient pas appréciés à leur juste valeur, car ce type d’action défensive n’était pas collectée. Pour un attaquant, à moins qu’il ne récupère lui-même le ballon dans les pieds du central, il n’avait aucun crédit.
Le problème, c’est que de nombreux attaquants savent très bien presser, fermer les lignes de passe ou forcer le défenseur central à jouer vite afin de le pousser à commettre une erreur. Maintenant, nous pouvons évaluer l’influence des attaquants, des excentrés et des milieux de terrain dans la récupération du ballon de leur équipe, car le travail qu’ils font empêche les adversaires de jouer confortablement. Même s’ils ne récupèrent pas le ballon directement ils vont faciliter la tâche de leurs partenaires, qui eux, vont récupérer le ballon.
Une fois ces données collectées, nous les transformons en différents indicateurs, à partir de différents modèles. Nous allons, par exemple, attribuer une certaine valeur à une récupération de balle liée au travail d’un attaquant. Si un attaquant presse le central adverse, le force à jouer long et que le ballon est récupéré par un de ses coéquipiers, alors l’attaquant obtiendra un crédit défensif. Il aura contribué à récupérer le ballon en forçant le central de jouer long.
« Nous pouvons, par exemple, filtrer toutes les pertes de balle de Killian Mbappé et déterminer combien de fois il a pressé le porteur de balle, dans les cinq secondes suivant la perte du ballon »
Un autre aspect que nous pouvons inclure, c’est la réaction à la perte du ballon. Si un attaquant ou un excentré perd le ballon, nous voulons savoir si ce joueur a la capacité de presser directement après avoir perdu le ballon, s’il est capable de changer d’état d’esprit et de mettre la pression sur le porteur du ballon.
Nous pouvons, par exemple, filtrer toutes les pertes de balle de Killian Mbappé et déterminer combien de fois il a pressé le porteur de balle, dans les cinq secondes suivant la perte du ballon. Même s’il ne le récupère pas, il va forcer son adversaire à jouer plus vite, afin que son équipe ai une meilleure chance de récupérer le ballon.
Peu importe l’issue, nous voulons savoir s’il est capable de changer d’état d’esprit et de presser. Tout cela, nous pouvons le savoir grâce à nos données et, comme toujours, cela nous permet de réduire l’incertitude et d’en savoir un peu plus sur le joueur concerné.
Existent-ils des différences culturelles entre les différents championnats ? Les joueurs du championnat allemand, par exemple, sont-ils meilleurs sur cet aspect qu’en France, en Angleterre ou en Espagne. Existe-t-il une influence culturelle sur la pression à la perte ?
Oui, il y a certains aspects culturels qui ont une influence. Récemment, nous avons analysé les cinq grands championnats, c’est-à-dire la France, l’Allemagne, l’Angleterre, l’Espagne et l’Italie et ce que nous avons constaté, c’est qu’il y a des différences sur certains aspects, surtout au niveau défensif, mais qu’en réalité, ces championnats ont beaucoup plus de similitudes que nous le pensons.
Il n’y a pas énormément de différences d’un championnat à l’autre et il y a deux raisons à cela : d’une part, les équipes de haut niveau se ressemblent de plus en plus, d’autre part les différences culturelles s’estompent. En fait, c’est un révélateur de la réussite de certains entraineurs dans différents pays.
Par exemple, Pep Guardiola a réussi en Espagne, en Allemagne et en Angleterre et Thomas Tuchel a connu le succès en Allemagne et en France. Les entraîneurs qui réussissent en Angleterre vont en Italie et y réussissent également à l’image d’Antonio Conte, par exemple, passé par la Juventus, Chelsea et maintenant l’Inter, à l’instar de Maurizio Sarri. Les championnats se ressemblent donc de plus en plus, car le niveau est de plus en plus élevé, entre guillemets, et cela a une influence.
Oui, il y a des différences culturelles, mais elles sont complexes et se situent au niveau du championnat national. Qu’est-ce que cela signifie ? Cela signifie que si vous analysez la façon dont les équipes allemandes attaquent, vous verrez qu’elle est un peu différente de celle des équipes espagnoles. En outre, la façon dont les équipes allemandes défendent est également différente de celle des équipes espagnoles.
« Les championnats se ressemblent donc de plus en plus, car le niveau est de plus en plus élevé, entre guillemets, et cela a une influence »
Aussi, en reliant ces différences, le championnat national oblige d’une certaine façon les équipes à jouer un peu de la même manière. Par exemple, si vous jouez dans le championnat allemand en défendant très bas face à des équipes qui vous pressent très haut, vous aurez obligatoirement plus de situations de transitions offensives à jouer avec beaucoup d’espace à exploiter.
Disons que la façon dont vous jouez est influencée par le contexte, et que ce contexte dépend du style de jeu du championnat, ainsi les équipes d’un même championnat vont avoir tendance à se ressembler davantage, en raison du contexte qu’elles vont rencontrer.
La remarque est aussi valable pour le championnat espagnol. Si vous voulez jouer absolument un style direct en exploitant toutes les situations de transition face aux équipes qui vont souvent défendre bas, vous devrez forcément utiliser un minimum la possession et un minimum de jeu positionnel, donc vous ressemblerez de plus en plus aux autres équipes espagnoles.
Y a-t-il des différences au sein d’un même championnat ? Oui, mais toujours à partir de points plus ou moins proches les uns des autres. Prenons un exemple : si le PSG jouait en Bundesliga (championnat allemand), il ressemblerait davantage aux équipes allemandes qu’à celles de la Ligue 1, car le PSG devrait s’adapter au contexte dans lequel il évolue.
D’ailleurs, ce n’est pas une question de data, c’est une question de football. C’est une question de tactique qui est influencée par le contexte, les décisions tactiques prises par les entraineurs, mais surtout par les joueurs qui sont les protagonistes essentiels.
A lire aussiKeith Davids: L’entraineur, un concepteur d’environnement d’apprentissage
Finalement, pourrait-on dire que le contexte de l’Allemagne, de la France ou de la Liga espagnole n’est pas si différent que cela ?
Exactement, ils ne sont pas si différents, surtout entre les équipes d’un même championnat. Il y aura évidemment des différences significatives, par exemple, entre les meilleures équipes allemandes et les moins bonnes équipes espagnoles, mais quand vous étudiez le niveau moyen de chaque championnat, ces différences vont s’estomper. Nous constatons une tendance un peu contre-intuitive, par exemple, les équipes du championnat allemand sont les équipes qui jouent le plus vite, elles sont les plus rapides.
Cependant, la différence de vitesse moyenne entre les équipes de Bundesliga et celles de la Série A, qui est le championnat le plus lent des cinq grands championnats étudiés, n’est pas aussi importante que l’on pourrait le penser. Encore une fois, cela explique pourquoi les meilleurs entraineurs ont très souvent du succès, alors qu’ils passent d’un championnat à un autre.
Pourrait-on dire la même chose du style de jeu positionnel pratiqué, par exemple ? Parce qu’on peut avoir le sentiment que le jeu de position pratiqué par le Barça, City ou Liverpool, a des influences différentes. Y a-t-il des indicateurs qui permettent d’évaluer ces différentes interprétations ?
Je pense que, pour répondre à cette question, il faut d’abord définir ce qu’est le Jeu de Position. Ce serait la question la plus compliquée, parce que très souvent, on parle de jeu positionnel quand les équipes gagnent, sinon on considère que ce n’est pas bien fait.
Prenons un exemple, je crois que l’on peut s’accorder sur le fait que Guardiola est le meilleur représentant du Jeu de Position. Nous pouvons observer que Pep, avec au départ la même idée du jeu, a dû s’adapter aux différents contextes dans lesquelles il a évolué. Le FC Barcelone de Guardiola n’est pas le même que le Bayern Munich de Guardiola, qui est lui-même différent de ce que propose actuellement Manchester City. Cependant, personne ne doute du fait que toutes les équipes de Guardiola pratiquent une certaine version du Jeu de Position, plus ou moins nuancée, mais elles le pratiquent.
« Même un style de jeu aussi caractéristique que le Jeu de Position, s’adapte aux tendances des championnats nationaux, tout en étant performant »
Ce que nous constatons, c’est que ses équipes sont capables de s’adapter au contexte dans lequel elles se trouvent. Par exemple, les équipes de Guardiola à Barcelone et à Manchester City font partie des équipes qui centrent le moins dans la surface adverse. En revanche, lors de son étape en Bundesliga, le Bayern de Munich était parmi les équipes qui centraient le plus dans la surface, surtout la dernière saison (2015-2016). Le grand enseignement de cela, c’est que même un style de jeu aussi caractéristique que le Jeu de Position, s’adapte aux tendances des championnats nationaux, tout en étant performant.
Alors, est-ce qu’on peut définir le Jeu de Position au travers de la data ? C’est peu probable. Comme je l’ai dit, on va effectivement pouvoir mesurer différents aspects et pouvoir dire : « Les équipes de Guardiola pratiquent un jeu de position. Quelles sont les équipes qui s’en rapprochent le plus ? On trouvera, probablement, des similitudes sur certains aspects avec la data, mais dire : « Ces équipes pratiquent un jeu de position », ça les données ne le diront pas.
Je ne pense pas que beaucoup de personnes s’accordent sur ce qu’est le jeu de position, mais on peut retrouver des aspects qui rendent ces équipes caractéristiques. C’est généralement une circulation du ballon très rapide, un contrôle des transitions, une utilisation des passes vers la profondeur. Une passe en profondeur, est une passe provenant de zones intérieures qui élimine la dernière ligne défensive.
Normalement, les équipes qui ont davantage une idée positionnelle, utilisent beaucoup ce type d’action. Dans le cas de la France, par exemple, le Paris Saint-Germain de Thomas Tuchel était paradigmatique, car c’est l’une des équipes qui réalisait le mieux ce genre de choses.
Revenons sur le fait que StatsBomb peut être un outil d’aide à la décision, par exemple, en termes de scouting. Les scouts observent des matchs, rédigent des rapports, font des réunions de travail, mais y a-t-il des données qui peuvent les aider à « prédire » l’adaptation d’un joueur à sa nouvelle équipe, à son nouveau championnat ? Par exemple, comment prédire l’adaptation d’un joueur au Barça ? Quels éléments factuels, peut-on utiliser ?
Ça, les données ne le donneront pas, jamais ! Quiconque affirme que la data vous donne cela vous ment et je veux être clair sur ce point. Ni vous, ni moi ne pouvons le savoir, pas plus que les données. Les données ne peuvent pas vous donner cette information, pas plus que l’avis d’un scout expérimenté ne peut le faire. Ces deux sources d’information, peuvent tout aussi bien avoir raison, comme elles peuvent tout aussi bien se tromper.
Prédire comment un joueur va s’adapter à un contexte différent, à un style de jeu différent, à des partenaires différents et des nombreux autres facteurs qui ne sont même pas pris en compte dans les modèles est impossible. En revanche, ce que vous pouvez faire, c’est combiner les connaissances des experts, l’avis des scouts avec les informations que les données vous donnent
« Quiconque affirme que la data peut prédire l’adaptation d’un joueur à sa nouvelle équipe, vous ment et je veux être clair sur ce point »
Les données peuvent vous dire (exemple fictif) : « Griezmann est un joueur qui génère la plupart de ses chances, à la suite de transitions « . » De plus, c’est un joueur qui se déplace très bien dans la surface et réalise un gros travail défensif « . Cela peut vous aider à dire : « Ce joueur peut avoir une meilleure adaptation dans une équipe qui défend haut, qui presse, qui recherche un jeu de transition ».
Les données peuvent y contribuer. Mais si en plus vous avez des scouts qui le voit, qui connaissent le joueur, qui connaissent l’équipe et qui vous disent : « Regardez, ce joueur presse très bien, ferme très bien les lignes de passe, se déplace très bien dans la surface « . Avoir ces deux sources d’information, permet simplement de réduire la marge d’erreur.
« Il y aura toujours une marge d’erreur, mais si vous utilisez deux sources différentes au lieu d’une seule, et que vous confronter les avis, pour évaluer le joueur, vous réduisez cette marge d’erreur »
Le plus pour un club, c’est d’avoir les deux, pour réduire la marge d’erreur et savoir si ce joueur mérite que le club fasse le pari de son adaptation dans votre équipe. Il y aura toujours une marge d’erreur, mais si vous utilisez deux sources différentes au lieu d’une seule, et que vous confronter les avis, pour évaluer le joueur, vous réduisez cette marge d’erreur. Pour autant, rien n’est garanti et celui qui affirme avoir toujours raison, qu’il s’agisse de données ou de recrutement et bien il ment, c’est impossible !
Il semble que certains clubs travaillent mieux que d’autres sur cet aspect. Un club comme le RB Leipzig, semble faire de bonnes prévisions quant à l’adaptation du joueur, son profil et le style de jeu du club, son niveau à l’instant T mais aussi l’évaluation de sa marge de progression. Il n’y a bien sûr pas de recette miracle, mais ils semblent appliquer cette idée de combiner les datas et l’observation « experte ».
Oui, la recette consiste bien sûr à combiner les connaissances des spécialistes avec les données et les interpréter. Seules, les données n’apportent aucune réponse, il faut quelqu’un pour les interpréter. Quoi qu’il en soit, le RB Leipzig a une chose indispensable : ils ont un style de jeu très défini, très clair et ils savent de quels profils de joueurs ils ont besoin pour ce style de jeu.
« Seules, les données n’apportent aucune réponse, il faut quelqu’un pour les interpréter »
Je vais vous poser une question : combien d’équipes dans le monde ont une idée aussi claire, sur le profil de joueur qu’elles souhaitent, le style de jeu qu’elles veulent mettre en place et qui adaptent leur recrutement en fonction de cela ? Combien y a-t-il d’équipes qui prennent des décisions sur cette base ? C’est comme avoir une voiture rapide. Si vous ne savez pas comment la conduire et où vous voulez aller, vous avez beau avoir la meilleure voiture du monde, vous ne gagnerez pas. Vous devez savoir où vous voulez aller, avoir une carte ou un GPS qui indique le chemin et savoir conduire pour avoir du succès.
« Combien d’équipes dans le monde ont une idée aussi claire (que le RB Leipzig) et combien prennent des décisions sur cette base ? »
Dans le cas du football, c’est votre modèle de jeu que vous devez définir clairement ainsi que les profils de joueurs qui correspondent le mieux à celui-ci. Ensuite, il faut aussi prendre des décisions sur cette base, parce qu’il y a beaucoup de clubs qui, même s’ils ont une idée assez claire, ne prennent pas de décision adaptée. Ils recrutent en priorisant le fait de saisir quelques opportunités.
Avec la présence toujours plus importante de la data dans le football, il semble y avoir une opposition entre d’une part, les experts du modèle de jeu qui pensent que le football est quelque chose de simple, qui relève des sensations, etc. et d’autre part, les ingénieurs, les informaticiens, les analystes qui peuvent, comme certains le disent, tuer un peu le football. Qu’en pensez-vous, étant donné que vous avez une très bonne connaissance de ces « 2 mondes » ?
Je pense qu’un point essentiel dans ce débat, c’est que chacun essaie de protéger son territoire. En réalité, ce débat n’existe pas. Personne ne devrait dire que les données apportent toutes les solutions, ou au contraire, que les données n’apportent rien.
Les données sont une aide, un complément. Personne ne dit le contraire ou ne devrait dire le contraire, parce que souvent un faux argument est utilisé en disant : « Les données sont utiles, mais elles ne donnent pas toute la solution ». Bien sûr que non, mais personne ne dit le contraire, personne ne dit que les données offrent toute la solution.
« Personne ne devrait dire que les données apportent toutes les solutions, ou au contraire, que les données n’apportent rien »
Les données peuvent se tromper, les données peuvent aider. Tout comme les experts se trompent, les meilleurs scouts se trompent, les meilleurs managers se trompent… L’objectif quand on utilise la data, c’est de réduire le nombre d’erreurs.
De la même manière que vous utilisez la vidéo ou une réunion avec le représentant d’un joueur, vous pouvez utiliser la data, pour prendre la meilleure décision possible et faire le moins d’erreurs possibles. Pourquoi s’abstenir ? Bien sûr, la data ne vous dira pas : « Vous devez signer celui-ci ». Toute personne qui affirme que les données vous diront : « Vous devez signer ce joueur », vous ment. C’est un mensonge, les données ne vous diront jamais une chose pareille !
Il semble que les nations plus modestes, entre guillemets, comme les pays d’Europe du Nord, la Suède, le Danemark, etc. ont une culture de la data plus importante qu’en France, par exemple. Est-ce seulement une idée reçue ?
Je pense que la France est l’un des pays d’Europe où l’on travaille le mieux et le plus avec la data. C’est probablement l’un des trois pays où les données sont le mieux et le plus travaillées, sans aucun doute d’ailleurs.
Un immense MERCI à Alilou ISSA de nous permettre toutes ses données pour faire progresser nos éducateurs.