Niveau 8 - Statistiques et métriques - Xavier LardyXavier Lardy

L’article original « Level 8: Metrics and Statistics » a été écrit par Ian Schreiber et fait partie d’un cours de game design en ligne, publié sur le blog Game Balance Concepts.

L’article original et cette traduction sont publiés sous licence Creative Commons (Attribution).

N’hésitez pas à visiter le blog de Ian Schreiber et suivre son compte Twitter.

~ ~ ~ ~ ~ ~ ~

Lectures / Jeux

Voir « ressources complémentaires » à la fin de cet article pour une série de lectures supplémentaires.

Cette semaine

Une des raisons pour laquelle j’aime l’équilibrage des jeux c’est que différents aspects de l’équilibrage touchent pleins d’autres domaines du développement de jeu. Lorsque nous parlions des nombres pseudo-aléatoires, c’est un domaine où vous êtes dangereusement proche de la programmation. La semaine dernière nous avons vu comment la conception visuelle d’un niveau pouvait être utilisée comme récompense par le jeu ou pour exprimer une progression au joueur, ce qui reste de la conception de jeu mais juste un peu plus du côté de l’art. Cette semaine, nous allons directement à la frontière où la conception de jeu rencontre le sens des affaires.

Cette semaine je couvrirai deux sujets : les statistiques, et les métriques. Pour qui n’est pas familier avec ce que ces termes signifient, « métriques » signifie simplement une mesure, alors cela veut dire que vous mesurez ou tracez quelque chose à propos de votre jeu ; les tableaux de score ou une liste des meilleurs scores sont probablement les métriques les plus connues parce qu’elles sont présentées aux joueurs, mais nous pouvons aussi utiliser beaucoup de métriques en coulisses pour nous aider à rendre nos jeux meilleurs. Une fois que nous collectons plein de métriques, et que nous prenons ces mesures, elles ne font rien en elles-mêmes jusqu’à ce que nous les regardions en détail et les analysions pour apprendre quelque chose. Les « statistiques » sont simplement une autre série d’outils que nous pouvons utiliser pour extraire des informations utiles de nos métriques. Mais bien que nous collections des métriques en premier et ensuite utilisons les statistiques pour les analyser, je vais parler des statistiques en premier parce qu’il est utile de savoir comment les outils fonctionnent avant de décider quelles données capturer.

Statistiques

Les personnes qui n’ont jamais fait de statistiques auparavant les voient comme une science exacte. Ce sont des mathématiques, et les maths sont pures, et ainsi vous devriez être capable d’obtenir toutes les bonnes réponses tout le temps. En réalité, c’est beaucoup plus désordonné, et vous verrez que les concepteurs de jeu (et les statisticiens) ne sont pas d’accord sur les principes centraux des statistiques et encore moins qu’ils ne sont d’accord sur les principes centraux de la conception de systèmes, si jamais cela était possible.

Qu’est ce que sont les statistiques, et quoi sont-elles différentes des probabilités ?

Dans les probabilités, on vous donne un ensemble de choses aléatoires, et on vous dit exactement à quel point elles sont aléatoires et quelle est la nature de cet aléatoire, et votre but est d’essayer de prédire ce à quoi ressembleront les données lorsque vous mettez ces choses aléatoires en mouvement. Les statistiques en sont en sorte l’opposé : ici on commence par vous donner les données, et vous essayez de déterminer la nature de l’aléatoire qui a produit ces données.

Les probabilités et les statistiques ont une chose importante en commun : ni l’un ni l’autre ne sont garantis. Les probabilités peuvent vous dire qu’il y a 1/6 chance d’obtenir un certain nombre sur 1d6, mais elles ne vous diront pas quel sera le nombre effectivement tiré lorsque vous lancerez le dé pour de vrai. À l’identique, les statistiques peuvent vous dire à partir d’un paquet de lancers de dés qu’il y a une probabilité de distribution uniforme, et que vous êtes sûr à 95% mais qu’il y a 5% de chance que vous ayez tord. Et cette chance n’atteint jamais zéro.

Outils statistiques

Il ne s’agit pas d’un cours universitaire d’analyse statistique, ainsi tout ce que je dirais est qu’il existe beaucoup plus d’outils qui sont au delà de la portée de ce cours. Ce que je vais coucher sur papier ici est le minimum vital. Je pense que tout concepteur de jeu devrait les trouver utiles lorsqu’il analyse les métriques de ses jeux.

Moyenne : lorsque quelqu’un demande « la moyenne » de quelque chose, il parle certainement de la moyenne brute non pondérée (je sais qu’il existe deux autres types de moyenne, et probablement d’autres que j’ignore). Pour obtenir la moyenne d’une série de valeurs, vous les ajoutez toutes et divisez le résultat par le nombre de valeurs. C’est un peu comme la « valeur attendue » dans les probabilités, excepté que vous le calculez sur la base de lancers de dé du monde réel et pas une série de lancers de dé théoriquement équilibrés. Calculer la moyenne est incroyablement utile ; cela vous dit quelle est la valeur attendue approximative de quelque chose dans votre jeu. Vous pouvez voir la moyenne comme un calcul Monte Carlo de la valeur attendue, excepté que vous utilisez des données de playtest du monde réel plutôt qu’une simulation informatique.

Médian : voilà un autre type de moyenne. Pour la calculer, prenez toutes vos valeurs et triez-les de la plus petite à la plus grande, et ensuite prenez celle au centre. Ainsi, si vous avez cinq valeurs, la troisième est le médian. (Si vous avez un nombre pair de valeurs de manière à ce qu’il y en ait deux au centre plutôt qu’une, vous êtes supposé prendre la moyenne de celles-là, au cas où vous seriez curieux). En tant que tel, le médian n’est pas très utile, mais il en vous dit beaucoup si vous le comparez avec la moyenne, sur la façon dont vos valeurs sont toutes concentrées sur un côté ou si elles sont symétriques. Par exemple, aux États Unis, le revenu médian des ménages est plus bas que la moyenne, ce qui signifie que vous avez beaucoup de gens qui gagnent peu, et seulement quelques personnes qui ont des revenus ridiculement élevés qui font monter la moyenne. Dans une classe, si le médian est plus bas que la moyenne, cela signifie que la plupart des étudiants ont des difficultés, et qu’un ou deux surdoués cassent la distribution (bien que le plus souvent ce soit l’inverse, où la plupart des élèves sont concentrés autour de 75 ou 80 et ensuite vous avez un gamin fainéant qui reçoit un zéro ce qui fait beaucoup chuter la moyenne). Si vous faites un jeu avec un tableau des scores et que vous voyez un médian qui est plus bas que la moyenne, cela signifie probablement que vous avez une petite minorité de joueurs qui sont juste incroyablement bons au jeu et obtiennent des scores importants, alors que le reste des joueurs qui sont de simples mortels est beaucoup plus près du médian.

Déviation Standard : c’est juste assez geek pour donner l’impression que vous êtes bon en maths si vous l’utilisez dans une conversation normale. Vous la calculez en prenant chacune de vos données, la soustrayez de la moyenne, et mettez le résultat au carré (c’est-à-dire, multiplier le résultat par lui-même), puis ajoutez tous ces nombres au carré ensemble, et les divisez par le nombre total de données, et ensuite calculez la racine carrée de l’ensemble. Pour des raisons que vous n’avez pas réellement besoin de connaître, faire ce processus vous donne un nombre qui représente à quel point les données sont éparpillées. À la base, à peu-près les deux tiers de vos données sont dans une déviation standard de la moyenne, et presque toutes vos données sont à l’intérieur de deux déviations standard, et ainsi à quel point votre DS est grande fini par être lié à quel point votre moyenne est grande. Pour une moyenne de 50, une DS de 25 a l’air d’être plus répartie qu’avec une moyenne de 5000. Une DS relativement large signifie que vos données sont très dispersées, alors qu’une DS très petite signifie que vos données sont toutes regroupées ensemble.

Exemples

Pour vous donner un exemple, prenons en considération deux variables aléatoires : 2d6 et 1d11 + 1. Comme nous l’avons vu pendant la semaine sur les probabilités, ces deux vont vous donner un chiffre entre 2 et 12. Mais ils ont une nature très différente ; le 2d6 se concentre autour du centre, alors que le 1d11 + 1 est réparti sur tous les résultats de manière égale. Maintenant, les statistiques n’ont rien de particulier à dire par rapport à ça, mais partons simplement du fait que je lance les 2d6 trente-six fois et obtient chacun des résultats possibles, et ensuite je lance 1d11 onze fois et obtient aussi chacun des résultats possibles… ce qui est très improbable, mais cela nous permet d’utiliser des outils statistiques pour analyser les probabilités.

La moyenne des deux est 7, ce qui signifie que si vous essayez d’équilibrer l’un ou l’autre de ces nombre dans votre jeu, vous pouvez utiliser 7 comme valeur attendue. Que dire de l’étendue ? Le médian est aussi 7 pour les deux, ce qui signifie que vous avez autant de chances d’être au dessus ou en dessous de la moyenne, ce qui fait sens parce les deux sont symétriques. Toutefois, vous verrez que les déviations standard sont très différentes : pour 2d6, la DS est à peu près 2,5, ce qui signifie que la plupart du temps vous aurez des résultats entre 5 et 9 ; alors que pour 1d11+1, la DS est à peu près 3,5, et ainsi vous aurez autant de résultats dans la fourchette de 4 à 10 ici, comme vous l’aviez entre 5 et 9 pour 2d6. Ce qui ne paraît pas être très important, jusqu’à que vous commenciez à lancer les dés.

En autre exemple, peut-être que vous vous intéressez au temps que cela prend aux playtesteurs pour traverser votre premier niveau didacticiel dans un jeu vidéo que vous concevez. Votre objectif est que cela devrait prendre à peu près 5 minutes. Vous mesurez la moyenne à 5 minutes, le médian à 6 minutes, et la déviation standard à 2 minutes. Qu’est-ce que cela nous dit ? La plupart des gens prennent entre 3 et 7 minutes, ce qui pourrait être bien ou pas selon à quel point le niveau est sous le contrôle du joueur, mais dans beaucoup de jeux le didacticiel est conçu pour être une expérience linéaire, très standardisée et ainsi cela paraît être une fourchette particulièrement large. L’autre sujet de préoccupation est le médian élevé, qui suggère que la plupart des personnes prennent de fait plus de 5 minutes, et que vous avez simplement quelques personnes qui traversent le niveau très rapidement et font baisser la moyenne. C’est une bonne nouvelle en cela que vous savez qu’il n’y a personne qui prend quatre heures pour finir le niveau ou autre (sinon la moyenne serait à la place beaucoup plus élevée que le médian !), ce sont potentiellement de mauvaises nouvelles en cela que certains joueurs pourraient avoir trouver un raccourci non-intentionnel ou un exploit, ou qu’ils n’écoutent pas les dialogues ou autre ce qui fera qu’ils seront bloqués voire frustrés au niveau 2, ou que sais-je.

Cela suggère une autre leçon : les statistiques peuvent nous dire que quelque chose se passe, mais cela ne peut pas nous dire quoi et parfois il y a de nombreuses explications du pourquoi. C’est un des domaines où les statistiques sont souvent mal utilisées ou carrément abusées, en trouvant une explication logique pour les valeurs et en ignorant le fait qu’il pourrait y avoir aussi bien d’autres explications. Dans ce cas, nous n’avons aucun moyen de savoir pour le médian est plus petit que la moyenne, ou ses implications dans la conception du jeu… mais nous pourrions passer plus de temps à réfléchir aux réponses possibles, et ensuite collecter plus de données qui pourraient nous aider à les différentier. Par exemple, si une des craintes est que les joueurs zappent le dialogue d’introduction, nous pourrions de fait mesurer le temps passé à lire les dialogues en plus du temps total du niveau. Nous reviendrons plus tard dans cet article à ce concept de métriques de conception.

Il y a aussi une troisième leçon ici : je ne vous ai pas dis combien de playtesteurs j’ai utilisé pour obtenir ces données ! Plus vous avez de tests, plus précise sera votre analyse finale. Si vous n’aviez que trois tests, ces nombres seraient plutôt insignifiants si vous tentez de prédire les tendances générales. S’il y avait quelques milliers de tests, ça serait beaucoup mieux. (Combien de tests sont requis pour être certain que votre analyse est assez bonne ? Cela dépend de ce que « assez bon » signifie pour vous. Plus vous en avez, plus vous pouvez être, mais ce n’est jamais 100 % quel que soit le nombre de tests que vous faites. Les personnes dont c’est le métier ont des « intervalles de confiance » où ils vous donnent une fourchette de valeurs et ensuite disent quelque chose comme le fait qu’ils soient sûrs à 95% que la moyenne réelle soit entre telle et telle valeur. C’est plus de détail que la plupart d’entre nous ont besoin pour notre travail de conception quotidien).

Données aberrantes

Lorsque vous avez une série de données avec un petit ensemble d’entrées qui sont bien au dessus ou en dessous de la moyenne, le nom qu’on leur donne est « aberration » (en anglais outliers, prononcé comme les mots « out » (en-dehors) et « liars » (menteur)). Comme elles tendent à induire votre moyenne en erreur bien plus que le médian, si vous voyez que la moyenne et le médian diffèrent de beaucoup, c’est probablement à cause d’une aberration.

Lorsque vous faites de l’analyse statistique, vous pourriez vous demander quoi faire des aberrations. Est-ce que vous les incluez ? Est-ce que vous les ignorez ? Est-ce que vous les mettez dans leur groupe à elles ? Comme dans beaucoup de cas, cela dépend.

Si vous cherchez les motifs de jeu usuels et normaux, il est généralement préférable d’écarter les aberrations parce que par définition, elles n’adviennent pas dans les conditions de jeu normales. Si vous cherchez les cas limites alors vous voulez les conserver et y faire attention ; par exemple, si vous essayez d’analyser les scores que les gens obtiennent de manière à savoir comment les afficher sur le tableau des scores, vous devez prendre conscience que la liste des meilleurs scores sera dominée par les aberrations au sommet.

Dans les deux cas, si vous avez des aberrations, cela vaut en général le coût d’enquêter un peu plus pour déterminer ce qui s’est passé. En revenant à un exemple d’avant sur le temps de jeu du niveau, si la plupart des joueurs mettent entre 5 et 7 minutes pour compléter votre didacticiel mais que vous notez une petite minorité de joueurs qui passe à travers en 1 ou 2 minutes, cela suggère que ces joueurs ont trouvé une sorte de raccourci ou exploit, et vous voulez déterminer ce qui s’est passé. Si la plupart des joueurs mettent entre 5 et 7 minutes et vous avez un joueur qui a mis 30 minutes, c’est probablement parce que ce joueur a mis le jeu en pause et a dû s’absenter pour un moment, ou il s’amusait tellement à bidouiller dans le bac à sable qu’il n’a pas pris soins d’avancer au prochain niveau, ou que sais-je, et vous pouvez probablement l’ignorer si c’est simplement une personne. Mais s’il y a trois ou quatre personne (toujours dans une vaste majorité) qui a fait cela, vous pourriez vouloir enquêter un peu plus, parce qu’il pourrait y avoir un petit nombre de personnes qui rencontre des problèmes… ou des joueurs qui trouvent vraiment amusant un aspect de votre didacticiel, ce qui est bon à savoir au moment où vous concevez les autres niveaux.

Échantillons de population

Voici une autre façon pour les statistique de partir de travers : et tout cela se résume à ce que ou qui vous échantillonnez.

J’ai déjà mentionné un problème fréquent, qui est de ne pas avoir un échantillon assez large. Plus vous avez de données, mieux c’est. Je vais vous donner un exemple : à l’époque où je jouais à Magic L’Assemblée régulièrement, il y a une fois où j’ai construis un paquet de tournoi pour un ami, pour un tournoi auquel je ne pouvais pas participer mais lui pouvait. Pour dire si j’avais le bon ratio entre les terrains et les sorts, j’ai mélangé et distribué une main de départ et joué des tours fictifs pour voir si j’en avais assez. J’ai fait cela un bon nombre de fois en parcourant la quasi totalité du paquet, et puis j’ai enlevé certains terrains ou en ai rajouté d’autres selon le nombre de fois où j’en avais trop ou pas assez, et ensuite je mélangeais le paquet à nouveau et recommençais. Mais ce qui se passait était que je ne me rendais pas compte que les terrains étaient très régulièrement répartis et pas regroupés, et la plupart du temps il me semblait que tout se passait bien jusqu’à la fin… mais je ne me suis pas vraiment arrêté pour compter. Après le tournoi, que mon ami avait perdu de beaucoup, il m’a rapporté qu’il ne tirait constamment pas assez de terrains, et lorsque nous avons fait la revue du paquet et compté, il n’y avait que 16 terrains dans un paquet de 60 cartes ! Je me suis bien fait remonter les bretelles par mon ami, et avec raison. Le vrai problème ici était que j’essayai d’analyser le nombre de terrains par des méthodes statistiques, mais mon échantillon était trop petit pour tirer une seule conclusion significative.

Voici un autre exemple : supposons que vous conceviez un jeu ciblant un marché occasionnel. Vous faites en sorte que tous les membres de l’équipe de développement jouent au jeu de manière à avoir des données de référence sur combien de temps cela prend de jouer tous les niveaux et à quel point chaque niveau est challengeant. Problème : les gens qui jouent au jeu ne sont probablement pas des joueurs occasionnels, et ce n’est pas un échantillon représentatif de votre marché cible. Je suis certain que c’est déjà arrivé à un moment dans le passé.

Un exemple plus récent : dans True Crime : Hong Kong, l’éditeur Activision avait selon les sources demandé que les développeurs changent le sexe du personnage principal, parce que leur focus groupe avait dit qu’il préférait un protagoniste masculin. Le problème : le groupe était constitué uniquement d’hommes, ou la question était biaisée par la personne qui l’avait préparée, en tant que tentative délibérée de pousser un agenda plutôt que trouver la vérité du monde réel. Activision l’a nié, bien entendu, mais cela ne l’a pas empêché de devenir le sujet de conversation entre professionnels… pas seulement sur le rôle des femmes dans les jeux, mais aussi sur l’utilisation des focus groupes et des statistiques dans la conception de jeu. Vous voyez aussi des choses comme ça arriver dans le reste du monde, en particulier dans les politiques gouvernementales, où beaucoup de gens ont leur propre agenda et ils sont motivés pour ficeler une étude et utiliser les statistiques d’une manière qui démontre leur position.

À la base, lorsque vous collectez des données de playtest, vous voulez au mieux faire en sorte de recruter des playtesteurs qui soient le plus semblables que possible à votre marché cible, et vous voulez avoir le plus de playtesteurs que possible de manière à ce que le bruit de fond soit filtré. Votre analyse est aussi bonne que vos données !

Même si vous utilisez les statistiques « avec honnêteté » il y a encore de problèmes que tout concepteur de jeu rencontre encore, selon le type de jeu :

Pour les jeux vidéo, vous êtes à la merci de vos programmeurs, et il n’y a rien que vous puissiez faire contre ça. Les programmeurs sont ceux qui doivent consacrer du temps à coder les métriques que vous demandez. Le temps de programmation est toujours limité, alors à un certain moment vous devrez prendre une décision entre faire en sorte que vos programmeurs implémentent une collection de métriques… ou faire en sorte qu’ils implémentent, vous savez, les mécaniques de jeu que vous avez conçues. Et ça c’est si la décision n’est pas prise pour vous par votre producteur ou votre éditeur. C’est plus facile dans certaines société que d’autres, mais dans certains studios les « métriques » tombent dans les mêmes catégories que l’audio, la localisation et le playtest : des tâches qui sont déplacées vers la fin du cycle de développement jusqu’à ce qu’il soit trop tard pour faire quoi que ce soit d’utile.
Pour les jeux de société, vous êtes à la merci de vos playtesteurs. Plus vous collectez de données, mieux c’est bien entendu. Mais en réalité, un studio de jeu vidéo peut publier une béta et obtenir des centaines ou milliers de parties, alors que vous pourriez de façon réaliste être capable d’obtenir seulement une fraction de cela lors de tests en direct. Avec un échantillon plus petit, vos données de playtest sont bien plus suspectes.
Pour n’importe quel type de jeu, vous avez besoin d’être très clair à l’avance sur ce que vous avez besoin de mesurer, et avec quel niveau de détail. Si vous conduisez quelques centaines de playtests et découvrez après coup que vous avez besoin de collecter certaines données de l’état du jeu que vous ne collectiez pas avant, vous aurez à refaire tous ces tests. La seule chose à faire pour cela est de reconnaître que, comme votre conception, playtester avec les métriques est un processus itératif, et vous devez le prévoir dans votre planning.
Aussi, pour n’importe quel type de jeu, vous devez vous souvenir qu’il est très facile de tout casser accidentellement et obtenir la mauvaise réponse, comme les probabilités. Mais contrairement aux probabilités, il n’existe pas beaucoup de vérifications pour faire apparaître les mauvais résultats comme mauvais, puisque par définition vous ne savez pas exactement ce que vous cherchez ou la réponse à laquelle vous attendre. Alors vous avez besoin d’avancer avec précaution, et utiliser toutes les méthodes que vous pouvez trouver pour vérifier vos valeurs indépendamment. Cela aide aussi si vous essayez d’imaginer à l’avance quels seraient les résultats de votre analyse, et ce à quoi il pourraient ressembler.

Corrélation et causalité

Finalement, une des erreurs les plus communes avec les statistiques est lorsque vous notez une forme de corrélation entre deux choses. « Corrélation » signifie simplement ici que lorsqu’une chose augmente, une autre chose semble toujours augmenter (ce qui est une corrélation positive) ou diminuer (ce qui est une corrélation négative) en même temps. Reconnaître les corrélations est utile, mais beaucoup de gens partent du principe que parce que deux choses corrélées, une provoque l’autre, et que c’est quelque chose que vous ne pouvez pas tirer des statistiques seules.

Prenons un exemple. Disons que vous avez remarqué lors d’une partie de Puerto Rico qu’il existe une forte corrélation positive entre gagner, et acheter le bâtiment Usine ; disons que, sur 100 parties, dans 95 d’entre elles le gagnant avait acheté l’Usine. La supposition naturelle est que l’Usine doit être surpuissante, et que cela vous amène à la victoire. Mais vous ne pouvez pas tirer cette conclusion par défaut, sans information complémentaire. Voici quelques autres conclusions valides, basées seulement sur ces données :

Peut-être que c’est l’inverse, que gagner amène le joueur à acheter l’Usine. Cela semble étrange, mais peut-être l’idée est qu’une Usine aide le joueur qui est déjà en train de gagner ; alors ce n’est pas l’Usine cause la victoire, c’est qu’être très en avance amène le joueur à acheter l’Usine pour n’importe quelle raison.

Ou, cela pourrait être que quelque chose d’autre amène à la fois le joueur à gagner et à acheter l’Usine. Peut-être qu’un achat de début de partie place le joueur en position d’acheter l’Usine, et que cet achat de début de partie aide aussi le joueur à gagner, et ainsi l’Usine est juste un symptôme et non la cause initiale.
Ou bien, les deux pourrait de fait n’être pas corrélés, et votre taille d’échantillon n’est pas assez large pour la Loi des Grands Nombres pour réellement entrer en jeu. Nous voyons cela tout le temps dans la culture populaire, où deux choses qui n’ont évidemment aucune relation sont identifiées comme étant corrélées, comme les résultats des matchs des Redskins prédisant la prochaine élection présidentielle aux États-Unis, ou un poulpe qui prédit le gagnant de la Coupe du Monde, ou une marmotte dont l’ombre prédit supposément la durée restante de l’hiver. Comme nous l’avons appris en regardant les probabilités, si vous prenez beaucoup de choses aléatoires vous serez capables de voir des motifs ; une chose à laquelle vous pouvez vous attendre est de voir des séries qui ne se ressemblent pas, mais une autre est aussi que si vous prenez un paquet de séries de données, certaines d’entre elles seront sans doute corrélées par hasard. Si vous ne me croyez pas, essayez de lancer deux dés distincts plusieurs fois et ensuite calculez la corrélation entre ces nombres ; je parie que ce n’est pas zéro !

Les statistiques dans Excel

Voici la bonne nouvelle : alors qu’il y a pas mal de formules de mathématiques ici, vous n’avez de fait pas besoin d’en connaître aucune. Excel le fera pour vous, comme il possède déjà toutes ces formules. Voici les plus utiles :

MOYENNE (AVERAGE) : à partir d’une sélection de cellules, cela calcule la moyenne. Vous pouvez aussi prendre la SOMME (SUM) des cellules et la diviser par le nombre de cellules, mais MOYENNE est plus aisé.
MEDIANE (MEDIAN) : à partir d’une sélection de cellules, cela calcule la valeur médiane, comme vous l’aviez deviné.
STDEV : à partir d’une sélection de cellules, ce vous donne la déviation standard.
COEFFICIENT.CORRELATION (CORREL) : vous donnez à cette fonction deux séries de cellules, pas juste une, et elle vous donne la corrélation entre les deux séries de données. Par exemple, vous pourriez avoir une colonne avec une liste de scores finaux pour un jeu, et une autre colonne avec une liste des scores à la fin du premier tour, pour voir si une performance de début de partie constitue un indicateur du résultat final du jeu (et si c’est le cas, cela pourrait suggérer une boucle de rétroaction positive dans jeu quelque part). Le nombre qu’Excel vous donne à partir de la fonction CORREL s’étale entre -1 (corrélation parfaitement négative) et 0 (non corrélé) à +1 (corrélation parfaitement positive).

Il y a t-il des bonnes nouvelles ?

À ce stade j’ai passé tellement de temps à parler du fait que les statistiques sont mal utilisées, que vous pourriez vous demander si elles sont réellement utiles à quoi que ce soit. Et la réponse est oui. Si vous avez une question qui ne peut être répondue avec l’intuition seule, et qui ne peut être répondue avec nos calculs de coût ou de courbes de progression, les statistiques peuvent vous aider à tirer des conclusions utiles… si vous posez les bonnes questions et si vous collectez les bonnes données.

Voici un exemple qu’une fois où les statistiques m’ont réellement aidé dans un jeu sur lequel je travaillais. Je travaillais pour une société qui faisait ce jeu en ligne, et nous avions trouvé que notre population en ligne était en train de chuter et que les gens ne jouaient plus beaucoup, parce que cela faisait un moment que nous n’avions pas publié de mise à jour. (Cette partie était attendue. Sans mise à jour, j’ai découvert qu’un jeu en ligne perd à peu près la moitié de sa population principale à peu près tous les 6 mois, du moins c’était mon expérience).

Mais ce que à quoi nous ne nous attendions pas, c’était qu’un de nos quatre programmeurs s’était ennuyé un jour et avait fait un robot à questions, et juste ce petit script qui se connectait dans nos serveurs avec son propre compte joueur, envoyait des questions de culture générale toutes les deux minutes, et ensuite triait les réponses du public dans le chat pour voir si quelqu’un avait donné la bonne réponse. Et c’était populaire, aussi stupide, simple et déjanté que c’était, parce que c’était une expérience occasionnelle immédiate et plus courte.

Maintenant, la grande question est : qu’est-il arrivé à la population des joueurs, et qu’est-il arrivé au vrai jeu que les joueurs étaient supposés jouer (vous savez, ceux qui se seraient connectés à la salle de chat pour trouver quelqu’un à défier, avant qu’ils ne soient distraits par le robot à questions?).

Certains joueurs ont adoré le robot à questions. Cela leur donnait quelque chose à faire entre les parties. D’autres ont détesté le robot à questions ; ils disaient que c’était plus difficile de trouver une partie, parce que tout le monde qui était connecté était trop occupé à répondre à de bêtes questions pour réellement jouer à un vrai jeu. Qui avait raison ? L’intuition avait échoué, parce que l’intuition de tout le monde était différente. Écouter les joueurs avait échoué, parce que la minorité vocale de la base de joueurs était polarisée, et il n’y avait aucun moyen de sonder ceux qui n’étaient pas dans la minorité vocale. Les mathématiques avaient échoué, parce que le robot à question ne faisait pas partie du jeu, et encore moins la courbe de coût. Est-ce que nous pourrions y répondre avec les statistiques ? Très certainement, et nous l’avons fait !

C’était assez simple que cela n’a même pas demandé tant d’analyse que ça. Mesurez le nombre total de connexions par jour. Mesurez le nombre total de parties jouées. Comme notre serveur traçait déjà chaque connexion de joueur, déconnexion et début de partie, nous avions ces données, et tout ce que nous avions à faire était une analyse très simple, qui était de tracer comment les choses évoluaient au cours du temps. Comme attendu, les nombres chutaient tous graduellement à partir du moment de la dernière vraie mise à jour, mais le robot à question avait provoqué une augmentation notable dans le total de connexions et du nombre de parties jouées. Il apparu que les joueurs se connectaient et jouaient avec le robot à question, mais tant qu’ils étaient là, ils jouaient aussi des parties avec d’autres joueurs ! C’était une conclusion qui aurait été impossible à obtenir de manière définitive, sans l’analyse des données brutes. Et cela nous avait appris quelque chose de très important sur les jeux en ligne : plus vous avez de joueurs en ligne qui interagissent les uns avec les autres, le mieux c’est… même s’ils interagissent de manières non standard.

Métriques

Voici un motif usuel dans les domaines créatifs et artistiques, en particulier les sujets comme l’archéologie, la conservation des œuvres, la psychologie ou la médecine, où cela demande une certaine quantité d’intuition mais en même temps il existe une « bonne réponse » ou une « meilleure méthode » pour faire les choses. La progression ressemble un peu à ça :

Les pratiquants voient leur domaine comme une « science molle » ; ils n’ont pas connaissance des bonnes pratiques. Il apprennent comment fonctionnent les choses et de fait, c’est principalement par essais et erreurs.
Quelqu’un crée une technologie qui semble résoudre beaucoup de ces problèmes de façon algorithmique. Les pratiquants se réjouissent. Finalement, nous avons une science dure ! Plus de devinettes ! Les pratiquants les plus jeunes abandonnent les « vieilles pratiques » et embrassent « la science » comme moyen de résoudre tous les problèmes de leur domaine. L’arrière-garde, pendant ce temps, voit cela comme une menace pour leur façon habituelle de faire, et le regarde avec scepticisme.
Les limitations de la technologie deviennent apparentes après quelques utilisations. Les pratiquants réalisent qu’il reste un élément mystérieux, ineffable dans ce qu’ils font, et même si un jour la technologie pourrait répondre à tout, ce jour est bien plus éloigné qu’il ne le semblait au début. Une très large désillusion survient, parce que les gens ne veulent plus se fier à leur instinct car théoriquement la technologie peut faire mieux, mais les gens ne veulent pas faire confiance à la technologie actuelle parce qu’elle ne fonctionne pas très bien pour l’instant. Les jeunes révolutionnaires reconnaissent que ce n’était pas la panacée qu’ils attendaient ; l’arrière-garde reconnaît que c’est plus utile qu’elle ne l’avait estimée au départ. Et tout le monde s’embrasse.
Après un moment, tout le monde s’installe dans un motif où ils apprennent quelles parties peuvent être faites avec les algorithmes informatiques, et quelles parties nécessitent de fait une pensée créative humaine, et le domaine devient plus fort quand le meilleur des deux parties se combine. Mais apprendre quelles parties sont plus adaptées aux humains et quelles parties sont plutôt à laisser aux ordinateurs est un processus d’apprentissage et prend du temps.

De nos jours, la conception de jeu semble être à peine en train de débuter l’étape 2. Nous entendons de plus en plus des gens dire de manière anecdotique que les métriques et l’analyse statistique ont sauvé leur société. Nous entendons parler des MMO qui sont capables de résoudre leurs problèmes d’équilibrage en étudiant les motifs de jeu des joueurs, avant que les joueurs eux-même n’en apprennent assez pour les exploiter. Nous entendons parler de Zynga qui change la couleur de la fonte de rouge à rose ce qui génère exponentiellement plus de clics de la part des joueurs qui essayent d’autres jeux. Nous avons des sociétés entières qui ont émergé simplement pour aider les développeurs de jeu à capturer et analyser leurs métriques. L’industrie est en train de tomber amoureuse des métriques, et j’irai jusqu’à prédire qu’au moins une société qui repose uniquement sur de la conception pilotée par les métriques va se tromper, de beaucoup, au moment où toute cette affaire se dissipera, parce qu’ils regarderont avec tellement d’intensité les chiffres qu’ils en oublieront qu’il y a de fait des joueurs humains là dehors qui essaient de s’amuser d’une manière qui ne peut pas vraiment être mesurée directement. Ou peut-être pas. Je me suis déjà trompé avant.

Quoi qu’il en soit, il semble maintenant qu’il y ait trois écoles de pensée sur l’utilisation des métriques :

Le modèle de Zynga : concevoir presque exclusivement avec les métriques. À prendre ou à laisser. 60 millions de joueurs uniques actifs par mois se gaussent de votre faible conception basée sur l’intuition.
Rébellion contre le modèle Zynga : les métriques sont faciles à comprendre de travers, faciles à manipuler, et ainsi dangereuses et font plus de mal que de bien. Si vous mesurez l’activité du joueur et découvrez que plus de joueurs utilisent l’écran de connexion plus que n’importe quelle autre action, cela ne veut pas dire que vous devez ajouter plus d’écran de connexion à votre jeu à partir d’une forme de notion préconçue que si un joueur le fait, c’est que c’est amusant. Si vous concevez en utilisant des métriques, vous vous forcer à concevoir le type de jeux qui ne peut être conçu que par les métriques, ce qui vous pousse encore plus loin de genres vidéoludiques vraiment intéressants.
La route modérée : les métriques ont leur utilité, elle vous aident à ajuster votre jeu pour trouver les « pics » locaux de satisfaction. Elles vous aident à prendre un bon jeu et le rendre un tout peu meilleur, en vous aidant à explorer l’espace de conception proche. Toutefois, l’intuition a aussi son utilité ; parfois vous avez besoin de faire de grands bons dans des territoires inexplorés pour trouver les « pics » globaux, et les métriques seules ne vous amèneront pas ici, parce que parfois vous devez rendre un jeu un peu moins bon d’une certaine manière avant qu’il devienne bien meilleur d’un autre manière, et les métriques ne vous laisseront pas faire cela.

Réfléchissez-y un peu et décidez où vous vous situez, à titre personnel, en tant que concepteur. Et quid des membres de l’équipe avec qui vous travaillez (si vous travaillez avec d’autres personnes dans une équipe) ?

Combien de choses mesurer ?

Supposons que vous vouliez prendre quelques métriques dans votre jeu de manière à pouvoir revenir faire de l’analyse statistique pour améliorer l’équilibre de votre jeu. Quelles métriques est-ce que vous allez prendre – c’est-à-dire, qu’est-ce que vous voulez mesurer exactement ?

Il y a deux écoles de pensée dont j’ai été témoin. L’une consiste à enregistrer tout ce à quoi vous pouvez penser, en garder la trace et le miner plus tard. L’idée est qu’il est préférable de collecter trop d’information et ne pas l’utiliser, que ne pas collecter un élément d’information critique et ensuite devoir refaire tous les tests.

Une autre école de pensée est que « tout enregistrer » est bien en théorie, mais en pratique vous avez soit cette quantité débordante d’information supplémentaire à partir de laquelle vous êtes supposés trouver cette aiguille dans une botte de foin ou tout autre chose d’utile, ou possiblement pire, vous minez à mort cette montagne de données jusqu’au stade où vous avez trouvé tout un tas de corrélations et relations qui n’existent pas réellement. Avec cette façon de faire, au lieu de cela vous devriez déterminer à l’avance ce dont vous aurez besoin pour votre prochain playtest, et mesurer uniquement cela, et de cette façon vous n’êtes pas confus lorsque vous regardez aux mauvaises choses de la mauvaise manière plus tard.

Encore une fois, réfléchissez à là où vous vous situez par rapport à la question.

Personnellement, je pense que cela dépend beaucoup des ressources que vous avez. Si c’est vous et vos amis qui font un petit jeu commercial en Flash, vous n’avez probablement pas assez de temps pour faire beaucoup de minage de données intensif, alors vous serez mieux à déterminer les informations utiles dont vous avez besoin à l’avance, et ajouter quelques métriques plus tard si une nouvelle question émerge qui requiert des données que vous ne traciez pas encore. Si vous êtes dans une grosse société avec une armée de statisticiens actuariels avec rien de mieux à faire que trouver des corrélations entre les données toute la journée, alors bien entendu, faites-vous plaisir avec la collection de données et vous trouverez probablement tout un tas de choses intéressantes auxquelles vous n’auriez jamais pensé par ailleurs.

Quelles choses spécifiques mesurez-vous ?

Tout cela est bien beau, mais que vous disiez « prenez juste ce dont nous avons besoin » ou « collectez tout ce que vous pouvez », aucun des deux ne correspond réellement à de la conception. À un certain stade vous avez besoin de spécifier que ce vous avez exactement besoin de mesurer.

Comme la conception de jeu elle-même, les métriques sont un problème de second-ordre. La plupart des choses que vous voulez savoir sur votre jeu, vous ne pouvez pas le mesurer directement, alors à la place vous devez déterminer quelque chose que vous pouvez mesurer et qui se corrèle fortement avec ce que vous essayez d’apprendre réellement.

Exemple : mesurer l’amusement

Prenons un exemple. Dans un jeu solo en Flash, vous pourriez avoir besoin de savoir si le jeu est amusant ou non, mais il n’existe aucun moyen de mesurer l’amusement. Qu’est-ce qui se corrèle avec l’amusement, que vous pouvez mesurer ? Une chose pourrait être que si les joueurs continuent à jouer pendant longtemps, ou s’ils passent assez de temps à jouer pour finir le jeu et débloquer toutes les prouesses, ou s’ils reviennent pour jouer à de multiples sessions (en particulier s’ils rejouent une fois qu’ils ont « gagné »), voilà des choses que nous pouvons mesurer. Maintenant, gardez à l’esprit que ce n’est pas une corrélation parfaite ; les joueurs pourraient revenir à votre jeu pour d’autres raisons, comme si vous avez inclus une mécanique de détérioration des cultures qui les punit s’ils ne reviennent pas ou autre. Mais au moins nous pouvons partir du principe que si un joueur continue à jouer, il y a probablement au moins une raison, et c’est une information utile. Pour appuyer ce point, si beaucoup de joueurs arrêtent de jouer à votre jeu à un certain endroit et ne reviennent pas, cela nous dit que cet endroit dans le jeu n’est probablement pas agréable et pourrait faire fuir les joueurs. (Ou si l’endroit où ils ont arrêté de joueur était la fin, peut-être qu’ils l’ont trouvé très agréable, mais ils ont terminé le jeu et maintenant ils ont fini, et vous ne leur avez pas donner de raison de continuer à jouer après ça. Alors tout dépend du moment où ça se passe).

Les motifs d’utilisation des joueurs sont très importants, parce que, si les gens jouent ou non, à quelle fréquence ils jouent, combien de temps ils jouent sont (par chance) corrélés avec à quel point ils apprécient le jeu. Pour les jeux qui demandent aux joueurs de revenir régulièrement (comme votre jeu Facebook typique), les deux mots-clefs que vous entendez souvent sont « Monthly Active Uniques » [ NdT : nombre de joueurs actifs par mois ] et « Daily Active Unique » [ NdT : nombre de joueurs actifs par jour ] (MAU et DAU). La partie « Active » de cela est importante, parce qu’elle fait en sorte que vous n’augmentiez pas vos valeurs en comptant un paquet de vieux comptes dormants qui appartiennent à des joueurs qui ont arrêté de jouer. La partie « Unique » est aussi importante parce qu’une personne obsessive qui se connecte à Farmville dix fois par jour ne signifie pas qu’il compte comme dix utilisateurs. Maintenant, normalement vous pourriez penser que « Monthly » et « Daily » devraient être équivalents, en multipliant simplement « Daily » par à peu près 30 pour obtenir « Monthly », mais en réalité les deux seront très différents en prenant en compte la vitesse à laquelle les joueurs s’épuisent (c’est-à-dire, quelle superposition il y a entre différents ensembles d’utilisateurs quotidiens). Ainsi si vous divisez MAU par DAU, cela vous dit quelque chose sur combien de vos joueurs sont nouveaux et combien sont des clients qui reviennent.

Par exemple, supposons que vous ayez un jeu vraiment engageant avec une petite base de joueurs, ainsi vous n’avez que 100 joueurs, mais ces joueurs se connectent au moins une fois par jour. Ici votre MAU sera 100, et votre DAU moyen sera aussi de 100, et ainsi votre MAU / DAU sera de 1. Maintenant supposons qu’à la place vous avez un jeu auquel les gens ne jouent qu’une seule fois et plus jamais, mais votre marketing est bon et vous obtenez 100 nouveaux joueurs par jour mais ils ne reviennent pas. Ici votre DAU moyen sera encore de 100, mais votre MAU est autour de 3000, alors votre MAU/DAU est autour de 30 dans ce cas. Ainsi voici la fourchette, le MAU/DAU s’étend entre 1 (pour un jeu où tous les joueurs sont extrêmement loyaux) à 28,30 ou 31 selon le mois (ce qui représente un jeu où personne ne joue plus d’une fois).

Un mot d’avertissement : beaucoup de métriques, comme celles que Facebook fournit, peuvent utiliser différentes méthodes pour calculer ces nombres et ainsi une série de valeurs n’est pas comparable à une autre. Par exemple, j’ai vu un site qui avait listé le « pire » ratio de MAU / DAU dans le top 100 des applications comme 33 virgule quelque chose, ce qui devrait être tout simplement impossible, alors clairement les chiffres quelque part ont été trafiqués (peut-être qu’ils ont utilisé les Journaliers avec un nombre de jours différents que pour les Mensuels ou autre). Et ainsi certaines personnes calculent cela comme un pourcentage, c’est-à-dire en moyenne, quel pourcentage de votre réserve de joueurs se connecte durant une journée donnée, ce qui devrait aller d’un minimum de 3,33% (1/30 de vos joueurs actifs du mois qui se connectent chaque jour) à un maximum de 100% (tous vos joueurs actifs du mois qui se connectent tous les jours). C’est calculé en prenant DAU / MAU (au lieu de MAU / DAU) et en le multipliant par 100 pour obtenir un pourcentage. Ainsi si vous voyez n’importe quel chiffre comme celui-là sur un site web d’analyse, vérifiez que vous êtes certains de comment ils calculent les valeurs de manière à ne pas comparer des pommes avec des oranges.

Pourquoi est-ce important de connaître ce nombre ? D’une part, si beaucoup de vos joueurs reviennent, cela signifie probablement que vous avez un bon jeu. D’autre part, cela signifie que vous êtes plus à-même de faire de l’argent avec le jeu, parce que vous avez les mêmes personnes qui s’y arrêtent chaque jour… un peu comme si vous gériez un magasin en dur, et une personne qui s’arrêtent simplement faire du lèche-vitrine pourrait ne pas vous acheter quoi que ce soit, mais si la même personne rentre et ne fais « que regarder » tous les jours, elle va probablement vous acheter quelque chose à l’avenir.

Une autre métrique qui est beaucoup utilisée, en particulier sur les portails de jeux en Flash, est d’aller demander aux joueurs eux-mêmes d’évaluer le jeu (souvent sous la forme d’un système de note en 5 étoiles). En théorie, nous pourrions espérer que des bonnes évaluations signifient un bon jeu. En théorie, nous pourrions nous attendre à ce qu’un jeu avec des bons notes données par les joueurs aurait aussi un bon ratio MAU / DAU, c’est-à-dire, que les deux devraient être corrélés. Je n’ai pas connaissances d’études qui aurait analysé cela, bien que je serai intéressé d’en voir les résultats, mais si j’avais à estimer je partirai du principe qu’il existe un peu de corrélation mais pas tant que ça. Les utilisateurs qui donnent des notes ne sont pas un échantillon représentatif ; d’une part, ils ont tendance à avoir des opinions tranchées sinon ils n’auraient pas donné de notes (sérieusement, je me suis toujours posé des questions sur ces sondages d’opinion qui vous disaient que quelque chose comme 2% des personnes qui ont répondu avait dit qu’elles n’avaient pas d’opinion… je veux dire, qui appelle une ligne de sondages rémunérés juste pour dire qu’ils n’ont pas d’opinion?), et ainsi alors que la qualité réelle se situe probablement sur une courbe en cloche vous avez tendance à avoir plus de notes à 5 ou 1 étoiles que de notes à 3 étoiles, qui ne correspond pas à ce quoi vous pourriez vous attendre si tout le monde avait noté le jeu avec justesse. Aussi, il reste la question de savoir si l’opinion du joueur est plus ou moins significative que le motif de jeu réel ; si un joueur se connecte chaque jour pendant des mois jusqu’au bout, mais note le jeu 1 étoile sur 5, qu’est-ce que cela signifie ? Ou si un joueur admet qu’il n’a même pas joué au jeu, mais qu’il lui donne 4 étoiles sur 5 sur la base de… je ne sais pas… sa réputation ? Aussi, les joueurs ont tendance à ne pas noter un jeu alors qu’ils y jouent activement, mais seulement (en général) une fois qu’ils ont terminé, ce qui modifie un peu les choses (selon la raison pour laquelle ils ont arrêté d’y jouer). Ainsi c’est probablement mieux de faire attention au motifs d’utilisation qu’un rapport par le joueur, en particulier si ce rapport n’est pas fait pendant la partie et depuis le jeu d’une manière que vous pouvez tracer.

Voilà, j’ai parlé de jeu vidéo, et de fait un grosse partie est spécifique aux jeux en ligne. L’équivalent dans les jeux de société est un petit peu plus flou, mais en tant que concepteur vous voulez à la base observer les expressions faciales des gens et leur posture pour voir à quel moment ils sont engagés et quand ils s’ennuient ou sont frustrés. Vous pouvez voir comment cela se corrèle à certains événements dans la partie ou position sur le plateau. Encore une fois, vous pouvez essayer de vous reposer sur des échanges avec les joueurs, mais c’est dangereux parce que la mémoire des joueurs concernant ces détails n’est pas aussi bonne (et même si c’était le cas, aucun playtesteur ne sera complètement honnête avec vous). Pour les jeux vidéos qui ne sont pas en ligne, vous pouvez capturer des métriques basées sur les motifs d’utilisation des joueurs, mais vous devrez être clair avec vos joueurs sur le fait que vous allez les conserver quelque part, à cause des soucis sur les données privées.

Un autre exemple : mesurer la difficulté

La difficulté vue par le joueur, comme l’amusement, est quelque chose qui est de base impossible à mesurer directement, mais ce que vous pouvez mesurer est la progression, et l’échec à progresser. Les mesures de progression seront différentes selon votre jeu.

Pour un jeu qui présente des défis basés sur la compétence comme un jeu d’arcade rétro, vous pouvez mesurer des choses comme le temps que cela prend à un joueur pour nettoyer chaque niveau, et combien de fois il perd une vie sur chaque niveau, et aussi très important, où et comment il perd de la vie. Collecter cette information rend très facile de voir où se trouvent les endroits les plus difficiles, et s’il y a des pics non-intentionnels sur votre courbe de difficulté. Je sais que Valve fait cela pour ses jeux de tir à la première personne, et qu’ils ont de fait un outil de visualisation qui non seulement affiche toutes ces informations, mais de fait les superpose sur la carte du niveau, de manière à ce que vous puissiez voir où les morts des joueurs sont concentrées. De façon intéressante, en partant de l’épisode 2 de Half Life 2 ils ont des rapports en directs et des chargements de la part de joueurs sur leurs serveurs, et ils ont publié leurs métriques sur une page publique (ce qui a probablement aidé avec le sujet des questions liées aux données privées, parce que les joueurs peuvent voir par eux-même exactement ce qui est chargé et comment c’est utilisé).

Encore un autre exemple : mesurer l’équilibrage du jeu

Et si à la place vous vouliez savoir si votre jeu était juste et équilibré ? Ce n’est pas quelque chose que vous pouvez mesurer directement non plus. Toutefois, vous pouvez tracer n’importe quelle valeur attachée à n’importe quel joueur, action ou objet dans le jeu, et cela peut vous en dire beaucoup sur les motifs de jeu normaux, et aussi l’équilibre relative des stratégies, des objets, ou n’importe quoi d’autre.

Par exemple, supposons que vous ayez un jeu de stratégie où chaque joueur peut faire une action parmi quatre à chaque tour, et vous avez un moyen de tracer numériquement la position de chaque joueur. Vous pourriez enregistrer à chaque tour, quelle action chaque joueur a prise, et comme elle a affectée sa position respective dans le jeu.

Ou, supposons que vous ayez un JCC ou les joueurs construisent leur propre paquets, ou un jeu de combat où chaque joueur choisit un combattant, ou un STR où les joueurs choisissent une faction, ou un MMO ou un JdR où les joueurs choisissent une combinaison race / classe. Deux choses que vous pouvez tracer ici sont les choix qui semblent les plus et les moins populaires, et aussi quels choix semblent avoir la plus haute corrélation avec le fait de gagner. Notez que ceci n’est pas toujours la même chose ; parfois la grosse chose qui a l’air sympa que tout le monde aime parce qu’elle est impressionnante et facile à utiliser est quand même battue par un joueur suffisamment compétent qui utilise une stratégie moins bien connue. Parfois, les stratégies dominantes prennent des mois voire des années à émerger à travers des dizaines de milliers de parties jouées ; la carte Nécropuissance dans Magic : L’Assemblée n’a pas été vue en jeu pendant environ six mois après sa sortie, jusqu’à ce que certains joueurs de haut niveau comprennent comment l’utiliser, parce qu’elle a une série d’effets obscurs très compliqués… mais une fois que les gens ont commencé à expérimenter avec, ils ont trouvé que c’était l’une des cartes les plus puissante jamais créée. Ainsi, à la fois la popularité et la corrélation avec la victoire sont deux métriques utiles ici.

Si un objet particulier du jeu se voit être bien plus utilisé que ce à quoi vous vous attendez, cela peut certainement signaler une problème potentiel d’équilibrage du jeu. Cela peut aussi signifier que cet objet est plus attirant pour votre public cible pour n’importe quelle raison – par exemple, dans un jeu de haute fantaisie, vous pourriez être surpris de voir que les joueurs créent plus d’Elfes que d’Humains, indépendamment des problèmes d’équilibrage… ou peut-être que vous ne seriez pas surpris. La popularité peut être un signe dans certains jeux qu’un certain style de jeu est vraiment amusant comparé à d’autres, et vous pouvez parfois migrer cela dans d’autres personnages ou classes ou cartes ou ce que vous avez sous la main de manière à rendre le jeu plus amusant dans l’ensemble.

Si un objet du jeu se voit moins utilisé qu’attendu, encore une fois cela peut signifier qu’il est sous-puissant ou sur-côté. Cela pourrait aussi signifier qu’il n’est simplement pas très amusant à utiliser, même s’il est efficace. Ou cela pourrait signifier qu’il est trop compliqué à utiliser, qu’un à une longue courbe d’apprentissage par rapport au reste du jeu, et ainsi les joueurs n’expérimentent pas avec lui immédiatement (ce qui peut être réellement dangereux si vous vous reposez sur des playtesteurs pour, vous voyez, playtester, s’ils laissent des éléments de côté et ne jouent pas vraiment avec).

Les métriques ont d’autres applications en dehors des objets du jeu. Par exemple, un domaine très utile est dans la mesure des asymétries de départ, un très courant étant l’avantage du premier joueur (ou désavantage). Collectez un paquet de données sur la position des joueurs autour de la table et les résultats finaux. Cela arrive beaucoup dans les sports professionnels ; par exemple, je pense que les statisticiens ont calculé que l’avantage de jouer à la maison dans le Football Américain était de 2,3 point environ, et selon là où vous jouez l’avantage du premier joueur au Go vaut 6,5 ou 7,5 points (dans le dernier cas, la moitié du point est utilisé pour éviter l’égalité). Les statistiques des tournois Colons de Catane ont montré un très léger avantage à jouer deuxième dans un jeu à quatre joueurs, de l’ordre d’un centième de pourcent ; normalement nous pourrions l’écarter comme variation lié à l’aléatoire, mais le très important nombre de parties qui ont été jouées donne à ce chiffre un certain poids.

Un dernier exemple : mesurer l’argent

Si vous essayez de faire de l’argent en vendant votre jeu, que ce soit en entier ou en partie, alors au bout du compte c’est l’une de vos considérations les plus importantes. Pour certaines personnes c’est la considération la plus importante : ils préfèrent avoir un jeu qui fait beaucoup d’argent mais n’est pas amusant ou intéressant du tout, qu’un jeu qui est brillant et innovant et amusant et merveilleux mais reste un « succès dormant » qui est simplement une façon polie de dire qu’il a fait un four sur le marché, mais ne le méritait pas. D’autres concepteurs de jeux préféreraient faire d’abord un jeu amusant, et une chose que chacun d’entre vous devrait prendre en considération est, à titre personnel, de quel côté de la barrière vous vous situez… parce que vous ne le savez pas pour vous, quelqu’un d’autre le décidera pour vous le moment venu.

En tous cas, l’argent est quelque chose à laquelle tout jeu commercial devrait faire attention d’une manière où d’une autre, alors c’est quelque chose qui mérite d’être tracé. Ces ventes vous disent quelque chose en lien avec la qualité du travail que vous avez fait sur la conception du jeu, avec une tonne d’autres facteurs comme les conditions du marché, le succès du marketing, la propagation virale, et ainsi de suite.

Avec les jeux traditionnels vendus en ligne ou dans les magasins, c’est une courbe assez standard : les grosses ventes du jour de sortie diminuent au cours du temps sur une courbe exponentielle décroissante, jusqu’à ce qu’ils arrivent au stade où les ventes ne sont pas suffisantes et cela ne vaut pas le coût de continuer à le vendre. Avec les jeux en ligne vous n’avez pas à vous inquiéter de l’inventaire ou de l’espace sur étagère et ainsi vous pouvez le conserver un peu plus longtemps, et c’est là où la « longue queue » (long tail) arrive, parce que je pense que l’idée est que cette courbe donne l’impression d’avoir une queue sur sa partie droite. Dans ce cas les choses à regarder sont les pointes soudaines, quand elles arrivent, et qu’est-ce qui les a provoquées parce qu’elles n’arrivent en général pas par elles-mêmes.

Malheureusement, cela signifie que les métriques de ventes pour les modèles de vente traditionnels ne sont pas du tout utiles pour les concepteurs de jeu. Nous voyons une courbe unique qui combine beaucoup de variables, et nous n’obtenons le retour qu’une fois que le jeu est publié. Si c’est un jeu dans une série c’est plus utile parce que vous nous pouvons voir comment les ventes évoluent d’un jeu à l’autre et quelles mécaniques de jeu ont été changées, ainsi si le jeu a fait un pas important dans une nouvelle direction et a drastiquement augmenté ou diminué ses ventes, cela vous donnera un peu d’information ici.

Si à la place votre jeu est en ligne, comme un MMO, ou un jeu en Flash sur un portail ou sur Facebook, le motif peut être un peu différent : les ventes démarrent lentement (un peu plus haut si vous faites du marketing en amont), et si le jeu est bon elles augmentent au cours du temps au fur et à mesure où le bouche-à-oreille se répand, et ainsi c’est quasiment la même courbe, mais étirée sur plus longtemps. La chose merveilleuse concernant ce type de planning de publication est que vous pouvez gérer la courbe des ventes en temps-réel : faite un changement dans votre jeu aujourd’hui, mesurez la différence en terme de ventes le restant de la semaine, et continuez à modifier au fur et à mesure. Comme vous avez des sorties incrémentales régulières qui ont chacune un effet sur les ventes, vous obtenez des retours constants sur les effets que les changements mineurs ont sur l’argent que votre jeu ramène. Toutefois, souvenez-vous que votre jeu n’existe pas dans le vide ; il y a souvent des facteurs extérieurs qui vont affecter vos ventes. Par exemple, je parie que s’il y a une catastrophe naturelle majeure qui fait les unes internationales, que la plupart des jeux Facebook verront une chute temporaire dans leur utilisation parce que les gens sont occupés à regarder les infos à la place. Alors si un studio de jeu vidéo fait un changement mineur dans le jeu le jour précédant la pollution du Golfe par fuite de pétrole et qu’ils notent une diminution soudaine dans utilisation dans cette zone géographique, les concepteurs pourraient faire l’erreur de penser que le changement dans leur jeu était vraiment mauvais s’ils ne font pas attention à ce qui se passe dans le monde réel.

Idéalement, vous voudriez éliminer ces facteurs, de manière à savoir ce que vous mesurez, en contrôlant les facteurs extérieurs. Une manière de faire cela, qui fonctionne dans certains cas spéciaux, est d’avoir de fait deux versions de votre jeu que vous diffusez simultanément à différents joueurs, et ensuite vous comparez les deux groupes. Une chose importante concernant cela est que vous avez besoin de choisir les joueurs au hasard (et non pas, disons, de donner une version aux comptes les plus anciens créés sur votre système et l’autre version aux nouveaux venus). Bien entendu, si la jouabilité elle-même est réellement entre les deux groupes, c’est difficile de le faire sans que certains joueurs se mettent en colère à propos de ça, en particulier si l’un des deux groupes fini avec une conception déséquilibrée qui peut être exploitée. Alors il est préférable de faire cela avec des choses qui n’affectent pas l’équilibrage : des bannières publicitaires, des popup avec du texte informatif, des cartons plein écran, la couleur ou l’apparence des visuels dans votre jeu, et d’autres choses comme cela. Ou, si vous faites cela avec la jouabilité, faites-le d’une manière qui soit honnête et claire avec les joueurs ; je peux imaginer assigner les joueurs à une faction au hasard (comme la division entre l’Alliance et la Horde dans World of Warcraft, mais choisi aléatoirement lorsqu’un compte est créé) et faire en sorte que les factions en guerre fassent partie de l’histoire antérieure du jeu, et ainsi cela ferait sens que chaque faction possède des choses qui sont un petit peu différentes. Je ne connais aucun jeu qui ait déjà fait cela, mais ce serait intéressant de le voir en action.

Pour les jeux où les joueurs peuvent soit jouer gratuitement ou payer – cela inclut les partagiciels, les micro-transactions, les abonnements, et la plupart des autres types de modèles de paiement pour les jeux en ligne – vous pouvez non seulement regarder combien d’utilisateurs vous avez, ou combien d’argent vous gagnez au total, mais aussi d’où vient cet argent par utilisateur. C’est très puissant, mais il y a aussi beaucoup de variables à prendre en considération.

En premier, qu’est-ce qui compte comme un « joueur » ? Si certains joueurs ont plusieurs comptes (avec ou sans votre permission) ou si les vieux comptes restent alors qu’ils sont dormants, le choix de compter ces choses ou non changera vos calculs. Les sociétés sont typiquement intéressées de connaître le revenu des utilisateurs actifs uniques, parce que les comptes dormants tendent à ne pas dépenser d’argent, et un simple joueur avec plusieurs comptes pourrait réellement être vu comme une seule entité (même s’il dépense de l’argent sur chaque compte).

Deuxièmement, il y a une différence entre les joueurs qui jouent gratuitement et n’ont pas du tout l’intention de payer pour votre jeu, et les joueurs qui dépensent régulièrement. Prenez en considération un jeu où vous faites beaucoup d’argent d’une petite minorité de joueurs ; cela suggère que vous avez un très bon jeu qui attire et retient très bien des joueurs libres, et une fois que les joueurs peuvent être convaincus de dépenser de l’argent ils dépensent beaucoup, mais cela dit aussi que vous avez un souci avec la « conversion » – c’est-à-dire, le fait de convaincre les joueur de sauter le pas et dépenser leur premier dollar chez vous. Dans ce cas, vous devriez penser à des façons de donner des incitations aux joueurs de dépenser juste un tout petit peu. Considérez maintenant un jeu différent, où la plupart des gens qui y jouent dépensent quelque chose mais ce quelque chose est un montant vraiment très petit, ou au moins qu’il donne à vos joueurs moins d’incitations à dépenser plus, comme si vous vous heurtiez à un plafond de dépenses quelque part. Vous pourriez obtenir le même montant de cash au total de votre base d’utilisateurs dans ces deux scénarios, mais les solutions sont différentes.

Typiquement, la différence entre eux se voit avec deux mots-clefs, ARPU (Average Revenue Per User soit – Revenu Moyen Par Utilisateur) et ARPPU (Average Revenue Per Paying User – soit Revenu Moyen Par Utilisateur Payant). J’aurai aimé qu’ils soient appelés joueurs plutôt qu’utilisateurs, mais ce n’était pas ma décision. Quoi qu’il en soit, dans le premier exemple avec une minorité de joueurs payant beaucoup lorsque la plupart des joueurs jouent gratuitement, l’ARPPU sera très élevé ; dans le second cas, l’ARPPU sera réellement bas, même si l’ARPU est le même pour les deux jeux.

Bien entendu, le nombre total de joueurs est aussi à prendre en considération, et pas uniquement la moyenne. Si votre ARPU et ARPPU sont tous les deux bons mais que vous n’avez qu’une base de joueurs de quelques milliers alors que vous devriez en avoir quelques millions, alors c’est probablement plus un problème de marketing qu’un problème de conception de jeu. Cela dépend de ce qui arrive à votre base de joueurs au cours du temps, où vous vous situez dans la « queue » de votre courbe de vente. Alors il y a trois choses, les ventes, l’ARPU et l’ARPPU, qui peuvent vous donner beaucoup d’information sur le fait que vous ayez soit un problème avec l’acquisition (c’est-à-dire, amener les gens à essayer votre jeu au moins une fois), avec la conversion (faire en sorte qu’ils dépensent de l’argent au moins une fois), ou la rétention (faire en sorte que les joueurs reviennent jouer). Et lorsque vous superposez cela avec les changements que vous faites dans votre jeu et les mises à jour que vous offrez, de nombreuses fois vous pouvez obtenir des corrélations vraiment utiles entre certaines mécaniques de jeu et l’augmentation des ventes.

Une autre métrique intéressante à regarder est le graphique du temps contre l’argent pour l’utilisateur moyen. Combien les gens donnent-ils le jour où ils créent leur compte ? Combien le jour suivant, et le jour d’après. Est-ce que vous voyez une large quantité d’argent dès le début et ensuite plus rien ? Une courbe décroissante où les joueurs essayent gratuitement pendant un moment et ensuite dépensent beaucoup, puis dépensent des quantités de plus en plus petites jusqu’à ce qu’ils atteignent zéro ? Une courbe croissante où les joueurs dépensent un peu, puis un peu plus, puis encore un peu plus, jusqu’à ce qu’à un arrêt soudain où ils laissent tomber votre jeu ? Des petits paiements réguliers sur un modèle traditionnel de « longue queue » ? Qu’est-ce que cela vous dit sur la valeur de ce que vous délivrez aux joueurs sur votre progression entre le début de partie, le milieu de partie, la fin de partie et le jeu étendu ?

Alors que vous observez les revenus, n’oubliez pas de prendre en compte les coûts. Il y a deux types de coûts : le développement en amont, et les coûts récurrents. Les coûts amont sont les choses comme le développement de nouveaux éléments, en incluant les « bons » qui augmentent les revenus et aussi les « mauvais » que vous essayez et ensuite écartez ; gardez à l’esprit que votre ratio entre les bons et les mauvais éléments ne sera pas parfait, et ainsi vous devez prendre en compte une partie des mauvaises idées comme faisant partie des coûts pour le développement des bonnes idées (c’est une forme de « coût irrécupérable » dont nous avons discuté la semaine 6 lorsque nous avons parlé de l’équilibre situationnel). Les coûts récurrents sont les choses comme la bande passante et les coûts des serveurs et le support client, qui tend à grandir avec le nombre de joueurs. Comme une affaire cherche en général à maximiser ses profits (c’est-à-dire, l’argent qu’elle reçoit moins l’argent qu’elle dépense) et pas ses revenus (ce qui est simplement l’argent qu’elle reçoit), vous voudrez prendre en compte ces éléments si vous essayez d’optimiser les ressources de votre développement.

Un mot d’avertissement (mince alors, il semblerait que je donne beaucoup d’avertissements cette semaine) : les statistiques sont très bien pour analyser le passé, mais elles sont plus délicates si vous essayez de les utiliser pour prédire l’avenir. Par exemple, un jeu très en vogue qui vient juste d’être publié pourrait avoir ce qui ressemble à une courbe de croissance exponentielle. Il est tentant de partir du principe, en particulier si cela correspond vraiment bien avec une fonction exponentielle, que la tendance continuera. Mais le bon sens nous dit que cela ne peut pas continuer indéfiniment : la population humaine est finie, ainsi si votre croissance exponentielle est plus rapide que la croissance de la population elle doit se réduire le cas échéant. Les courbes de croissance de l’industrie ne sont pas en général exponentielle, mais plutôt ce qu’on appelle une « courbe en S » où elle commence comme une courbe avec une croissance exponentielle et au bout d’un moment passe à une courbe à croissance logarithmique (c’est-à-dire très lente) et enfin s’aplatit et commence à diminuer. Beaucoup d’investisseurs brûlent beaucoup d’argent lorsqu’ils confondent une courbe en S pour une augmentation exponentielle, comme nous l’avons vu (plus ou moins) avec le crash de la bulle des point com il y a 10 ans [ NdT : 20 ans à ce jour ]. Les arnaques pyramidales illégales ont aussi tendance à passer par ce type de croissance, à l’exception qu’une fois qu’elles ont atteint le sommet du S il y a en général un crash soudain.

Une note sur l’éthique

C’est la seconde fois cet été où quand je parle d’équilibrage des jeux que je mets sur la table la question de l’éthique professionnelle. Il est bizarre de voir à quel point cela sort dans les discussions des mathématiques appliquées, n’est-ce pas ? Mais bon…

La considération éthique ici est que nombre de ces métriques observent le comportement du joueur mais elle ne regardent pas à la valeur ajoutée (ou retirée) de la vie des joueurs. Certains jeux, en particulier ceux sur Facebook qui ont évolué pour faire un des usages les plus efficaces des métriques que n’importe que jeu avant, ont aussi été accusés (par certaines personnes) de manipuler les gens de façon éhontée, d’exploiter les défauts connus de la psychologie humaine pour faire en sorte que leurs joueurs continuent à jouer (et donnent de l’argent) contre leur volonté. Maintenant, cela sonne un peu stupide poussé à l’extrême, parce que nous voyons les jeux comme quelque chose de volontaire par nature, alors l’idée d’un jeu « nous gardant prisonnier » semble étrange. D’un autre côté, n’importe quel jeu auquel vous avez joué pendant une longue période de temps est un jeu dans lequel vous êtes émotionnellement investi, et cet investissement émotionnel a une valeur monétaire. Si cela vous paraît stupide que je dis qu’un jeu « vous fait » dépenser de l’argent, prenez cela en considération : supposons que je trouve toutes vos parties sauvegardées et les mettent à un endroit. Peut-être que certaines sont sur des cartes mémoires de console ou sur des disques durs. Peut-être que certaines d’entre-elles sont sur votre disque dur de PC. Pour les jeux en ligne, vos « sauvegardes » sont quelque part sur le serveur d’une société. Puis supposez que j’ai menacé de toutes les détruire… mais ne vous inquiétez pas, je remplacerai le matériel. Ainsi vous avez un remplacement gratuit de votre disque dur et votre carte mémoire de console, un nouveau compte dans chaque jeu en ligne auquel vous êtes abonné, et ainsi de suite. Et ensuite supposez que je vous demande, combien vous me payeriez pour ne pas faire cela. Et je parie que lorsque vous y pensez, la réponse est plus que zéro, et la raison est que ces jeux sauvegardés ont de la valeur pour vous ! Et pour enfoncer le clou, si l’un des jeux vous menaçait de supprimer toutes vos sauvegardes à moins que vous n’achetiez un contenu supplémentaire téléchargeable, vous auriez au moins pris le temps de considérer l’offre… pas parce que vous voulez acquérir le contenu, mais parce que vous ne vouliez pas perdre vos sauvegardes.

Pour être juste, tous les jeux impliquent une forme de manipulation psychologique, comme les films et les livres et les autres médias (où il y a par exemple la suspension de l’incrédulité). Et la plupart des gens n’ont en réalité aucun problème avec ça ; ils continuent à voir l’expérience ludique en elle-même comme un apport positif dans leur vie, en les laissant vivre « un peu plus » pendant les heures qu’ils ont passé à jouer qu’ils ne l’aurait vécu en faisant d’autres activités.

Mais comme pour les courbes de difficulté, la différence entre la valeur ajoutée ou retirée n’est pas constante ; c’est différent d’une personne à une autre. C’est pourquoi nous avons des choses comme les MMOs qui enrichissent la vie de millions d’abonnés, tout en provoquant d’horribles événements dans la vie d’une petite minorité qui a brisé son mariage ou sa famille à son obsession du jeu, qui joue pendant tellement longtemps sans prendre soin de ses besoins corporels qu’ils perdent conscience et meurent sur leur clavier.

Et il y a ainsi une question de jusqu’où nous pouvons pousser nos joueurs à nous donner de l’argent, ou simplement jouer à notre jeu, avant que nous ne franchissions cette ligne éthique… en particulier dans le cas où notre conception est conduit principalement par des métriques basées sur l’argent. Comme auparavant, je vous invite à réfléchir à là où vous vous tenez sur cette question parce que si vous le ne savez pas, la décision sera prise pour vous par quelqu’un d’autre qui y a lui répondu.

Si vous travaillez sur un jeu en ce moment…

Si vous travaillez sur une jeu en ce moment, comme vous vous en doutez, ma suggestion pour n’importe quel jeu sur lequel vous travaillez est de vous demander quelles questions de conception pourraient avoir les meilleures réponses avec les métriques :

Quels sont les aspects de votre conception (spécialement en lien avec l’équilibrage du jeu) pour lesquels vous n’avez pas les réponses, à ce stade ? Faites une liste.
De toutes ces questions ouvertes, lesquelles peuvent être résolues par le playtest, en prenant des métriques, et en les analysant ?
Choisissez une question de la liste finale, qui soit, à votre avis, la plus vitale pour votre jouabilité. Déterminez quelles métriques vous voulez utiliser, et comment vous allez utiliser ces statistiques pour tirer des conclusions. Quelles sont les différentes choses que vous pourriez voir ? Que pourraient-elles signifier ? Faites en sorte que vous sachiez comment interpréter ces données à l’avance.
Si vous faites un jeu vidéo, faites en sorte que ce jeu ait un moyen d’enregistrer les informations que vous voulez. Si c’est un jeu de société, faites des playtests et commencez à mesurer !

Travail à la maison

Ce sera principalement une expérience de pensée, plus qu’un exercice pratique, parce que je n’ai pas trouvé de moyen de vous forcer à collecter des métriques sur un jeu qui n’est pas le vôtre.

Choisissez votre genre ludique favori. Peut-être un FPS, un STR, JCC, JdR, Euro, ou autre. Maintenant choisissez ce que vous considérez être un exemple archétypique d’un tel jeu, un avec lequel vous êtes familier et que vous avez de préférence battu.

Prétendez qu’on vous ait donné les droits de faire un remake de ce jeu (pas une séquelle), c’est-à-dire, votre intention était de conserver les mécaniques principales comme telles mais peut-être simplement faire quelques changements mineurs pour l’équilibrage du jeu. Voyez cela comme une « version 2.0 » de l’original. Vous pourriez avoir en tête certaines parties que vous suspectez déjà, avec votre instinct de concepteur, que le jeu n’est pas équilibré… mais partons du principe que vous voulez de fait le prouver.

Proposez un plan de métriques. Partez du principe que vous avez déjà une réserve de playtesteurs, ou sinon des données de jeu existantes venant de la sortie initiale, et que c’est cela revient à demander les données et ensuite les analyser. Faites une liste :

À quelles questions d’équilibrage voudriez-vous répondre, et qui pourrait être répondue avec de l’analyse statistique ?
Quelles métriques utiliseriez-vous pour chaque question ? (c’est acceptable s’il y a un peu de recouvrement ici, où plusieurs questions utilisent les mêmes métriques)
Quelle analyse réaliseriez-vous sur vos métriques pour obtenir les réponses à chaque question ? C’est-à-dire, que feriez-vous aux données (comme calculer les moyennes, les médians, les déviations standard, ou regarder les corrélations) ? Si vous questions sont « oui » ou « non », à quoi ressemblerait une réponse « oui » ou « non » une fois que vous avez analysé les données ?

Ressources supplémentaires

Voici quelques liens, au cas où vous n’auriez pas assez de lecture cette semaine. Une bonne partie de ce que j’ai écris a été influencé par ces articles :

http://chrishecker.com/Achievements_Considered_Harmful%3F

http://chrishecker.com/Metrics_Fetishism

Le concepteur de jeu Chris Hecker a donné une merveilleuse conférence à la GDC cette année intitulée « Achievements Considered Harmful » qui parle de différents types de métriques – les Achievements que nous utilisons pour mesurer et récompenser la performance du joueur dans un jeu – pourquoi cela pourrait ou non être une bonne idée. Dans le second article, il parle de ce qu’ils appelle le « Fétichisme des Métriques », et qui parle des dangers de se reposer beaucoup trop sur les métriques et pas assez sur le bon sens.

http://www.gamasutra.com/view/news/29916/GDC_Europe_Playfishs_Valadares_on_Intuition_Versus_Metrics_Make_Your_Own_Decisions.php

C’est un article sur Gamasutra qui cite le directeur du studio Playfish, Jeferson Valadares à la GDC Europe, qui suggère quand utiliser les métriques et quand utiliser vos compétences de conception de jeu.

http://www.lostgarden.com/2009/08/flash-love-letter-2009-part-2.html

Le concepteur de jeu Dan Cook écrit sur les nombreux bénéfices des métriques pendant le développement d’un jeu Flash.

http://www.gamasutra.com/features/20070124/sigman_01.shtml

Écrit par la même personne qui avait publié l’article sur les probabilités des « Poils de Nez d’Orc », il donne cette fois-ci une introduction basique aux statistiques plutôt qu’aux probabilités.