Cette page a été traduite par l'API Cloud Translation.

Définir les seuils des métriques des Signaux Web essentiels

Recherche et méthodologie derrière les seuils des métriques Core Web Vitals

Bryan McQuade

Les Core Web Vitals sont un ensemble de métriques réelles qui mesurent des aspects importants de l'expérience utilisateur réelle sur le Web. Core Web Vitals comprend des métriques, ainsi que des seuils cibles pour chacune d'elles, qui aident les développeurs à déterminer qualitativement si l'expérience de leur site est "bonne", "nécessaire d'amélioration" ou "mauvaise". Cet article explique l'approche utilisée pour choisir des seuils pour les métriques Core Web Vitals en général, ainsi que la manière dont les seuils ont été choisis pour chaque métrique.

Rappel: Seuils et métriques Core Web Vitals

En 2020, les Core Web Vitals comprennent trois métriques: Largest Contentful Paint (LCP), First Input Delay (FID) et Cumulative Layout Shift (CLS). Chaque métrique mesure un aspect différent de l'expérience utilisateur: le LCP mesure la vitesse de chargement perçue et indique le point dans la chronologie de chargement de la page lorsque le contenu principal de la page s'est probablement chargé, le FID mesure la réactivité et quantifie l'expérience utilisateur lorsqu'il tente d'interagir pour la première fois avec la page. Le CLS mesure la stabilité visuelle et quantifie la quantité de décalage inattendu de la mise en page du contenu visible de la page.

Chaque métrique Core Web Vitals est associée à des seuils, qui catégorisent les performances comme "bonnes", "améliorations nécessaires" ou "mauvaises":

Recommandations concernant le seuil Largest Contentful Paint

Recommandations concernant le seuil First Input Delay

Recommandations concernant le seuil Cumulative Layout Shift

	Bonne	Médiocre	Centile
Largest Contentful Paint	≤2500ms	>4000ms	75
First Input Delay	≤100ms	> 300 ms	75
Cumulative Layout Shift	≤ 0,1	> 0,25	75

De plus, pour classer les performances globales d'une page ou d'un site, nous utilisons la valeur du 75e centile de toutes les pages vues pour cette page ou ce site. En d'autres termes, si au moins 75 % des pages vues sur un site atteignent le seuil "satisfaisant", le site est considéré comme ayant de "bonnes" performances pour cette métrique. À l'inverse, si au moins 25 % des pages vues atteignent le seuil "médiocre", le site est considéré comme ayant de "mauvaises" performances. Par exemple, un LCP de 2 secondes au 75e centile est classé comme "Bon", tandis qu'un LCP au 75e centile de 5 secondes est classé comme "Médiocre".

Critères pour les seuils des métriques Core Web Vitals

Lorsque nous avons défini des seuils pour les métriques Core Web Vitals, nous avons d'abord identifié les critères que chaque seuil devait respecter. Vous trouverez ci-dessous les critères d'évaluation des seuils des métriques Core Web Vitals 2020 chez Google. Les sections suivantes détailleront la manière dont ces critères ont été appliqués afin de sélectionner les seuils pour chaque métrique en 2020. Dans les années à venir, nous prévoyons d'apporter des améliorations et des ajouts aux critères et aux seuils afin d'améliorer encore notre capacité à mesurer la qualité de l'expérience utilisateur sur le Web.

Expérience utilisateur de haute qualité

Notre objectif principal est d'optimiser nos services pour l'utilisateur et la qualité de son expérience. C'est pourquoi nous faisons en sorte que les pages qui atteignent les seuils "satisfaisants" des Core Web Vitals offrent une expérience utilisateur de haute qualité.

Pour identifier un seuil associé à une expérience utilisateur de haute qualité, nous nous basons sur la perception humaine et la recherche sur l'IA générative. Bien que cette recherche soit parfois résumée à l'aide d'un seul seuil fixe, nous constatons que la recherche sous-jacente est généralement exprimée sous la forme d'une plage de valeurs. Par exemple, la recherche sur le temps que les utilisateurs attendent généralement avant de se recentrer est parfois décrite comme une seconde, tandis que la recherche sous-jacente est en réalité exprimée sous la forme d'une plage allant de plusieurs centaines de millisecondes à plusieurs secondes. Le fait que les seuils de perception varient en fonction de l'utilisateur et du contexte est également confirmé par les données de métriques Chrome agrégées et anonymisées, qui montrent qu'il n'y a pas un seul temps que les utilisateurs attendent qu'une page Web affiche du contenu avant d'abandonner le chargement de la page. Ces données montrent plutôt une distribution régulière et continue. Pour une analyse plus approfondie des seuils de perception humaine et des recherches pertinentes sur les hormones de croissance humaines, consultez l'article The Science Behind Web Vitals.

Dans les cas où des recherches pertinentes sur l'expérience utilisateur sont disponibles pour une métrique donnée et qu'il existe un consensus raisonnable sur la plage de valeurs présentée dans la documentation, nous utilisons cette plage comme entrée pour guider notre processus de sélection des seuils. Dans les cas où aucune recherche pertinente sur l'expérience utilisateur n'est disponible, par exemple pour une nouvelle métrique telle que "Cumulative Layout Shift", nous évaluons plutôt les pages réelles qui répondent à différents seuils de candidats pour une métrique, afin d'identifier un seuil offrant une bonne expérience utilisateur.

Atteignable avec du contenu Web existant

De plus, pour nous assurer que les propriétaires de sites réussissent à optimiser leurs sites afin d'atteindre les seuils "satisfaisants", nous exigeons que ces seuils soient atteignables pour le contenu existant sur le Web. Par exemple, alors que zéro milliseconde est un "bon" seuil LCP idéal, entraînant des expériences de chargement instantanées, un seuil de zéro milliseconde n'est pas pratique dans la plupart des cas en raison des latences de traitement du réseau et de l'appareil. Ainsi, zéro milliseconde ne constitue pas un "bon" seuil LCP raisonnable pour les Core Web Vitals.

Lors de l'évaluation des seuils "satisfaisants" des Core Web Vitals candidats, nous vérifions qu'ils sont réalisables, d'après les données du rapport d'expérience utilisateur Chrome. Pour confirmer qu'un seuil est atteignable, nous exigeons qu'au moins 10 % des origines atteignent actuellement le seuil "satisfaisant". En outre, pour nous assurer que les sites correctement optimisés ne sont pas mal classés en raison de la variabilité des données collectées dans les champs, nous vérifions également que le contenu bien optimisé atteint systématiquement le seuil "satisfaisant".

À l'inverse, nous définissons le seuil "faible" en identifiant un niveau de performances que seule une minorité d'origines n'atteint pas actuellement. Sauf si des études sont disponibles pour définir un seuil "faible", par défaut, les 10 à 30% des origines les moins performantes sont classées comme "médiocres".

Dernières réflexions sur les critères

Lors de l'évaluation des seuils de candidats, nous avons constaté que les critères étaient parfois en conflit. Par exemple, il peut y avoir une tension entre un seuil qui soit systématiquement réalisable et celui qui garantit systématiquement une bonne expérience utilisateur. De plus, étant donné que la recherche sur la perception humaine fournit généralement une plage de valeurs et que les métriques sur le comportement des utilisateurs montrent des changements progressifs de comportement, nous avons constaté qu'il n'existe souvent pas de seuil "correct" unique pour une métrique. Ainsi, notre approche pour les métriques Core Web Vitals 2020 a consisté à choisir des seuils qui répondent le mieux aux critères ci-dessus, tout en reconnaissant qu'il n'existe pas de seuil parfait et que nous pouvons parfois avoir besoin de choisir parmi plusieurs seuils de candidats raisonnables. Plutôt que de demander "quel est le seuil parfait ?", nous nous sommes concentrés sur la question suivante : "quel seuil de candidats répond le mieux à nos critères ?".

Choix du centile

Comme indiqué précédemment, pour classer les performances globales d'une page ou d'un site, nous utilisons la valeur au 75e centile de toutes les visites sur cette page ou ce site. Le 75e centile a été choisi sur la base de deux critères. Tout d'abord, le centile doit garantir que la majorité des visites sur une page ou un site ont atteint le niveau de performances cible. Deuxièmement, la valeur au centile choisi ne doit pas être trop affectée par des anomalies.

Ces objectifs sont quelque peu en contradiction les uns avec les autres. Pour atteindre le premier objectif, un centile plus élevé est généralement un meilleur choix. Toutefois, avec des centiles plus élevés, la probabilité que la valeur résultante soit affectée par des anomalies augmente également. Si, lors de quelques visites d'un site se produisent sur des connexions réseau irrégulières, entraînant des échantillons de LCP trop volumineux, nous ne voulons pas que ces échantillons d'anomalies déterminent notre classification de site. Par exemple, si nous évaluons les performances d'un site enregistrant 100 visites en utilisant un centile élevé comme le 95e, il faudrait seulement 5 échantillons d'anomalies pour que la valeur du 95e centile soit affectée par les anomalies.

Ces objectifs étant un peu contradictoires, l'analyse nous a permis de conclure que le 75e centile permettait d'atteindre un équilibre raisonnable. Le 75e centile nous permet de savoir que la plupart des visites sur le site (trois sur 4) ont atteint le niveau cible de performances ou un niveau supérieur. De plus, la valeur du 75e centile est moins susceptible d'être affectée par des anomalies. Reprenons notre exemple : pour un site enregistrant 100 visites, 25 de ces visites devraient indiquer de grands échantillons d'anomalies pour que la valeur au 75e centile soit affectée par des anomalies. Si 25 échantillons sur 100 peuvent être des anomalies, cela est beaucoup moins probable que pour le 95e centile.

Largest Contentful Paint

Qualité de l'expérience

La valeur "1 seconde" correspond souvent au temps d'attente d'un utilisateur avant de commencer à perdre son focus sur une tâche. En examinant de plus près les recherches pertinentes, nous avons constaté que la valeur "1 seconde" correspond à une approximation pour décrire une plage de valeurs, d'environ plusieurs centaines de millisecondes à plusieurs secondes.

Les deux sources couramment citées pour le seuil d'une seconde sont Card et al et Miller. La fiche définit un seuil de "réponse immédiate" d'une seconde, basé sur les Unified Theories of Cognition de Newell. Newell explique que les réponses immédiates sont des "réponses devant être envoyées à certains stimulus en environ une seconde" (soit environ 0, 3 s à environ 3 s). Cela fait suite à la discussion de Newell sur les "contraintes en temps réel sur la cognition", dans laquelle il est noté que "les interactions avec l'environnement qui évoquent des considérations cognitives se déroulent en quelques secondes", qui varie d'environ 0,5 à 2 à 3 secondes. Miller, une autre source fréquemment citée pour le seuil d'une seconde, note que "les tâches que les humains peuvent et effectueront avec les communications de la machine modifieront sérieusement leur caractère si les délais de réponse sont supérieurs à deux secondes, avec une extension possible d'une autre seconde environ".

Les recherches de Miller et de Card décrivent le temps d'attente d'un utilisateur avant de perdre l'attention, sous la forme d'une plage allant d'environ 0,3 à 3 secondes, ce qui suggère que le seuil "bon" de notre LCP devrait se situer dans cette plage. En outre, étant donné que le seuil "bon" existant de First Contentful Paint est de 1 seconde et que le Largest Contentful Paint se produit généralement après la première, nous limitons davantage notre plage de seuils LCP candidats, de 1 seconde à 3 secondes. Pour choisir, dans cette fourchette, le seuil qui répond le mieux à nos critères, nous examinons ci-dessous la réalisabilité de ces seuils candidats.

réalisabilité

Les données de CrUX nous permettent de déterminer le pourcentage d'origines sur le Web qui atteignent les seuils "bons" du LCP candidats.

% d'origines CrUX classées comme "bonnes" (pour les seuils LCP candidats)

	1 seconde	1,5 secondes	2 secondes	2,5 secondes	3 secondes
phone	3,5%	13 %	-27 %	42 %	55 %
ordinateur	6,9 %	19 %	36 %	51 %	64 %

Bien que moins de 10% des origines atteignent le seuil d'une seconde, tous les autres seuils de 1, 5 à 3 secondes respectent notre exigence selon laquelle au moins 10% des origines atteignent le seuil "bon" et sont donc toujours valides.

En outre, pour nous assurer que le seuil choisi est systématiquement réalisable pour les sites bien optimisés, nous analysons les performances du LCP pour les sites les plus performants sur le Web, afin de déterminer les seuils qui sont systématiquement atteignables pour ces sites. Plus précisément, notre objectif est d'identifier un seuil systématiquement réalisable au 75e centile pour les sites les plus performants. Nous constatons que les seuils de 1,5 et 2 secondes ne sont pas systématiquement atteignables, contrairement aux seuils de 2,5 secondes.

Pour identifier un seuil "faible" pour le LCP, nous utilisons les données CrUX afin d'identifier un seuil atteint par la plupart des origines:

% d'origines CrUX classées comme "mauvaises" (pour les seuils LCP candidats)

	3 secondes	3,5 secondes	4 secondes	4,5 secondes	5 secondes
phone	45 %	35 %	26 %	20 %	15 %
ordinateur	36 %	26 %	19 %	14 %	10 %

Pour un seuil de quatre secondes, environ 26% des origines du téléphone et 21% des origines sur ordinateur seraient considérées comme mauvaises. Cette valeur se situe dans notre plage cible de 10 à 30 %. Nous en concluons donc que 4 secondes est un seuil acceptable de "mauvaises".

Ainsi, nous concluons que 2, 5 secondes est un seuil raisonnable "bon" et que 4 secondes est un seuil raisonnable pour la métrique Largest Contentful Paint.

First Input Delay

Qualité de l'expérience

Les recherches sont raisonnablement cohérentes pour conclure que les retards du retour visuel d'environ 100 ms sont perçus comme étant dus à une source associée, telle qu'une entrée utilisateur. Cela suggère qu'un seuil "bon" de 100 ms pour le premier délai d'entrée est probablement approprié comme barre minimale: si le délai de traitement de l'entrée dépasse 100 ms, il est impossible que les autres étapes de traitement et de rendu se terminent à temps.

Selon Jakob Nielsen, Response Times: The 3 Important Limits, fréquemment cité, définit la limite de 0,1 seconde pour que l'utilisateur ait l'impression que le système réagit instantanément. Nielsen cite Miller et Card, qui cite La perception de la causalité de 1962 Michotte. Dans la recherche de Michotte, les participants à l'expérience voient "deux objets sur un écran. L'objet A s'allume et se dirige vers l'élément B. Il s'arrête au moment où il entre en contact avec B, tandis que ce dernier commence et s'éloigne de A." Michotte varie l'intervalle de temps entre le moment où l'objet A s'arrête et le moment où l'objet B commence à se déplacer. Michotte constate que, pour des délais allant jusqu'à 100 ms environ, les participants ont l'impression que l'objet A provoque le mouvement de l'objet B. Pour les délais d'environ 100 ms à 200 ms, la perception de causalité est mitigée. Pour les retards supérieurs à 200 ms, le mouvement de l'objet B n'est plus considéré comme étant dû à l'objet A.

De même, Miller définit un seuil de réponse pour "Réponse au contrôle d'activation" comme "l'indication d'une action donnée, généralement, par le mouvement d'une touche, d'un commutateur ou d'un autre membre de contrôle qui signale qu'il a été activé physiquement. Cette réponse doit être perçue comme une partie de l'action mécanique induite par l'opérateur. Délai: pas plus de 0,1 seconde" et plus tard "le délai entre l'appui sur une touche et le retour visuel ne doit pas dépasser 0,1 à 0,2 seconde".

Plus récemment, dans Towards the Temporally Perfect Virtual Button, Kaaresoja et al. ont étudié la perception de la simultanéité entre l'appui sur un bouton virtuel sur un écran tactile et le retour visuel suivant indiquant que le bouton était touché, pour divers retards. Lorsque le délai entre l'appui sur le bouton et le retour visuel était inférieur ou égal à 85 ms, les participants ont signalé que le retour visuel apparaissait simultanément en appuyant sur le bouton dans 75% des cas. De plus, pour des retards de 100 ms ou moins, les participants ont signalé une qualité perçue de la pression sur le bouton de manière systématiquement élevée, avec une qualité perçue diminuer pour des retards de 100 ms à 150 ms et atteindre des niveaux très bas pour des délais de 300 ms.

Compte tenu des éléments ci-dessus, nous en concluons que l'étude considère une plage de valeurs autour de 100 ms comme seuil approprié de First Input Delay pour les signaux Web. De plus, comme les utilisateurs ont signalé des niveaux de qualité médiocres pour des retards de 300 ms ou plus, un seuil de 300 ms est raisonnablement "médiocre".

réalisabilité

Les données de CrUX nous permettent de déterminer que la majorité des origines sur le Web respectent le seuil "bon" du FID de 100 ms au 75e centile:

% d'origines CrUX considérées comme "satisfaisantes" pour un seuil de 100 ms du FID

	100ms
phone	-78 %
ordinateur	> 99 %

En outre, nous constatons que les principaux sites sur le Web sont en mesure d'atteindre systématiquement ce seuil au 75e centile (et souvent au 95e centile).

Compte tenu de ce qui précède, nous concluons que 100 ms est un "bon" seuil raisonnable pour le FID.

Cumulative Layout Shift

Qualité de l'expérience

Le CLS (Cumulative Layout Shift) est une nouvelle métrique qui mesure le décalage du contenu visible d'une page. Le CLS étant nouveau, nous n'avons connaissance d'aucune étude pouvant déterminer directement les seuils pour cette métrique. Ainsi, pour identifier un seuil correspondant aux attentes des utilisateurs, nous avons évalué des pages réelles avec différents décalages de mise en page afin de déterminer le niveau maximal de décalage perçu comme acceptable avant de provoquer des perturbations importantes lors de la consultation du contenu de la page. Lors de nos tests internes, nous avons constaté que les niveaux de changement de 0,15 et plus étaient systématiquement perçus comme perturbateurs, tandis que les variations de 0,1 et moins étaient perceptibles, mais pas trop perturbatrices. Ainsi, bien que l'absence de décalage de mise en page soit idéale, nous avons conclu que les valeurs jusqu'à 0,1 étaient de "bons" seuils de CLS.

réalisabilité

D'après les données CrUX, près de 50% des origines ont un CLS de 0,05 ou moins.

% d'origines CrUX classées comme "bonnes" (pour les seuils CLS potentiels)

	0,05	0,1	0,15
phone	49 %	60 %	69 %
ordinateur	42 %	59 %	69 %

Bien que les données CrUX suggèrent que 0,05 pourrait être un "bon" seuil raisonnable pour le CLS, nous savons qu'il est actuellement difficile d'éviter les décalages de mise en page perturbateurs dans certains cas d'utilisation. Par exemple, pour le contenu intégré tiers, tel que les intégrations de réseaux sociaux, la hauteur du contenu intégré n'est parfois pas connue avant la fin de son chargement, ce qui peut entraîner un décalage de mise en page supérieur à 0,05. Nous concluons donc que, même si de nombreuses origines atteignent le seuil de 0,05, le seuil légèrement moins strict de 0,1 offre un meilleur équilibre entre qualité de l'expérience et réalisabilité. Nous espérons qu'à l'avenir, l'écosystème Web identifiera des solutions pour résoudre les changements de mise en page causés par les intégrations tierces, ce qui permettrait d'utiliser un seuil "bon" CLS de 0, 05 ou 0 plus strict dans une future itération de Core Web Vitals.

De plus, pour déterminer un seuil "faible" pour le CLS, nous avons utilisé des données CrUX afin d'identifier un seuil atteint par la plupart des origines:

% d'origines CrUX classées comme "mauvaises" (pour les seuils CLS candidats)

	0,15	0.2	0,25	0,3
phone	31 %	25 %	20 %	18 %
ordinateur	31 %	23 %	18 %	16 %

Pour un seuil de 0,25, environ 20% des origines du téléphone et 18% des origines des ordinateurs de bureau seraient considérées comme "médiocres". Cette valeur se situe dans notre plage cible de 10 à 30 %. Nous avons donc conclu que 0,25 est un seuil acceptable de "mauvaises".