La ricerca e la metodologia alla base delle soglie dei Segnali web essenziali
I Segnali web essenziali sono un insieme di metriche sul campo che misurano aspetti importanti dell'esperienza utente reale sul web. I Segnali web essenziali includono metriche e soglie target per ogni metrica, che aiutano gli sviluppatori a capire qualitativamente l'esperienza sul loro sito è "buona", "richiede miglioramenti" o "scarsa". Questo post illustrerà l'approccio utilizzato per scegliere le soglie per le metriche di Segnali web essenziali in generale, nonché il modo in cui sono state scelte le soglie per ciascuna metrica specifica di Segnali web essenziali.
Aggiornamento: metriche e soglie dei Segnali web essenziali
Nel 2020, le metriche Core Web Vitals sono tre: Largest Contentful Paint (LCP), First Input Delay (FID) e Cumulative Layout Shift (CLS). Ogni metrica misura un aspetto diverso dell'esperienza utente: LCP misura la velocità di caricamento percepita e contrassegna il punto nella sequenza temporale di caricamento della pagina in cui è probabile che i contenuti principali della pagina vengano caricati; FID misura la reattività e quantifica l'esperienza che gli utenti provano a interagire per la prima volta con la pagina, mentre CLS misura la stabilità visiva e quantifica la quantità di variazioni impreviste del layout dei contenuti visibili delle pagine.
A ogni metrica di Segnali web essenziali sono associate delle soglie, che classificano le prestazioni come "buona", "da migliorare" o "scarsa":
Buoni | Scadente | Percentile | |
---|---|---|---|
visualizzazione elemento più grande | ≤2500ms | >4000ms | 75 |
First Input Delay | ≤100ms | > 300 ms | 75 |
variazione layout cumulativa | ≤ 0,1 | > 0,25 | 75 |
Inoltre, per classificare il rendimento complessivo di una pagina o di un sito, utilizziamo il valore del 75° percentile di tutte le visualizzazioni di pagina di quella pagina o quel sito. In altre parole, se almeno il 75% delle visualizzazioni di pagina di un sito raggiunge la soglia "buona", il sito viene classificato come con rendimento "buono" per quella metrica. Al contrario, se almeno il 25% delle visualizzazioni di pagina raggiunge la soglia di "scarso", il sito viene classificato come con prestazioni "scarse". Ad esempio, un LCP del 75° percentile di 2 secondi viene classificato come "Buono", mentre un LCP di 5 secondi del 75° percentile viene classificato come "scarso".
Criteri per le soglie delle metriche dei Segnali web essenziali
Quando abbiamo stabilito le soglie per le metriche di Segnali web essenziali, per prima cosa abbiamo identificato i criteri che ciascuna soglia doveva soddisfare. Qui di seguito spieghiamo i criteri utilizzati da Google per valutare le soglie delle metriche di Segnali web essenziali del 2020. Le sezioni successive approfondiranno in che modo questi criteri sono stati applicati per selezionare le soglie per ogni metrica nel 2020. Negli anni futuri prevediamo di apportare miglioramenti e aggiunte ai criteri e alle soglie per migliorare ulteriormente la nostra capacità di misurare esperienze utente eccellenti sul web.
Esperienza utente di alta qualità
Il nostro obiettivo principale è ottimizzare per l'utente e la sua qualità dell'esperienza. Per questo motivo, intendiamo garantire che le pagine che soddisfano le soglie "buone" di Segnali web essenziali offrano un'esperienza utente di alta qualità.
Per identificare una soglia associata a un'esperienza utente di alta qualità, ci riferiamo alla percezione umana e alla ricerca sull'interazione uomo-computer. Sebbene questa ricerca a volte venga riassunta utilizzando un'unica soglia fissa, vediamo che la ricerca sottostante viene generalmente espressa come una gamma di valori. Ad esempio, la ricerca sulla quantità di tempo che gli utenti solitamente attendono prima di perdere lo stato attivo viene a volte descritta come 1 secondo, mentre la ricerca di base viene effettivamente espressa sotto forma di intervallo, da centinaia di millisecondi a più secondi. Il fatto che le soglie di percezione variano a seconda dell'utente e del contesto è ulteriormente supportato dai dati delle metriche di Chrome aggregati e anonimizzati, il che dimostra che gli utenti non devono attendere una sola volta la visualizzazione dei contenuti di una pagina web prima di interrompere il caricamento della pagina. Questi dati mostrano invece una distribuzione uniforme e continua. Per un'analisi più approfondita delle soglie di percezione umana e per una ricerca pertinente sull'HCI, consulta il documento La scienza dietro i vitali web.
Nei casi in cui sia disponibile una ricerca pertinente sull'esperienza utente per una determinata metrica e se esiste un ragionevole consenso sull'intervallo di valori in letteratura, utilizziamo questo intervallo come input per guidare il processo di selezione della soglia. Nei casi in cui non sia disponibile una ricerca pertinente sull'esperienza utente, ad esempio per una nuova metrica come Cumulative Layout Shift, valutiamo invece le pagine reali che soddisfano differenti soglie di candidati per una metrica, per identificare una soglia che si traduce in una buona esperienza utente.
Realizzabile tramite contenuti web esistenti
Inoltre, per garantire che i proprietari di siti possano ottimizzare i propri siti per raggiungere le soglie "valide", richiediamo che tali soglie siano raggiungibili per i contenuti esistenti sul web. Ad esempio, sebbene zero millisecondi sia una soglia "buona" per il valore LCP ideale, che genera esperienze di caricamento istantaneo, una soglia di zero millisecondi non è praticamente raggiungibile nella maggior parte dei casi a causa delle latenze di elaborazione di dispositivi e reti. Pertanto, zero millisecondi non è una soglia ragionevole di LCP per i Segnali web essenziali.
Durante la valutazione delle soglie "soddisfacenti" dei Segnali web essenziali, verifichiamo che siano raggiungibili in base ai dati del Report sull'esperienza utente di Chrome (CrUX). Per confermare che è possibile raggiungere una soglia, richiediamo che almeno il 10% delle origini soddisfi attualmente la soglia "buona". Inoltre, per garantire che i siti ben ottimizzati non vengano classificati erroneamente a causa della variabilità dei dati dei campi, verifichiamo che i contenuti ben ottimizzati soddisfino costantemente la soglia "buona".
Al contrario, stabiliamo la soglia "scarsa" identificando un livello di rendimento che solo una minoranza di origini non soddisfa attualmente. A meno che non siano disponibili ricerche pertinenti alla definizione di una soglia "scarsa", per impostazione predefinita il 10-30% delle origini con il rendimento peggiore è classificato come "scarso".
Considerazioni finali sui criteri
Durante la valutazione delle soglie dei candidati, abbiamo scoperto che a volte i criteri erano in conflitto tra loro. Ad esempio, può esserci una tensione tra una soglia che è costantemente raggiungibile e che garantisce esperienze utente sempre buone. Inoltre, poiché la ricerca sulla percezione umana di solito fornisce una gamma di valori e le metriche sul comportamento degli utenti mostrano cambiamenti graduali del comportamento, abbiamo riscontrato che spesso non esiste un'unica soglia "corretta" per una metrica. Pertanto, il nostro approccio per i Segnali web essenziali del 2020 è stato quello di scegliere le soglie che meglio soddisfano i criteri riportati sopra, riconoscendo che non esiste un'unica soglia perfetta e che a volte potremmo dover scegliere tra più soglie ragionevoli di candidati. Invece di chiedere "qual è la soglia perfetta?" ci siamo concentrati su "quale soglia del candidato migliore per raggiungere i nostri criteri".
Scelta del percentile
Come indicato in precedenza, per classificare il rendimento complessivo di una pagina o di un sito, utilizziamo il valore del 75° percentile di tutte le visite a quella pagina o quel sito. Il 75° percentile è stato scelto in base a due criteri. In primo luogo, il percentile dovrebbe garantire che la maggior parte delle visite a una pagina o un sito abbia raggiunto il livello di prestazioni target. In secondo luogo, il valore nel percentile scelto non deve essere influenzato in modo eccessivo dai valori anomali.
Questi obiettivi sono in qualche modo in contrasto tra loro. Per soddisfare il primo obiettivo, un percentile più alto è in genere una scelta migliore. Tuttavia, con percentuali più elevate, aumenta anche la probabilità che il valore risultante venga influenzato da valori anomali. Se alcune visite a un sito si verificano su connessioni di rete instabili che generano campioni di LCP eccessivamente grandi, non vogliamo che la classificazione del nostro sito venga decisa da questi campioni anomali. Ad esempio, se valutassimo il rendimento di un sito con 100 visite utilizzando un percentile elevato come il 95°, sarebbero necessari solo 5 campioni anomali affinché il valore del 95° percentile venisse influenzato dai valori anomali.
Poiché questi obiettivi sono un po' in contrasto, dopo l'analisi, abbiamo concluso che il 75° percentile raggiunge un equilibrio ragionevole. Utilizzando il 75° percentile, sappiamo che la maggior parte delle visite al sito (3 su 4) ha registrato il livello target di prestazioni o uno migliore. Inoltre, il valore del 75° percentile ha meno probabilità di essere influenzato da valori anomali. Tornando all'esempio, per un sito con 100 visite, 25 di queste visite dovrebbero riportare campioni di outlier di grandi dimensioni per il valore al 75° percentile in modo da essere influenzato da valori anomali. Sebbene 25 su 100 campioni siano valori anomali, è molto meno probabile rispetto al caso del 95° percentile.
visualizzazione elemento più grande
Qualità dell'esperienza
1 secondo è spesso indicato come la quantità di tempo che un utente attende prima di iniziare a perdere lo stato attivo su un'attività. Da un'analisi più approfondita di una ricerca pertinente, è emerso che 1 secondo è un'approssimazione per descrivere un intervallo di valori, che va da circa diverse centinaia di millisecondi a diversi secondi.
Due fonti citate comunemente per la soglia di 1 secondo sono Card et al e Miller. La scheda definisce una soglia di "risposta immediata" di 1 secondo, citando le teorie unificate della cognizione di Newell. Newell spiega le risposte immediate come "risposte che devono essere fatte a qualche stimolo entro circa un secondo (ossia, approssimativamente, da ~0,3 secondi a ~3 secondi)." Ciò segue la discussione di Newell sui "vincoli cognitivi in tempo reale", in cui si nota che "le interazioni con l'ambiente che evocano considerazioni cognitive avvengono nell'ordine di secondi", con intervalli che vanno da circa 0,5 a 2-3 secondi. Miller, un'altra fonte citata comunemente per la soglia di 1 secondo, osserva che "le attività che gli esseri umani possono e eseguiranno con le comunicazioni con le macchine cambieranno seriamente il loro carattere se i ritardi di risposta sono superiori a due secondi, con una possibile estensione di un altro secondo".
La ricerca di Miller e Card descrive il tempo di attesa di un utente prima di perdere lo stato attivo in un intervallo, da circa 0,3 a 3 secondi, il che suggerisce che la nostra soglia LCP "buona" dovrebbe essere compresa in questo intervallo. Inoltre, dato che la soglia "valida" della First Contentful Paint esistente è di 1 secondo e che la Largest Contentful Paint si verifica in genere dopo la First Contentful Paint, limitiamo ulteriormente l'intervallo di soglie LCP dei candidati, da 1 secondo a 3 secondi. Per scegliere la soglia in questo intervallo che meglio soddisfa i nostri criteri, consideriamo di seguito il grado di raggiungibilità di queste soglie dei candidati.
Realizzabilità
Utilizzando i dati di CrUX, possiamo determinare la percentuale di origini sul web che soddisfano le nostre soglie "valide" per il LCP candidato.
Percentuale di origini CrUX classificate come "buone" (per le soglie LCP dei candidati)
1 secondo | 1,5 secondi | 2 secondi | 2,5 secondi | 3 secondi | |
---|---|---|---|---|---|
phone | 3,5% | 13% | 27% | 42% | 55% |
computer | 6,9% | 19% | 36% | 51% | 64% |
Sebbene meno del 10% delle origini soddisfi la soglia di 1 secondo, tutte le altre soglie da 1,5 a 3 secondi soddisfano il nostro requisito secondo cui almeno il 10% delle origini soddisfa la soglia "buona" e, di conseguenza, sono ancora candidati valide.
Inoltre, per garantire che la soglia scelta sia raggiungibile in modo costante per siti ben ottimizzati, analizziamo le prestazioni di LCP per i siti con le migliori prestazioni sul web, per determinare quali soglie sono costantemente raggiungibili per questi siti. In particolare, cerchiamo di identificare una soglia che è costantemente raggiungibile al 75° percentile per i siti con il rendimento migliore. Abbiamo riscontrato che le soglie di 1,5 e 2 secondi non sono costantemente raggiungibili, mentre le soglie di 2,5 secondi sono costantemente raggiungibili.
Per identificare una soglia "scarsa" per LCP, utilizziamo i dati CrUX per identificare una soglia raggiunta dalla maggior parte delle origini:
Percentuale di origini CrUX classificate come "scarse" (per le soglie LCP dei candidati)
3 secondi | 3,5 secondi | 4 secondi | 4,5 secondi | 5 secondi | |
---|---|---|---|---|---|
phone | 45% | 35% | 26% | Il 20% | 15% |
computer | 36% | 26% | 19% | 14% | 10% |
Per una soglia di 4 secondi, circa il 26% delle origini dei telefoni e il 21% delle origini desktop risulta classificato come scarso. Questo rientra nell'intervallo target del 10-30%, pertanto concludiamo che 4 secondi siano una soglia accettabile "scadente".
Concludiamo quindi che 2,5 secondi sono una soglia "buona" ragionevole e 4 secondi sono una soglia "scarsa" ragionevole per Largest Contentful Paint.
First Input Delay
Qualità dell'esperienza
La ricerca è ragionevolmente coerente nella conclusione che i ritardi nel feedback visivo fino a circa 100 ms sono percepiti come causati da un'origine associata, ad esempio l'input di un utente. Questo suggerisce che una soglia "buona" di First Input Delay di 100 ms è probabilmente appropriata come barra minima: se il ritardo per l'input dell'elaborazione supera i 100 ms, non è possibile che altri passaggi di elaborazione e rendering vengano completati in tempo.
Nel campo Response Times: The 3 Important Limits comunemente citato da Jakob Nielsen è in vigore il limite di 0,1 secondi per far sì che l'utente senta che il sistema reagisca istantaneamente. Nielsen cita Miller e Card, che cita Michotte nel 1962, La percezione della causalità. Nella ricerca di Michotte, ai partecipanti all'esperimento vengono mostrati "due oggetti su uno schermo. L'oggetto A si avvia e si sposta verso B. Si ferma nel momento in cui viene a contatto con B, mentre quest'ultimo inizia e si allontana da A". Michotte varia l'intervallo di tempo tra l'arresto dell'oggetto A e il momento in cui l'oggetto B inizia a spostarsi. Michotte rileva che, per ritardi fino a circa 100 ms, i partecipanti hanno l'impressione che l'oggetto A provochi il movimento dell'oggetto B. Per ritardi da circa 100 ms a 200 ms, la percezione della causalità è mista, mentre per ritardi superiori a 200 ms, il movimento dell'oggetto B non è più visto come causato dall'oggetto A.
Allo stesso modo, Miller definisce una soglia di risposta per la "Risposta all'attivazione del controllo" come "l'indicazione dell'azione fornita, di solito, dal movimento di una chiave, di un interruttore o di un altro membro di controllo che segnala che è stato attivato fisicamente. Questa risposta dovrebbe essere percepita come parte dell'azione meccanica indotta dall'operatore. Ritardo: non più di 0,1 secondi" e più tardi "Il ritardo tra la pressione di un tasto e il feedback visivo non dovrebbe essere superiore a 0,1-0,2 secondi".
Più di recente, in Towards the Temporally Perfect Virtual Button, Kaaresoja et al hanno esaminato la percezione della simultaneità tra il tocco di un pulsante virtuale su un touchscreen e il successivo feedback visivo che indicava il tocco del pulsante, a causa di vari ritardi. Quando il ritardo tra la pressione del pulsante e il feedback visivo era pari o inferiore a 85 ms, i partecipanti hanno segnalato che il feedback visivo era comparso contemporaneamente premendo il pulsante il 75% delle volte. Inoltre, per ritardi pari o inferiori a 100 ms, i partecipanti hanno segnalato una qualità percepita costantemente e alta della pressione dei pulsanti, con una qualità percepita che si è abbassata per ritardi da 100 ms a 150 ms e ha raggiunto livelli molto bassi per ritardi di 300 ms.
Considerato quanto sopra, concludiamo che la ricerca punta a un intervallo di valori di circa 100 ms come soglia di First Input Delay appropriata per i Segnali web. Inoltre, poiché gli utenti hanno segnalato livelli di qualità bassi per ritardi di 300 ms o più, 300 ms rappresenta una soglia "scarsa" ragionevole.
Realizzabilità
Utilizzando i dati di CrUX, determiniamo che la maggior parte delle origini sul web soddisfa la soglia "buona" del FID di 100 ms al 75° percentile:
Percentuale di origini CrUX classificate come "buone" per la soglia di 100 ms FID
100 ms | |
---|---|
phone | 78% |
computer | >99% |
Inoltre, notiamo che i siti principali sul web sono in grado di raggiungere costantemente questa soglia al 75° percentile (spesso al 95° percentile).
Considerato quanto sopra, concludiamo che 100 ms è una soglia "buona" ragionevole per FID.
variazione layout cumulativa
Qualità dell'esperienza
Cumulative Layout Shift (CLS) è una nuova metrica che misura lo spostamento dei contenuti visibili di una pagina. Dato che il CLS è nuovo, non siamo a conoscenza di ricerche che possano influenzare direttamente le soglie per questa metrica. Pertanto, per identificare una soglia in linea con le aspettative degli utenti, abbiamo valutato le pagine reali con livelli diversi di variazioni del layout per determinare la quantità massima di variazioni percepita come accettabile prima di causare interruzioni significative durante il consumo dei contenuti delle pagine. Nei nostri test interni, abbiamo rilevato che i livelli di spostamento da 0,15 e oltre sono stati costantemente percepiti come inopportuni, mentre le variazioni di 0,1 e inferiori erano evidenti, ma non eccessivamente dirompenti. Pertanto, sebbene la variazione del layout pari a zero sia l'ideale, abbiamo concluso che valori fino a 0,1 sono soglie CLS candidati "valide".
Realizzabilità
In base ai dati CrUX, possiamo vedere che quasi il 50% delle origini ha una CLS pari o inferiore a 0,05.
Percentuale di origini CrUX classificate come "buone" (per le soglie CLS dei candidati)
0,05 | 0,1 | 0,15 | |
---|---|---|---|
phone | 49% | 60% | 69% |
computer | 42% | 59% | 69% |
Sebbene i dati di CrUX suggeriscano che 0,05 potrebbe essere una soglia "buona" per la CLS, siamo consapevoli che in alcuni casi d'uso è attualmente difficile evitare variazioni del layout dirompenti. Ad esempio, nel caso di contenuti incorporati di terze parti, come gli incorporamenti di social media, a volte l'altezza dei contenuti incorporati non è nota fino al termine del caricamento, il che può comportare una variazione del layout superiore a 0,05. Concludiamo quindi che, anche se molte origini raggiungono la soglia di 0,05, la soglia di 0,1 del CLS leggermente meno rigorosa trova un migliore equilibrio tra qualità dell'esperienza e realizzabilità. Ci auguriamo che in futuro l'ecosistema web individui soluzioni per affrontare i cambiamenti del layout causati da incorporamenti di terze parti, che consentirebbero l'utilizzo di una soglia "buona" CLS più rigorosa, pari a 0,05 o 0, in una futura iterazione di Core Web Vitals.
Inoltre, per determinare una soglia "scarsa" per CLS, abbiamo utilizzato i dati CrUX per identificare una soglia soddisfatta dalla maggior parte delle origini:
Percentuale di origini CrUX classificate come "scarse" (per le soglie CLS dei candidati)
0,15 | 0,2 | 0,25 | 0,3 | |
---|---|---|---|---|
phone | 31% | 25% | 20% | 18% |
computer | 31% | 23% | 18% | 16% |
Per una soglia di 0,25, circa il 20% delle origini telefoniche e il 18% delle origini desktop sarebbero classificati come "scarsi". Questo valore rientra nell'intervallo target del 10-30%, perciò abbiamo concluso che 0,25 sia una soglia accettabile "scarsa".