הגדרת ערכי הסף של מדדי הליבה לבדיקת חוויית המשתמש באתר

המחקר והמתודולוגיה שמאחורי ערכי הסף של מדדי ליבה לבדיקת חוויית המשתמש באתר

בריאן מק'ואד
בריאן מקוואד

מדדי הליבה לבדיקת חוויית המשתמש באתר הם קבוצה של מדדי שדות שמודדים היבטים חשובים בחוויית המשתמש בפועל באינטרנט. רכיבי הליבה של האתר כוללים מדדים וספי יעדים של כל מדד, שעוזרים למפתחים להבין מבחינה איכותית אם חוויית האתר שלהם היא 'טובה', 'דרוש שיפור' או 'חלשה'. בפוסט הזה נסביר את הגישה שמשמשת לבחירת ערכי סף למדדים של מדדי ליבה לבדיקת חוויית המשתמש באתר באופן כללי, ואיך נבחרו ערכי הסף לכל מדד ספציפי של מדדי ליבה לבדיקת חוויית המשתמש באתר.

רענון: מדדים וערכי סף במדדי הליבה לבדיקת חוויית המשתמש באתר

בשנת 2020, מדדי הליבה לבדיקת חוויית המשתמש באתר הם שלושה מדדים: ה-LCP (המהירות שבה נטען רכיב התוכן הכי גדול), העיכוב בקלט הראשון (FID) והפרש הפריסה המצטבר (CLS). כל מדד מודד היבט אחר של חוויית המשתמש: מדד LCP מודד את מהירות הטעינה הנתפסת ומסמן את הנקודה בציר הזמן של טעינת הדף כשסביר להניח שהתוכן הראשי של הדף נטען, FID מודד את התגובתיות ומכמת את חוויית המשתמשים כשהם מנסים לבצע אינטראקציה ראשונה עם הדף; ו-CLS מודד את היציבות החזותית ומכמת את הכמות של שינויים בלתי צפויים בפריסה של תוכן הדף.

לכל מדד של מדדי ליבה לבדיקת חוויית המשתמש באתר יש ערכי סף משויכים שמסווגים את הביצועים כ'טוב', 'נדרש שיפור' או 'חלש':

המלצות הסף להצגת התוכן הכי גדול (LCP) המלצות לסף השהיה לאחר קלט ראשון המלצות סף לשינויים בפריסת הפריסה
  טוב גרועה מאון
Largest Contentful Paint ‏(LCP) ≤2,500 אלפיות השנייה יותר מ-4,000 אלפיות השנייה 75
השהיה לאחר קלט ראשון ≤100 אלפיות השנייה >300 אלפיות שנייה 75
Cumulative Layout Shift ‏(CLS) לא יותר מ-0.1 >0.25 75

בנוסף, כדי לסווג את הביצועים הכוללים של דף או אתר, אנחנו משתמשים בערך של האחוזון ה-75 של כל הצפיות בדף לאותו דף או אתר. במילים אחרות, אם 75 אחוזים לפחות מהצפיות בדף באתר עומדים בסף "טוב", האתר מסווג כביצועים "טובים" עבור ערך זה. לעומת זאת, אם לפחות 25 אחוזים מהצפיות בדפים עומדים בסף 'חלש', האתר מסווג כבעל ביצועים 'חלשים'. לדוגמה, LCP של 2 שניות באחוזון ה-75 מסווג כ'טוב', ו-LCP באחוזון ה-75 של 5 שניות מסווג כ'חלש'.

קריטריונים לערכי הסף של מדדי הליבה לבדיקת חוויית המשתמש באתר

כשקבענו ערכי סף למדדים של מדדי ליבה לבדיקת חוויית המשתמש באתר, זיהינו קודם קריטריונים שכל סף צריך לעמוד בהם. בהמשך מתוארים הקריטריונים שבהם השתמשנו ב-Google להערכת ערכי הסף של מדדי הליבה לבדיקת חוויית המשתמש באתר לשנת 2020. הקטעים הבאים מפרטים עוד יותר על האופן שבו הקריטריונים האלה הוחלו על בחירת ערכי הסף לכל מדד בשנת 2020. בשנים הבאות אנחנו צופים שנערוך שיפורים ותוספות לקריטריונים ולערכי הסף כדי לשפר עוד יותר את היכולת שלנו למדוד חוויות משתמש מעולות באינטרנט.

חוויית משתמש באיכות גבוהה

המטרה העיקרית שלנו היא לבצע אופטימיזציה למשתמשים ולאיכות החוויה שלהם. לכן אנחנו משתדלים לוודא שדפים שעומדים בדרישות הסף 'טובות' של מדדי הליבה לבדיקת חוויית המשתמש באתר יספקו חוויית משתמש באיכות גבוהה.

כדי לזהות סף שמשויך לחוויית משתמש באיכות גבוהה, אנחנו בוחנים תפיסת אנושית ומחקר HCI. אמנם לפעמים מסכם את המחקר הזה באמצעות סף קבוע אחד, אבל אנחנו מוצאים שהמחקר הבסיסי מתבטא בדרך כלל כטווח ערכים. לדוגמה, מחקר על משך הזמן שמשתמשים בדרך כלל מחכים לפני שמאבדים מיקוד מתואר לפעמים כשנייה, בעוד שהמחקר הבסיסי מתבטא למעשה כטווח, ממאות אלפיות שנייה לכמה שניות. גם נתוני מדדים מצטברים ואנונימיים ב-Chrome, שמצביעים על כך שאין כמות מסוימת של זמן שמשתמשים ממתינים עד שדף אינטרנט יציג תוכן לפני שהם מבטלים את טעינת הדף, יכולים גם להסתמך על המידע הזה. במקום זאת, הנתונים האלה מראים התפלגות חלקה ורציפה. למידע מעמיק יותר על ערכי סף של תפיסה אנושית ומחקרים רלוונטיים בנושא HCI, קראו את המאמר מדע מאחורי הקלעים של האינטרנט.

במקרים שבהם יש מחקר רלוונטי על חוויית המשתמש למדד מסוים ויש הסכמה סבירה לגבי טווח הערכים בספרות, אנחנו משתמשים בטווח הזה כקלט בהנחיה של תהליך בחירת הסף. במקרים שבהם אין מחקר רלוונטי על חוויית המשתמש, למשל לגבי מדד חדש כמו Cumulative Layout Shift, במקום זאת אנחנו מעריכים דפים אמיתיים שעומדים בערכי סף שונים למועמדים שונים עבור מדד מסוים, כדי לזהות את הסף שמוביל לחוויית משתמש טובה.

ניתן להשגה באמצעות תוכן קיים מהאינטרנט

בנוסף, כדי להבטיח שבעלי אתרים יוכלו לבצע אופטימיזציה של האתרים שלהם כדי לעמוד בדרישות הסף "טובות", אנחנו דורשים שערכי הסף האלה יוכלו להגיע באמצעות התוכן הקיים באינטרנט. לדוגמה, בעוד שאפס אלפיות שנייה הוא סף 'טוב' אידיאלי ב-LCP, שגורם לחוויות של טעינה מיידית, ברוב המקרים אי אפשר להגיע לסף של אפס אלפיות השנייה באופן מעשי, בגלל זמני האחזור של עיבוד הרשת והמכשיר. לכן, אפס אלפיות השנייה הוא לא סף 'טוב' ב-LCP הגיוני למדדי הליבה לבדיקת חוויית המשתמש באתר.

כשמעריכים ערכי סף "טובים" בדוח מדדי הליבה לבדיקת חוויית המשתמש באתר, אנחנו מוודאים שניתן להשיג את ערכי הסף האלה על סמך נתונים מהדוח על חוויית המשתמש ב-Chrome (CrUX). כדי לוודא שאפשר להגיע לסף, אנחנו דורשים שלפחות 10% מהמקורות יעמדו כרגע בסף ה "טוב". בנוסף, כדי לוודא שאתרים שעברו אופטימיזציה בצורה טובה לא יסווגו בטעות בגלל הבדלים בנתוני השדות, אנחנו גם מוודאים שתוכן שעבר אופטימיזציה עומד באופן עקבי בסף 'טוב'.

לעומת זאת, אנחנו קובעים את הסף 'חלש' על ידי זיהוי רמת ביצועים שרק מיעוט מהמקורות לא עומד בה כרגע. אלא אם יש מחקר זמין שרלוונטי להגדרת סף 'חלש', כברירת מחדל, 10-30% מהמקורות עם הביצועים הגרועים ביותר מסווגים כ'חלשים'.

רעיונות סופיים לגבי קריטריונים

בזמן הערכת תנאי הסף של המועמדים, גילינו שלפעמים הקריטריונים סותרים זה את זה. לדוגמה, יכול להיות מתח בין סף מסוים שניתן להשיג באופן עקבי לבין חוויית משתמש טובה באופן עקבי. בנוסף, מכיוון שמחקר לגבי תפיסה אנושית בדרך כלל מספק מגוון ערכים, ומדדים של התנהגות משתמשים מראים שינויים הדרגתיים בהתנהגות, כך שלרוב אין סף 'נכון' אחד למדד. לכן, הגישה שלנו לגבי מדדי הליבה לבדיקת חוויית המשתמש באתר לשנת 2020 הייתה לבחור ערכי סף שמתאימים בצורה הטובה ביותר לקריטריונים שצוינו למעלה, תוך הכרה בכך שאין סף מושלם אחד ושיכול להיות שלפעמים אנחנו צריכים לבחור מבין ערכי סף סבירים של מועמדים. במקום לשאול "מהו הסף המושלם?", התמקדנו בשאלה "איזה סף מועמדים עומד בצורה הטובה ביותר בקריטריונים שלנו?"

בחירת האחוזון

כפי שצוין קודם לכן, כדי לסווג את הביצועים הכוללים של דף או אתר, אנחנו משתמשים בערך האחוזון ה-75 של כל הביקורים בדף או באתר. האחוזון ה-75 נבחר על סמך שני קריטריונים. ראשית, האחוזון צריך לוודא שרוב הביקורים בדף או באתר מגיעים לרמת יעד הביצועים. שנית, הערך באחוזון שנבחר לא אמור להיות מושפע יותר מדי מחריגות.

היעדים האלה קצת סותרים זה את זה. כדי לעמוד ביעד הראשון, אחוזון גבוה יותר עדיף בדרך כלל. עם זאת, ככל שהאחוזונים גבוהים יותר, כך גדל גם הסבירות שהערך שיתקבל יושפע מערכים של חריג חשוד טעות. אם כמה ביקורים באתר מתרחשים בחיבורי רשת רעועים וכתוצאה מכך דגימות LCP גדולות מדי, אנחנו לא רוצים שסיווג האתר שלנו ייקבע על סמך הדגימות החיצוניות האלה. לדוגמה, במקרה שאנחנו מעריכים את הביצועים של אתר עם 100 ביקורים באמצעות אחוזון גבוה, כמו האחוזון ה-95, יידרשו רק 5 דגימות קיצוניות כדי שהערך של האחוזון ה-95 יושפע מהחריגות.

מכיוון שהמטרות האלה קצת לא תואמות, אחרי הניתוח הגענו למסקנה שהאחוזון ה-75 יוצר איזון סביר. בעזרת האחוזון ה-75 אנחנו יודעים שרוב הביקורים באתר (3 מתוך 4) נהנו מרמת יעד של ביצועים או מרמת ביצועים גבוהה יותר. בנוסף, יש סיכוי נמוך יותר שהערך באחוזון ה-75 יושפע מחריגות. נחזור לדוגמה שלנו. לגבי אתר עם 100 ביקורים, 25 מהביקורים האלו יצטרכו לדווח על דגימות קיצוניות גדולות של הערך באחוזון ה-75 כך שיושפעו מחריגות. למרות ש-25 מתוך 100 הדגימות הן חריגות אפשריות, יש סיכוי הרבה יותר נמוך מאשר במקרה של האחוזון ה-95.

Largest Contentful Paint ‏(LCP)

איכות החוויה

נהוג לצטט שנייה אחת כמשך הזמן שמשתמש ימתין לפני שיתחיל לאבד את המיקוד במשימה. לאחר בדיקה מעמיקה יותר של מחקר רלוונטי, גילינו ששנייה אחת היא אומדן של טווח ערכים, החל ממאות אלפיות שנייה ועד מספר שניות.

שני מקורות שצוטטים לעיתים קרובות לסף של שנייה אחת הם Card et al ו-Miller. בכרטיס מוגדר סף 'תגובה מיידית' של שנייה אחת, על סמך תיאוריות אחידות של קוגניציה של ניוול. ניואל מסביר שתגובות מיידיות הן "תגובות שחייבות להתבצע לגירוי מסוים בתוך בערך שנייה אחת (בערך בין 0.3 שניות לכ-3 שניות)." בהמשך לדיון של ניואל בנושא "אילוצים בזמן אמת על קוגניציה", שם צוין ש"אינטראקציות עם הסביבה שמעוררות שיקולים קוגניטיביים מתרחשות לפי סדר השניות", שנעות בערך בין 0.5 ל-2-3 שניות. מילר, מקור נוסף שצוטט בדרך כלל לגבי הסף של שנייה אחת, מציין כי "משימות שבני אדם יכולים לבצע בתקשורת בין מכונות, ישנו משמעותית את האופי שלהם אם עיכובי התגובה יהיו גדולים משתי שניות, עם הארכה אפשרית של שנייה בערך."

המחקר של מילר וקארד מתאר את משך הזמן שמשתמש ימתין לפני שיאבד את המיקוד כטווח של 0.3 עד 3 שניות, וזה אומר שהסף 'טוב' ב-LCP צריך להיות בטווח הזה. בנוסף, בהתחשב שהסף 'טוב' ב-First Contentful Paint (LCP) הקיים הוא שנייה אחת, ושהמדד 'המהירות שבה נטען רכיב התוכן הכי גדול' (LCP) בדרך כלל מתרחש אחרי הצגת התוכן הראשון, אנחנו מגבילים עוד יותר את טווח ערכי ה-LCP המועמדים, משנייה אחת ל-3 שניות. כדי לבחור את הסף בטווח הזה שעומד בצורה הטובה ביותר בקריטריונים שלנו, אנחנו בודקים את יכולת העמידה בדרישות הסף האלה בהמשך.

יכולת השגה

על סמך נתונים מ-CrUX אפשר לקבוע את אחוז המקורות באינטרנט שעומדים בדרישות הסף 'טובות' ב-LCP של מועמדים.

% ממקורות CrUX שמסווגים כ'טובים' (לערכי סף LCP מועמדים)

  שנייה אחת 1.5 שניות 2 שניות 2.5 שניות 3 שניות
phone 3.5% 13% 27% 42% 55%
מחשב 6.9% 19% 36% 51% 64%

אמנם פחות מ-10% מהמקורות עומדים בסף של שנייה אחת, אבל כל ערכי הסף האחרים, בין 1.5 ל-3 שניות, עומדים בדרישה שלנו שלפחות 10% מהמקורות עומדים בדרישות הסף 'טוב', ולכן הם עדיין מועמדים תקפים.

בנוסף, כדי לוודא שהסף שנבחר ניתן באופן עקבי לאתרים שעברו אופטימיזציה, אנחנו מנתחים את ביצועי ה-LCP באתרים עם הביצועים הטובים ביותר באינטרנט, כדי לקבוע אילו ערכי סף ניתן להגיע באופן עקבי לאתרים האלה. באופן ספציפי, אנחנו שואפים לזהות סף שניתן להגיע אליו בעקביות באחוזון ה-75 באתרים עם הביצועים הטובים ביותר. גילינו שלא ניתן להגיע באופן עקבי לערכי הסף של 1.5 ו-2 שניות, בעוד שבאופן עקבי ניתן להשיג 2.5 שניות.

כדי לזהות סף 'חלש' של LCP, אנחנו משתמשים בנתוני CrUX לזיהוי ערכי סף שעומדים ברוב המקורות:

% ממקורות CrUX שמסווגים כ'חלשים' (בערכי סף LCP מועמדים)

  3 שניות 3.5 שניות 4 שניות 4.5 שניות 5 שניות
phone 45% 35% 26% 20% 15%
מחשב 36% 26% 19% 14% 10%

בסף של 4 שניות, כ-26% ממקורות הטלפונים ו-21% ממקורות המחשבים יסווגו כאיטיים. זה נמצא בטווח היעד שלנו של 10-30%, ולכן אנו מסיקים שטווח של 4 שניות הוא סף 'חלש'.

לפיכך, אנחנו מסיקים שמשך של 2.5 שניות הוא סף 'טוב' סביר, ו-4 שניות הן סף 'חלש' סביר ל- Largest Contentful Paint (LCP).

השהיה לאחר קלט ראשון

איכות החוויה

ניתן לקבוע באופן סביר מהמחקר שלנו לגבי עיכובים במשוב חזותי של עד 100 אלפיות השנייה, שנגרמו על ידי מקור משויך, כמו קלט של משתמשים. זה אומר שסף 'טוב' של השהיה לאחר קלט ראשון של 100 אלפיות השנייה הוא כנראה סרגל מינימלי: אם העיכוב בקלט של העיבוד גדול מ-100 אלפיות השנייה, אין סיכוי ששלבי עיבוד ועיבוד אחרים יושלמו בזמן.

בזמן תגובה: 3 המגבלות החשובות, אמר ג'ייקוב נילסן (Jakob Nielsen) נהוג להגדיר 0.1 שנייה כמגבלה לכך שהמשתמש ירגיש שהמערכת מגיבה באופן מיידי. נילסן מצטטת את מילר וקארד, ומצטטת מיכוטה את תפיסת הסיבתיות של מיכוטה. במחקר של מיצ'וטה, למשתתפי הניסוי מוצגים "שני אובייקטים על מסך. אובייקט א' זז לקראת ב'. היא נעצרת ברגע שהיא בא במגע עם ב', בעוד שהאחרת מתחילה והתרחקת מא'." Michotte משנה את מרווח הזמן בין הרגע שאובייקט א' מפסיק ואובייקט ב' מתחיל לזוז. מוכה מגלה שבעיכובים של עד 100 אלפיות השנייה, המשתתפים מקבלים את החשיפה שאובייקט א' גורם לתנועה של אובייקט ב'. במקרה של עיכובים שנעים בין בערך 100 אלפיות השנייה ל-200 אלפיות השנייה, תפיסת הסיבתיות מעורבת, ובזמן השהיה של יותר מ-200 אלפיות השנייה, התנועה של אובייקט ב' כבר לא נגרמה על ידי אובייקט א'.

באופן דומה, מילר מגדיר סף תגובה ל'הפעלה של תגובה לבקרה' כ "אינדיקציה לפעולה שבוצעה, בדרך כלל, בעקבות תנועה של מפתח, מתג או חבר בקרה אחר שמעיד על כך שבוצעה פעולה פיזית. התגובה הזו צריכה להיתפס כחלק מהפעולה המכנית שהמפעיל גורם. השהיית זמן: לא יותר מ-0.1 שנייה" ואילך,"העיכוב בין לחיצה על מקש לבין משוב חזותי לא יכול להיות יותר מ-0.1 עד 0.2 שניות".

לאחרונה, במאמר ToBefore the Temporally Perfect Virtual לחצן, אנשי Kaaresoja et al חקרו את תפיסת הסימולטניות בין נגיעה בלחצן וירטואלי במסך מגע לבין משוב חזותי נוסף שמציין שהלחצן נגע, למשך עיכובים שונים. כשהעיכוב בין לחיצה על לחצנים ומשוב חזותי היה 85 אלפיות השנייה או פחות, המשתתפים דיווחו שהמשוב הוויזואלי הופיע במקביל בלחיצה על הלחצן 75% מהפעמים. בנוסף, בעיכובים של 100 אלפיות השנייה או פחות, המשתתפים דיווחו על איכות גבוהה עקבית שמראים בלחיצת כפתור, והאיכות הנתפסת נחלשה בגלל עיכובים של 100 אלפיות השנייה עד 150 אלפיות השנייה, והגיעו לרמות נמוכות מאוד בעיכובים של 300 אלפיות השנייה.

בהתחשב בגורמים האלה, הגענו למסקנה שהמחקר מצביע על טווח ערכים בסביבות 100 אלפיות השנייה, בתור סף מתאים להשהיית קלט ראשון במדדי Web Vitals. בנוסף, בהינתן שמשתמשים דיווחו על רמות איכות נמוכות עקב עיכובים של 300 אלפיות השנייה או יותר, זמן 300 אלפיות השנייה נחשב לסף 'חלש' סביר.

יכולת השגה

על סמך הנתונים מ-CrUX אנחנו קובעים שרוב המקורות באינטרנט עומדים בסף 'טוב' של 100 אלפיות השנייה ב-FID, באחוזון ה-75:

% ממקורות CrUX שמסווגים כ'טובים' בסף FID של 100 אלפיות השנייה

100 אלפיות השנייה
phone 78%
מחשב מעל 99%

כמו כן, אנו רואים שאתרים מובילים באינטרנט יכולים לעמוד בעקביות בסף הזה גם באחוזון ה-75 (ובדרך כלל מגיעים אליו באחוזון ה-95).

בהתחשב בעובדות שהוזכרו למעלה, הגענו למסקנה שטווח של 100 אלפיות השנייה הוא סף 'טוב' סביר ל-FID.

Cumulative Layout Shift ‏(CLS)

איכות החוויה

Cumulative Layout Shift (CLS) הוא מדד חדש שמודד עד כמה התוכן הגלוי בדף משתנה. מכיוון שה-CLS חדש, לא ידוע לנו על מחקר שיכול להעריך באופן ישיר את ערכי הסף למדד הזה. לכן, כדי לזהות סף שעולה בקנה אחד עם ציפיות המשתמשים, הערכתנו דפים בעולם האמיתי עם כמויות שונות של שינויי פריסה, כדי לקבוע את מידת התזוזות המקסימלית שנחשבת כמקובלת לפני שיוצרים הפרעות משמעותיות במהלך צריכת תוכן הדף. בבדיקות הפנימיות שלנו גילינו שרמות שינוי מ-0.15 ומעלה נתפסו באופן עקבי כמשבשות, ואילו שינויים של 0.1 ומטה היו בולטים, אבל לא הפריעו במידה מוגזמת. לכן, למרות ששינוי פריסה אפס הוא אידיאלי, הגענו למסקנה שערכים של עד 0.1 הם ערכי סף 'טובים' של CLS.

יכולת השגה

לפי נתוני CrUX, אנחנו רואים שערך CLS של כמעט 50% מהמקורות הוא 0.05 ומטה.

% ממקורות CrUX שמסווגים כ'טובים' (לפי סף CLS מועמדים)

  0.05 0.1 0.15
phone 49% 60% 69%
מחשב 42% 59% 69%

לפי נתוני CrUX עולה שערך 0.05 עשוי להיות סף 'טוב' ב-CLS, אבל ברור לנו שיש תרחישים לדוגמה שבהם קשה למנוע שינויים מפריעות בפריסה. לדוגמה, בתוכן מוטמע של צד שלישי, כמו הטמעות של מדיה חברתית, גובה התוכן המוטמע לא ידוע לפעמים עד לסיום הטעינה, מה שעלול להוביל לשינוי גדול מ-0.05. לכן אנחנו מסיקים שלמרות שמקורות רבים עומדים בסף 0.05, סף ה-CLS שהוא 0.1 שהוא פחות מחמיר, מהווה איזון טוב יותר בין איכות החוויה לבין יכולת ההשגה. אנחנו מקווים שמעכשיו הסביבה העסקית באינטרנט תזהה פתרונות לטיפול בשינויים בפריסה שנגרמו על ידי הטמעות של צדדים שלישיים, מה שיאפשר להשתמש בסף 'טוב' של 0.05 או 0 באיטרציה עתידית של קובצי ליבה לבדיקת חוויית המשתמש באתר.

בנוסף, כדי לקבוע סף 'חלש' ל-CLS, השתמשנו בנתוני CrUX כדי לזהות סף שעולה על ידי רוב המקורות:

% ממקורות CrUX שמסווגים כ'חלשים' (בערכי הסף של CLS מועמדים)

  0.15 0.2 0.25 0.3
phone 31% 25% 20% 18%
מחשב 31% 23% 18% 16%

כדי להגיע לסף של 0.25, כ-20% ממקורות הטלפונים ו-18% ממקורות המחשבים יסווגו כ'איטיים'. הוא נמצא בטווח היעד של 10-30%, ולכן הגענו למסקנה ש-0.25 הוא סף 'חלש' קביל.