ניתוח שונות (ANOVA) הוא מבחן השערות הבודק האם שלוש קבוצות או יותר נבדלות זו מזו בממוצע שלהן, על ידי השוואת השונות בין הקבוצות לשונות בתוך הקבוצות. אם אתם מנסים לענות על השאלה "האם קבוצה א', ב' או ג' מתפקדות אחרת?", ANOVA מספק ערך p (p-value) וצעד הבא ברור: אילו הבדלים הם אמיתיים ואילו הם רעש סטטיסטי.
הגדרה: מה ניתוח שונות בודק באמת (ומדוע הוא נקרא כך)
הגדרת ניתוח שונות: ANOVA בודק האם ההבדלים בין ממוצעי הקבוצות גדולים יותר ממה שהייתם מצפים משינויים אקראיים בתוך הקבוצות עצמן.
השם מבלבל אנשים כי המטרה היא לבדוק ממוצעים, אך הוא נקרא "שונות". הטריק הוא ש-ANOVA משתמש בשונות כסרגל מדידה כדי לקבוע "עד כמה מפתיעים" ההבדלים בין הממוצעים. הוא מחשב F-statistic, שהוא בעצם:
"עד כמה ממוצעי הקבוצות מפוזרים?" (שונות בין-קבוצתית)
חלקי
"עד כמה נקודות הנתונים בתוך כל קבוצה מפוזרות?" (שונות תוך-קבוצתית)
אם השונות בין הקבוצות גדולה ביחס לשונות בתוך הקבוצות, ערך ה-F עולה וערך ה-p יורד.
אם אתם מחפשים את ההגדרה הפורמלית: ANOVA הוא הליך סטטיסטי לבדיקת השערת האפס שכל ממוצעי הקבוצות שווים (למשל, μ1 = μ2 = μ3), תחת הנחות מסוימות על תהליך יצירת הנתונים.
להגדרה הקנונית והקשר היסטורי, ראו את הסקירה של ויקיפדיה על ניתוח שונות. לפרשנות מעשית, המסגרת שלעיל היא זו שאני משתמש בה בעבודה על מוצרים ותפעול כאשר אנו משווים מספר גרסאות וזקוקים להחלטה מנומקת.
מתי ANOVA הוא המבחן הנכון (ומתי הוא שגוי)
הגדרת ניתוח שונות לפי תפקידו: הוא עונה היטב על שאלה צרה אחת: "האם הקבוצות הללו נבדלות בממוצע?"
ANOVA הוא הכלי הנכון כאשר:
התוצאה שלכם מספרית (שיעור המרה למשתמש, זמן לביצוע משימה, הכנסה לחשבון, ציוני מבחן).
המשתנה המסביר שלכם קטגורי (גרסה א/ב/ג, שלושה תהליכי קליטה, ארבעה ספקים, חמש תוכניות הכשרה).
יש לכם תצפיות בלתי תלויות (כל נקודת נתון שייכת לקבוצה אחת ואינה "מזווגת" עם אחרת).
זהו הכלי הלא נכון כאשר:
יש לכם רק שתי קבוצות. השתמשו במבחן t (ANOVA ייתן את אותה תוצאה, אך זהו טקס מיותר).
התוצאה שלכם קטגורית (עבר/נכשל). זהו תחום של מבחן חי-בריבוע או רגרסיה לוגיסטית.
הנתונים שלכם הם מדידות חוזרות (אותם משתמשים נמדדים בתנאים שונים). זהו תחום של ANOVA למדידות חוזרות או מודלים מעורבים.
כלל אצבע מעשי שבו השתמשתי עם צוותים: אם שאלות הניתוח שלכם כוללות "באיזו אפשרות עלינו לבחור?" ו-"מה יקרה אם נרחיב את זה?", אתם כבר בשטח של קבלת החלטות. ANOVA יכול לומר לכם אם קיימים הבדלים, אך הוא לא בוחר עבורכם. כאן עוזרת מסגרת קבלת החלטות. כתבנו מדריך ידידותי לצוותים על כיצד לבחור מסגרת קבלת החלטות לצוות שלכם כאשר התוצאה הסטטיסטית היא רק קלט אחד מתוך עלות, סיכון ואסטרטגיה.
איך ANOVA עובד: קבוצות, ממוצעים, שונות ומבחן ההשערות
ANOVA מתחיל בשתי השערות:
השערת האפס (H0): כל ממוצעי הקבוצות שווים.
השערת המחקר (H1): לפחות ממוצע קבוצה אחד שונה.
לאחר מכן הוא מחלק את השונות לשני דליים:
רכיב
מה הוא מודד
אינטואיציה
שונות בין-קבוצתית
כמה רחוקים ממוצעי הקבוצות מהממוצע הכללי
"האם ממוצעי הקבוצות מופרדים?"
שונות תוך-קבוצתית
כמה הנקודות מפוזרות בתוך כל קבוצה
"האם כל קבוצה רועשת?"
ה-F-statistic הוא היחס בין השניים. יחס גבוה אומר שההפרדה בין הקבוצות גדולה בהשוואה לרעש.
זו גם הסיבה לכך ש"ניתוח מערכות" חשוב באנליטיקה בעולם האמיתי. אם מערכת המדידה שלכם לא יציבה (סחיפת מכשירים, רישום לא עקבי, אוכלוסיות מעורבות), השונות בתוך הקבוצה מתנפחת וה-ANOVA מאבד כוח. המבחן לא נכשל בחן; הוא פשוט אומר לכם "אין הבדל" כי הנתונים שלכם מבולגנים מדי.
דוגמה מעשית ל-ANOVA חד-כיווני (מספרים פשוטים, ללא דיבורים מיותרים)
ANOVA חד-כיווני אומר "גורם אחד" (משתנה קיבוץ אחד). דוגמה: הרצתם שלושה תהליכי קליטה ומדדתם זמן לערך ראשון (בדקות).
ממוצע קבוצה א': 18 דקות (n=40)
ממוצע קבוצה ב': 16 דקות (n=42)
ממוצע קבוצה ג': 12 דקות (n=39)
אתם חושדים ש-ג' מהירה יותר, אך עליכם לדעת אם ההבדלים הללו גדולים משינויים אקראיים. ANOVA בודק את H0: μA = μB = μC.
נניח שפלט ה-ANOVA נותן:
F = 5.9
p = 0.004
פרשנות: בהנחה שהנחות ה-ANOVA מתקיימות, אתם דוחים את H0 ברמות אלפא נפוצות (0.05, 0.01). כעת אתם יודעים שלפחות קבוצה אחת שונה.
מה שעדיין אינכם יודעים: האם ג' טובה יותר גם מא' וגם מב', או שהיא רק שונה מא'? כאן נכנס מבחן פוסט-הוק.
בפועל, זהו תהליך העבודה שאני דוחף צוותים לבצע:
הריצו ANOVA כדי להימנע מניפוח של מבחני t מרובים.
אם התוצאה מובהקת, הריצו Tukey HSD (או השוואה מתוקנת אחרת) כדי לזהות אילו זוגות נבדלים.
תרגמו את האפקט למונחים עסקיים: "ג' מפחיתה את הזמן לערך ראשון בכ-6 דקות לעומת א'."
אם אתם רוצים לקחת את הצעד האחרון ברצינות, אתם צריכים יותר מערך p. אתם צריכים היגיון החלטות: השפעה, סיכון ועלות השקה. כאשר צוותים נתקעים בוויכוח על "מובהקות סטטיסטית מול מובהקות מעשית", אנו לעיתים קרובות מעבירים את הדיון ללוח אפשרויות מובנה כדי שהפשרות יהיו גלויות.
דוגמה ל-ANOVA דו-כיווני: מתי אינטראקציות חשובות
ANOVA דו-כיווני בודק את ההשפעה של שני גורמים והאם הם מקיימים אינטראקציה.
דוגמה: אתם מעריכים תוצאות שירות לקוחות. התוצאה היא ציון שביעות רצון לקוחות. שני גורמים:
ערוץ תמיכה: צ'אט מול אימייל
דרגת לקוח: רגיל מול פרימיום
ANOVA דו-כיווני יכול לענות על:
האם הערוץ משפיע על שביעות הרצון בממוצע?
האם הדרגה משפיעה על שביעות הרצון בממוצע?
האם השפעת הערוץ שונה עבור פרימיום לעומת רגיל? (אינטראקציה)
האינטראקציה הזו היא המקום שבו צוותים רבים מופתעים. ייתכן שתגלו שצ'אט מנצח אימייל באופן כללי, אך רק עבור לקוחות פרימיום. עבור לקוחות רגילים, אין הבדל. אם הייתם מריצים רק מבחנים חד-כיווניים נפרדים, הייתם עלולים לפספס את האינטראקציה או לרדוף אחרי ממוצע מטעה.
כאן גם ניתוח תרחישים הופך לשימושי. ברגע שאתם רואים אינטראקציה, אתם יכולים לשאול: "אם נעביר 30% מהפניות של לקוחות רגילים לצ'אט, מה יקרה לכוח האדם ולשביעות הרצון?" זה כבר לא ANOVA; זה תכנון תפעולי הבנוי על הממצא הסטטיסטי.
הנחות ששוברות את ה-ANOVA בחיים האמיתיים (ומה לעשות במקום)
ANOVA חסון במובנים מסוימים, אך הוא אינו קסם. אלו ההנחות שלרוב גורמות להחלטות שגויות:
הנחה
מה זה אומר
מה לעשות אם היא מופרת
עצמאות
תצפיות אינן קשורות
השתמשו ב-ANOVA למדידות חוזרות או מודלים מעורבים
שאריות נורמליות בקירוב
שגיאות הן נורמליות בערך
לרוב תקין עם n הגון; אחרת בצעו טרנספורמציה או השתמשו במבחנים לא-פרמטריים
הומוגניות של שונויות
לקבוצות יש שונות דומה
השתמשו ב-Welch’s ANOVA או בשיטות חסונות
אם אתם זוכרים רק דבר אחד: אל תשתמשו ב-ANOVA קלאסי כאשר שונויות הקבוצות שונות מאוד וגדלי המדגם אינם שווים. השילוב הזה יכול לעוות את מבחן ה-F.
לסקירה קפדנית של הנחות וחלופות, למכון למחקר וחינוך דיגיטלי של UCLA יש הערות סטטיסטיות מצוינות ומעשיות: משאבי הסטטיסטיקה של UCLA IDRE.
טעויות נפוצות: מה אנשים חושבים ש-ANOVA אומר להם (אבל הוא לא)
ANOVA לא אומר לכם:
איזו קבוצה היא הטובה ביותר (ללא השוואות פוסט-הוק).
עד כמה ההבדל גדול במונחים מעשיים (אתם צריכים גודל אפקט והקשר תחום).
האם ההחלטה שלכם "בטוחה" ליישום (אתם צריכים ניתוח סיכונים ואילוצים).
כאן צוותים נופלים לשיתוק ניתוחי. הם ממשיכים להריץ מבחנים מחדש, לחתוך תתי-קבוצות ולהתווכח על ערכי p כי קריטריוני ההחלטה מעולם לא הוגדרו. מטריצת קבלת החלטות יכולה לעזור אם אתם בוחרים בין אפשרויות עם קריטריונים מרובים (עלות, מהירות, איכות, סיכון), אך היא זקוקה לקלטים נקיים. אם התוצאה הסטטיסטית שלכם היא קלט אחד, התייחסו אליה כאל עמודה אחת, לא כאל פסק הדין כולו.
אם אתם בונים תהליך שניתן לחזור עליו עבור החלטות אלו, הייתי מתחיל עם מסגרות קבלת החלטות: המדריך המלא ואז מתקנן כיצד אתם מתרגמים "הבדל מובהק" ל-"שחרור, איטרציה או עצירה".
כיצד ליישם ANOVA להחלטות אמיתיות מבלי להיתקע
ANOVA הוא השימושי ביותר כאשר אתם משלבים אותו עם תהליך עבודה מפורש לקבלת החלטות. הנה המסגרת שאני משתמש בה:
ראשית, כתבו את ההחלטה במשפט אחד: "בחרו את תהליך הקליטה שממזער את הזמן לערך ראשון מבלי להפחית את שיעור ההפעלה."
שנית, הגדירו הצלחה ומעקות בטיחות (זה מונע ראיית מנהרה של ערכי p). לאחר מכן הריצו את ה-ANOVA על המדד העיקרי, ובדקו את מעקות הבטיחות בנפרד.
שלישית, לאחר מבחני פוסט-הוק, סכמו את התוצאות בטבלת השוואה פשוטה שמי שאינו סטטיסטיקאי יכול לקרוא:
אפשרות
ממוצע מדד עיקרי
שונה סטטיסטית?
סיכון תפעולי
פעולה הבאה
א
18 דקות
בסיס
נמוך
שמור כביקורת
ב
16 דקות
לא לעומת א'
בינוני
בצע איטרציה על הטקסט, הרץ שוב
ג
12 דקות
כן לעומת א'
בינוני-גבוה
השקה פיילוט + ניטור
אם אתם רוצים שתצוגת "לוח האפשרויות" הזו תישאר מעודכנת כשההקשר משתנה (אילוצים חדשים, עלויות מעודכנות, נתונים טריים), זהו בדיוק מקרה השימוש עבור סגנון המיפוי של Lucid. אתם יכולים להתחיל מהערה קולית מבולגנת, ליצור יתרונות/חסרונות ותוצאות מובנים, ואז להשוות בתצוגות רשת/טבלה/מיקוד.
שאלות נפוצות
איך אני יכול לכתוב את ניתוח ה-ANOVA שלי?
ציינו את שאלת המחקר, רשמו את הקבוצות וגדלי המדגם, דווחו על F, דרגות חופש וערך p, ואז הוסיפו תוצאת מבחן פוסט-הוק. סיימו עם משפט באנגלית פשוטה על מה השתנה ובכמה.
מה ההבדל בין ANOVA למבחן t?
מבחן t משווה שני ממוצעים; ANOVA משווה שלושה ממוצעים או יותר במבחן אחד תוך שליטה בשיעור השגיאה הכולל. עם בדיוק שתי קבוצות, ANOVA חד-כיווני ומבחן t מפיקים תוצאות מובהקות שוות ערך.
מה אומר ערך p ב-ANOVA?
זו ההסתברות לראות F-statistic קיצוני לפחות כמו זה אם השערת האפס (כל הממוצעים שווים) הייתה נכונה. ערך p קטן מרמז שלפחות ממוצע קבוצה אחד שונה, לא שהאפשרות המועדפת עליכם היא אוטומטית הטובה ביותר.
מה עלי לעשות אחרי ANOVA מובהק?
הריצו מבחן פוסט-הוק כמו Tukey HSD כדי למצוא אילו קבוצות נבדלות, לאחר מכן כמת את גדלי האפקט ותרגמו אותם להשפעה תפעולית. אם להחלטה יש פשרות, תעדו קריטריונים כדי שהצוות לא יתווכח רק על מובהקות.
הצעד הבא שלכם: קחו החלטה רב-אפשרויות נוכחית (שלוש גרסאות, שלושה ספקים, שלושה תהליכים), הריצו ANOVA אחד נקי על המדד העיקרי, ואז כתבו סיכום החלטה של פסקה אחת בתוספת טבלת השוואה פשוטה.