הנחות ANOVA הן התנאים שחייבים להתקיים במידה סבירה כדי שמבחן ניתוח שונות (ANOVA) יפיק ערכי p ומסקנות מהימנים. ניתוח מערכתי זה מפרק את ההנחות לשפה פשוטה: נורמליות, אי-תלות, שונויות שוות, חריגים, ושלבי הכנת הנתונים שמונעים מ"מובהקות סטטיסטית" להפוך ל"הטעיה סטטיסטית".
מה זה ANOVA (ומה באמת אומרות "הנחות")
הגדרת ניתוח שונות כך: ANOVA הוא מבחן סטטיסטי המשווה ממוצעים של קבוצות על ידי בדיקה האם ההבדלים בין הקבוצות גדולים יותר ממה שהיית מצפה מרעש אקראי בתוך הקבוצות. הביטוי "ניתוח שונות" הוא מילולי: הוא מנתח כיצד השונות מתחלקת ל"רעש תוך-קבוצתי" ו"אות בין-קבוצתי".
הנחות אינן משוכות אקדמיות. הן תנאי ההפעלה שבהם המתמטיקה שמייצרת את ערך ה-p מתנהגת כמצופה. כאשר מפרים את ההנחות, מצב הכשל הרגיל הוא פשוט: מקבלים תוצאות שנראות משכנעות אך אינן ניתנות לשחזור.
אם אתם זקוקים להגדרה הרשמית, הדף של ויקיפדיה על ניתוח שונות (ANOVA) הוא מקור אמין, אך המטרה המעשית צרה יותר: דעו מה יכול לשבור את המסקנה שלכם, ומה לעשות בנידון.
נורמליות: מה צריך להיות "נורמלי" כדי ש-ANOVA תעבוד
מסגרת החלטה: ב-ANOVA, ההנחה היא שהשאריות (טעויות) מתפלגות בקירוב נורמלי, ולא בהכרח הנתונים הגולמיים בכל קבוצה. בפועל, אנשים לעיתים קרובות בודקים כל קבוצה בכל מקרה כי קל יותר להמחיש זאת.
הנה התרגום למי שאינו סטטיסטיקאי: ANOVA מצפה שהרעש האקראי סביב כל ממוצע קבוצה לא יהיה מוטה מאוד או בעל זנבות קיצוניים. אי-נורמליות קלה היא לרוב בסדר, במיוחד כאשר גודל המדגם סביר ומאוזן. הטיה חמורה בשילוב עם מדגמים קטנים היא המקום שבו אתם נתקלים בבעיות.
מה שאני עושה בפרויקטים אמיתיים (במיוחד בעבודה על מוצרים ותפעול שבהם הנתונים מבולגנים) הוא מיון מהיר:
מה רואים בנתונים
למה זה משנה
מה לעשות הלאה
כל קבוצה נראית בערך כמו פעמון, ללא זנבות חריגים
הנורמליות כנראה מספיקה
הרץ ANOVA והמשך הלאה
התפלגויות מוטות (נפוץ בזמן, הכנסות, שיהוי)
הממוצע רגיש להטיה
שקול טרנספורמציה (לוג) או השתמש בחלופה לא-פרמטרית
n קטן לכל קבוצה (כמו 5-10) עם הטיה/חריגים נראים לעין
ערכי p יכולים להשתנות בפראות
העדף שיטות חסינות, bootstrap, או תכנן מחדש את המבחן
בדיקות נורמליות שימושיות באמת: גרפי Q-Q של שאריות, והיסטוגרמה של שאריות. ניתן להשתמש במבחן שפירו-וילק, אך עם מדגמים גדולים הוא מסמן סטיות זעירות, ועם מדגמים קטנים הוא עלול לפספס בעיות אמיתיות. אני מתייחס אליו כאל אות תומך, לא כגורם מכריע.
אם אתם צריכים תזכורת לאופן שבו ערכי p מתנהגים תחת הנחות, סקירת בדיקת השערות של גוגל מסבירה את האינטואיציה מבלי להטביע אתכם בסימונים.
אי-תלות: ההנחה ששוברת את ANOVA הכי הרבה
לוגיקת החלטה: אי-תלות אומרת שכל תצפית לא אמורה להשפיע על אחרת. אין "קשר נסתר" משותף שגורם לשתי שורות במערך הנתונים שלכם להתנהג כאחת.
זו ההנחה שנכשלת ללא הרף בנתונים עסקיים:
אתם מודדים את אותו משתמש מספר פעמים ומתייחסים לכל אירוע כבלתי תלוי.
אתם מבצעים מבחן A/B לאורך ימים, אך יום שני ויום שלישי מתואמים כי אותה קבוצה חוזרת.
אתם דוגמים מספר פריטים מאותו מכשיר, בית חולים, כיתה או אזור.
כאשר מפרים את אי-התלות, ANOVA הופכת לעיתים קרובות לביטחון עצמי מופרז. ערך ה-p יכול להיראות מרשים כי מערך הנתונים נראה גדול יותר ממה שהוא באמת מבחינת מידע בלתי תלוי.
תיקונים מעשיים תלויים במצב. אם יש לכם מדידות חוזרות (אותה ישות נמדדת מספר פעמים), סביר להניח שאתם צריכים ANOVA למדידות חוזרות או מודל אפקטים מעורבים. אם יש לכם אשכולות (תצפיות מקוננות בחנויות, צוותים, אזורים), עליכם למדל את האשכול או לבצע אגרגציה מתאימה.
כאן צוותים מרוויחים ממיפוי תהליך יצירת הנתונים לפני הרצת סטטיסטיקה. בנינו את Lucid בדיוק עבור סוג זה של בעיית "קלט מבולגן לאפשרויות מובנות". אם אתם רוצים דרך מובנית לבחור את הגישה הנכונה עם הצוות שלכם, התחילו עם מסגרות החלטה: המדריך המלא לבחירת השיטה הנכונה והתייחסו לתוכנית הניתוח שלכם כאל החלטה, לא כאל רשימת תיוג.
שונויות שוות: מתי "פיזור דומה" משנה, ומתי להשתמש ב-Welch
מטריצת קבלת החלטות: ANOVA מניחה שהשונות בתוך כל קבוצה שווה בערך (הומוסדסטיות). אתם משווים ממוצעים, אך סטטיסטי המבחן מסתמך על אומדן משוקלל של שונות. אם קבוצה אחת משתנה הרבה יותר מאחרת, ANOVA קלאסית עלולה להעריך לא נכון את אי-הוודאות.
בדיקת המציאות המהירה ביותר היא ויזואלית: גרפי קופסה זה לצד זה. אם הקופסה והזנבות של קבוצה אחת גדולים משמעותית, אל תתעלמו מכך.
לאחר מכן אשרו עם מבחן שתוכנן לכך: מבחן Levene (או Brown-Forsythe). אם Levene מצביע על שונויות לא שוות, הצעד המומלץ הטוב ביותר הוא לא "לוותר". זהו ANOVA של Welch, שנבנה כדי להתמודד עם שונויות לא שוות וגדלי מדגם לא שווים.
זו לא המלצה נישתית. כלים סטטיסטיים רבים מציעים את Welch כאופציה בשורה אחת, וזו לרוב הבחירה הבטוחה יותר בנתונים מהעולם האמיתי.
מודל מנטלי שימושי: שונויות שוות עוסקות בשאלה האם הקבוצות שלכם "רועשות" במידה דומה. אם קבוצה אחת רועשת כי התהליך לא יציב, זהו ממצא משמעותי, אך הוא גם משנה כמה ביטחון עליכם לתת בהבדלים בין הממוצעים.
חריגים: ההבדל בין אות אמיתי לבין תאונת נתונים
ניתוח תרחישים: חריגים אינם "רעים" באופן אוטומטי. הם או (1) טעויות נתונים, (2) מקרים נדירים אך אמיתיים, או (3) עדות לכך שלתהליך שלכם יש משטרים מרובים.
הבעיה היא ש-ANOVA מבוססת על ממוצע. כמה ערכים קיצוניים יכולים למשוך את הממוצע ולהגדיל את השונות, ובכך לשנות גם את המונה וגם את המכנה של סטטיסטי המבחן.
הגישה שלי שנבדקה בשטח היא עקבית וניתנת לביקורת:
אימות: האם החריג הוא באג ברישום, ערבוב יחידות, או כפילות? תקנו טעויות, אל "תגזמו".
הסבר: אם זה אמיתי, רשמו את המנגנון. "המשתמש הזה הגיע למגבלת קצב" הוא מנגנון. "זה נראה מוזר" אינו כזה.
הרצה חוזרת: חשבו תוצאות עם ובלי החריגים והשוו את השפעת ההחלטה, לא רק את ערך ה-p.
בחירת מדיניות: החליטו האם החריג שייך לאוכלוסייה שההחלטה שלכם משפיעה עליה.
השלב האחרון הוא זה שרוב הצוותים מדלגים עליו. אם אתם מקבלים החלטה לגבי חווית משתמש טיפוסית, ייתכן שתחליטו להוציא אירועים תפעוליים נדירים ולעקוב אחריהם בנפרד עם מדדי אמינות. אם אתם מקבלים החלטה לגבי בטיחות במקרה הגרוע ביותר, אתם שומרים אותם.
אם אתם רוצים דרך מובנית לתעד את הפשרות הללו עם בעלי עניין, מפת אפשרויות בסגנון לוח יעילה יותר משרשור ארוך. Lucid הופכת את הדיון המבולגן הזה לתצוגה עקבית שתוכלו לחזור אליה. זרימת העבודה ב-איך לבחור מסגרת החלטה לצוות שלך היא נקודת התחלה טובה.
הכנת נתונים: העבודה השקטה שהופכת את ANOVA למהימנה
שאלות ניתוח: רוב "הפרות ההנחות" של ANOVA שאני רואה בפועל הן למעשה כשלים בהכנת נתונים. לפני שאתם מתווכחים על נורמליות, ודאו שמערך הנתונים מייצג את מה שאתם חושבים שהוא מייצג.
התחילו עם הבדיקות האלו:
בדיקת הכנת נתונים
מה יכול להשתבש
איך לתקן
שורה אחת שווה יחידה בלתי תלויה
גודל מדגם מנופח מישויות חוזרות
בצעו אגרגציה לפי ישות או השתמשו במודלים של מדידות חוזרות/מעורבים
קבוצות מוגדרות בצורה נקייה
משתמשים נסחפים בין קבוצות, תיוג שגוי
הקפיאו שיוך לקבוצה ובצעו ביקורת על חיבורים (joins)
חוסר בנתונים מובן
נשירה יוצרת הטיה בקבוצה אחת
דווחו על חוסר לפי קבוצה; שקלו אימפוטציה בזהירות
יחידות עקביות
דקות לעומת שניות, המרות מטבע
סטנדרטיזציה של יחידות ובדיקה חוזרת של טווחים
גדלי מדגם מאוזנים (כאשר אפשר)
n לא שווה מגביר בעיות שונות
העדיפו תכנונים מאוזנים; השתמשו ב-Welch כאשר לא מאוזן
אם אתם מבצעים הכנה רב-שלבית בגיליונות אלקטרוניים, רשמו את הצינור (pipeline). ראיתי צוותים "מוכיחים" הבדל שנעלם ברגע שמסנן אחד תוקן.
כמו כן, זכרו על מה ANOVA עונה. היא בודקת האם לפחות ממוצע קבוצה אחד שונה. אם אתם צריכים לדעת אילו קבוצות שונות, אתם ממשיכים עם השוואות פוסט-הוק (כמו Tukey HSD) תוך שליטה בטעות משפחתית.
להסבר נקי על מדוע השוואות מרובות מנפחות תוצאות חיוביות שגויות, לספרייה הלאומית לרפואה של ארה"ב יש סקירה קריאה במאמרים יישומיים רבים, אך הפניה מעשית היא לרוב הפשוטה ביותר: השתמשו ב-Tukey (שונויות שוות) או Games-Howell (שונויות לא שוות) ותעדו זאת.
רשימת תיוג מעשית להנחות שניתן להריץ ב-10 דקות
ניתוח מערכתי שימושי רק אם הוא משנה את מה שאתם עושים הלאה. הנה רשימת התיוג המהירה שאני משתמש בה לפני שאני נותן לתוצאת ANOVA להניע החלטת מוצר, תפעול או מחקר:
הנחה
בדיקה מהירה
אם היא נכשלת
אי-תלות
האם יש משתמשים/מכשירים/חנויות חוזרים?
השתמשו במדידות חוזרות, מודלים מעורבים, או אגרגציה
נורמליות (שאריות)
גרף Q-Q נראה סביר?
טרנספורמציה, שיטות חסינות, או מבחן לא-פרמטרי
שונויות שוות
גרפי קופסה + Levene
ANOVA של Welch; התאימו שיטת פוסט-הוק
חריגים
האם הם טעויות או קיצוניים אמיתיים?
תקנו טעויות; הריצו רגישות; בחרו מדיניות
שלמות נתונים
חיבורים, תוויות, יחידות, חוסר
בצעו ביקורת על הצינור, הריצו ניתוח מחדש
משפט אחד שאני רוצה שצוותים יפנימו: תוצאה מובהקת סטטיסטית אינה החלטה עד שלא אימתתם את ההנחות שהופכות אותה למשמעותית.
אם אתם מתאמים זאת בצוות, התייחסו לזה כמו לכל החלטה בעלת סיכון גבוה: תפסו אפשרויות, פשרות ותוצאות במקום אחד. זה בדיוק מה שלוח ההחלטות של Lucid נבנה עבורו. אתם יכולים ליצור סביבת עבודה ב-Lucid ולמפות את אפשרויות הניתוח שלכם תוך כמה דקות, ואז לשמור על עקביות הנימוקים ככל שמגיעים נתונים חדשים.
שאלות נפוצות
מהן הנחות ANOVA במונחים פשוטים?
הנחות ANOVA הן התנאים שהופכים את ערך ה-p של המבחן למהימן: תצפיות בלתי תלויות, שאריות נורמליות בקירוב, שונויות דומות בין קבוצות, ומערך נתונים שאינו נשלט על ידי טעויות או חריגים קיצוניים.
מה קורה אם מפרים את הנחות ANOVA?
התוצאה הנפוצה ביותר היא ערך p אופטימי מדי, מה שאומר שאתם חושבים שמצאתם הבדל אמיתי כשלא מצאתם. לפעמים קורה ההפך והבדלים אמיתיים מוסתרים על ידי רעש או שונות לא שווה.
האם אני צריך נתונים נורמליים כדי להריץ ANOVA?
אתם צריכים שאריות שאינן לא-נורמליות בצורה חמורה, במיוחד עם מדגמים קטנים. עם גדלי מדגם בינוניים וקבוצות מאוזנות, ANOVA לרוב חסינה לאי-נורמליות קלה, אך הטיה כבדה עם חריגים היא דגל אדום.
במה עלי להשתמש אם השונויות אינן שוות?
ANOVA של Welch היא התחליף הסטנדרטי מכיוון שהיא לא מניחה שונויות שוות ומטפלת טוב יותר בגדלי מדגם לא שווים. עבור השוואות פוסט-הוק, השתמשו בשיטה שתוכננה לשונויות לא שוות כגון Games-Howell.
איך אני מטפל בחריגים לפני ANOVA?
ראשית ודאו אם מדובר בטעויות נתונים. אם הם אמיתיים, תעדו את המנגנון, הריצו בדיקות רגישות עם ובלי החריגים, והתאימו את ההכללה לאוכלוסייה שההחלטה שלכם משפיעה עליה.
הסבר על הנחות ANOVA עבור מי שאינם סטטיסטיקאים | Lucid