ניתוח שונות (ANOVA) הוא שיטה סטטיסטית לבדיקה האם ממוצעים של שלוש קבוצות או יותר נבדלים זה מזה, על ידי השוואת השונות בין הקבוצות לשונות בתוך הקבוצות. אם הגעת לכאן כדי לבנות דיאגרמת עץ סטטיסטית נקייה מבלי לפספס תוצאות, מדריך זה מספק תהליך בנייה אמין, צעד אחר צעד, את חוקי ההסתברות מאחורי כל ענף, ובדיקות תקינות שתופסות טעויות בשלב מוקדם.
איך מגדירים אירועים ומסדרים אותם?
בניית דיאגרמת עץ סטטיסטית מתחילה לפני שאתה מצייר משהו. אתה צריך הגדרת אירוע נקייה וסדר הגיוני.
עץ הסתברות הוא ייצוג חזותי של מרחב מדגם, שבו כל רמה היא אירוע וכל ענף הוא תוצאה של אותו אירוע. הסדר חשוב כי הוא קובע אם אתה משתמש ב-P(A), P(B|A), או P(B) על ענף.
הנה הכלל שאני משתמש בו בעבודה אנליטית: סדר אירועים לפי הרצף שבו המידע הופך ידוע. אם האירוע השני תלוי בראשון (אפילו מעט), שים את האירוע הראשון גבוה יותר בעץ. אם האירועים בלתי תלויים, אתה יכול לבחור את הסדר שהופך את העץ לפשוט יותר, אך עדיין עליך לשמור על הלוגיקה המותנית עקבית.
דוגמה קונקרטית (אירועים תלויים)
נניח שאתה ממדל תהליך איכות:
אירוע 1: ספק נבחר (ספק X או Y)
אירוע 2: חלק עובר בדיקה (עובר או נכשל)
תוצאות הבדיקה תלויות בספק, לכן הספק חייב להופיע ראשון. ענפי הרמה השנייה שלך הם מותנים: P(עובר|X) ו-P(עובר|Y).
אם תהפוך את הסדר, עדיין תוכל לגרום לזה לעבוד, אך תזדקק ל-P(X|עובר) ו-P(X|נכשל), שלרוב אינם מה שמדדת. כאן סטודנטים ואנליסטים שוברים את העצים שלהם בשקט.
בכל צומת, הענפים חייבים להיות מוציאים זה את זה ו-ממצים את כל האפשרויות. זה לא ניסוח אקדמי. זה ההבדל בין עץ שמסתכם ל-1 לבין עץ שמסתכם ל-1.12 והורס את התוצאה שלך בשקט.
התחל בכתיבת מרחב המדגם בשפה פשוטה. עבור שני אירועים, אתה מכסה שילובים כמו:
A ואז B
A ואז לא B
לא A ואז B
לא A ואז לא B
עץ נקי הופך את השילובים האלה לנראים לעין.
חוקי תיוג ענפים שמונעים 90% מהטעויות
כל פיצול חייב להסתכם ל-1. אם לצומת יש ענפים עם הסתברויות 0.3 ו-0.5, חסר לך ענף או שהנתונים שלך לא עקביים.
השתמש במשלים במפורש. אם אתה יודע ש-P(A) = 0.7, כתוב את הענף השני כ-P(לא A) = 0.3. זה מהיר יותר ומפחית טעויות חישוב.
תן שמות לתוצאות, לא רק אותיות. "עובר" ו-"נכשל" עדיפים על "B" ו-"לא B" כשאתה חוזר לעץ מאוחר יותר.
כשהעץ הופך גדול, אני לעיתים קרובות מתרגם אותו לתצוגת עץ פתרונות: תוצאות על ציר אחד, תנאים על השני. זו בעצם גרסת טבלה של אותה לוגיקה, והיא הופכת תוצאות חסרות לברורות מאליהן.
צומת
ענפים שחובה לכלול
בדיקה מהירה
אירוע ראשון
כל התוצאות האפשריות של אירוע 1
סכום שווה ל-1
אירוע שני (ענף נתון)
כל תוצאות אירוע 2 מותנות בענף זה
סכום שווה ל-1 לכל ענף הורה
עלים סופיים
כל מסלול ייחודי דרך העץ
ספירת עלים תואמת שילובים
אם אתה עובד בצוות, מצאתי שתרשים זרימה של החלטות יכול להיות צעד מקדים טוב יותר מאשר ציור העץ מיד, כי הוא מחייב הסכמה על מה שנמצא "בתוך ההיקף" לפני שהמספרים מופיעים.
איך מחשבים הסתברויות מותנות על כל ענף?
כאן דיאגרמת עץ סטטיסטית הופכת לנכונה או לטועה בביטחון.
הסתברות ענף ברמה 1 היא בלתי מותנית: P(A). ברמה 2 ומעלה, היא בדרך כלל מותנית: P(B|A).
אם A ו-B בלתי תלויים, אז P(B|A) = P(B). בעץ, זה אומר שהסתברויות הענפים ברמה השנייה זהות תחת כל ענף ברמה הראשונה.
אי-תלות אינה "הם מרגישים לא קשורים". בפועל, אני בודק אי-תלות על ידי חיפוש שינויים מהותיים. אם P(עובר|X)=0.92 ו-P(עובר|Y)=0.78, אין לך אי-תלות, וכפיית אי-תלות תמעיט בערך הסיכון.
כלי תקינות טוב כאן הוא ניתוח תרחישים קטן: חשב תוצאות תחת הנחות של אי-תלות ותלות וראה כמה התוצאה משתנה. אם היא משתנה הרבה, אתה צריך נתונים טובים יותר, לא עץ יפה יותר.
אם אתה רוצה למסד פשרות ברגע שיש לך הסתברויות עלים, מטריצת קבלת החלטות יכולה לעזור לך לשלב הסתברות עם השפעה (עלות, זמן, סיכון). לעיתים קרובות אנו משלבים זאת עם מסגרת מובנית כמו איך לבחור מסגרת החלטה לצוות שלך.
איך בודקים סכומים וטעויות נפוצות?
לעץ הסתברות נכון יש שתי תכונות בלתי ניתנות לערעור:
כל הסתברויות העלים מסתכמות ל-1.
הענפים היוצאים מכל צומת מסתכמים ל-1.
אם אחד מהם נכשל, עצור. תקן את העץ לפני שאתה מפרש משהו.
שיטת הביקורת המהירה ביותר שאני מכיר
בנה טבלת עלים וסכם אותה. זה תופס טעויות חישוב ותוצאות חסרות במעבר אחד.
מסלול
חישוב
הסתברות עלה
A ואז B
P(A) × P(B
A)
A ואז לא B
P(A) × P(לא B
A)
לא A ואז B
P(לא A) × P(B
לא A)
לא A ואז לא B
P(לא A) × P(לא B
לא A)
סך הכל
סכום העלים
חייב להיות שווה ל-1
טעויות נפוצות שאני רואה בעבודות סטודנטים ובסקירות ניתוח אמיתיות:
ערבוב הסתברויות בלתי מותנות ומותנות באותה רמה (שימוש ב-P(B) על ענף אחד וב-P(B|A) על אחר).
ספירה כפולה של תוצאות חופפות כי הענפים אינם מוציאים זה את זה.
שכחת ענף המשלים והשארת מסת הסתברות לא מוקצית.
לצורך הסבר מעמיק יותר מדוע סכומים חייבים להיות שווים ל-1, כדאי לחזור לאקסיומות ההסתברות. התייחסות נקייה היא יסודות ההסתברות של קהאן אקדמי שהיא קפדנית מבלי להיות דחוסה.
הפוך עץ גמור למפת אפשרויות בינה מלאכותית (יתרונות, חסרונות, השלכות)
ברגע שדיאגרמת העץ הסטטיסטית שלך נכונה, אתה יכול להשתמש בה כפריט החלטה, לא רק כגרפיקה לשיעורי בית.
הנה התרגום: כל מסלול מהשורש לעלה הוא אפשרות עם הסתברות, ולכל אפשרות יש השלכות במורד הזרם (עלות, זמן, סיכון, מוניטין, השפעה על משתמשים). זה בדיוק המקום שבו צוותים נתקעים: המתמטיקה בסדר, אבל ההחלטה עדיין מעורפלת כי היתרונות והחסרונות מפוזרים בין הערות.
ב-Lucid, אנחנו לוקחים את תוצרי העץ ובונים לוח שבו כל מסלול הופך לכרטיס בר-השוואה: הסתברות, ערך צפוי, תרחיש הטוב ביותר והגרוע ביותר, והשפעות מסדר שני שאנשים שוכחים לרשום. כשבעלי עניין משנים הנחות, הלוח נשאר עקבי כי המבנה הבסיסי מפורש.
דרך מעשית לעשות זאת:
המר כל עלה לשורה: מסלול, הסתברות, תגמול או השפעה, הנחות מפתח.
הוסף עמודת השלכות: מה קורה הלאה אם המסלול הזה מתרחש (עלויות המשך, צעדי מיתון, תוצאות לקוח).
השווה מסלולים זה לצד זה בתצוגת רשת או טבלה כך שהפשרות יהיו גלויות.
זה גם המקום שבו "יתרונות וחסרונות של בינה מלאכותית" הופכים למציאות. בינה מלאכותית מצוינת ביצירת רשימות השלכות והצפת שיקולים חסרים, אך היא חלשה כשמזינים לה מבנה מרושל. עץ נכון נותן לבינה מלאכותית משהו מוצק לבנות עליו.
למה משמשת דיאגרמת עץ סטטיסטית?
דיאגרמת עץ סטטיסטית (עץ הסתברות) משמשת לייצוג אירועים רציפים וחישוב הסתברויות של תוצאות משולבות. היא שימושית במיוחד להסתברות מותנית, אירועים תלויים ותהליכים מרובי שלבים.
איך מחשבים הסתברויות מותנות על עץ?
אתה מציב הסתברויות מותנות על ענפים לאחר הפיצול הראשון, כגון P(B|A). לאחר מכן הכפל לאורך מסלול כדי לקבל הסתברויות משותפות וסכם מסלולים רלוונטיים כדי לקבל סכומים עבור תוצאה.
איך נמנעים מתוצאות חסרות בעץ הסתברות?
הפוך כל פיצול לממצה את כל האפשרויות על ידי הכללת משלימים (כמו לא A) וודא שהסתברויות הענפים היוצאים מסתכמות ל-1. לאחר מכן ודא שכל הסתברויות העלים מסתכמות ל-1.
מהן טעויות נפוצות בבניית עצי הסתברות?
הגדולות ביותר הן ערבוב הסתברויות בלתי מותנות ומותנות, השמטת ענפי משלים, וספירה כפולה של תוצאות חופפות. עיגול מוקדם מדי גורם גם לסכומים לסטות מ-1.
אם אתה רוצה להשתפר בעצים מהר, קח תרחיש אמיתי אחד שאכפת לך ממנו (פגם בתהליך, שרשרת המרת משפך, רצף בדיקות קליניות), בנה את העץ, ואז בקר אותו בשיטת טבלת העלים שלעיל. לאחר מכן, תרגם כל עלה לאפשרות עם השלכות והשווה ביניהם.