שונות (Var) היא מדד לפיזור ערכים סביב התוחלת (התוחלת = הממוצע). המושג הוצג על ידי רונלד פישר ב-1918. באופן אינטואיטיבי, השונות היא ההמוצע של הריבועים של המרחקים בין כל ערך לממוצע. אם השונות שווה אפס, כל הערכים זהים. השונות אינה יכולה להיות שלילית.
השונות נמדדת גם במשתנה בדיד וגם ברציף. משום שיחידותיה הן ריבוע של יחידות הנתונים, נהוג גם להשתמש בסטיית תקן, השורש הריבועי של השונות, כדי לקבל מדד בפורמט של יחידות המקור.
עבור משתנה מקרי X עם תוחלת μ (E[X]), השונות מוגדרת כ־Var(X)=E[(X-μ)^2]. דרך מקוצרת היא Var(X)=E[X^2]-E[X]^2, בתנאי שהאינטגרלים או הסכומים מתכנסים.
למשתנה בדיד עם ערכים x_i והסתברויות p_i:
Var(X)=Σ p_i (x_i-μ)^2.
בחישוב מדגם פשוט של N ערכים: Var = (1/N) Σ (x_i-μ)^2, וכדאי לדעת שניתן גם לכתוב את זה כ(1/N)Σ x_i^2 - μ^2.
למשתנה רציף עם צפיפות f(x): Var(X)=∫(x-μ)^2 f(x) dx = ∫ x^2 f(x) dx - μ^2, כאשר μ=∫ x f(x) dx.
בהתפלגות נורמלית הפרמטרים הם μ ו־σ. שונות ההתפלגות היא σ^2, וסטיית התקן היא σ. להתפלגות הנורמלית חשיבות רבה, בין השאר בגלל משפט הגבול המרכזי.
בהתפלגות מעריכית עם פרמטר λ, התוחלת היא 1/λ. השונות שווה ל־1/λ^2, כלומר שונות = (תוחלת)^2.
בהתפלגות פואסון עם פרמטר λ, התוחלת היא λ והשונות גם היא λ.
בהתפלגות בינומית עם פרמטרים n ו־p, התוחלת היא np והשונות היא np(1-p). במקרה של מטבע הוגן (p=0.5) התוחלת היא n/2 והשונות היא n/4.
בטלת קובייה הוגנת עם ערכים 1, 6, התוחלת היא 3.5. החישוב נותן שונות של 35/12 ≈ 2.92.
להתפלגות אחידה של המספרים 1..n, השונות נקבעת על ידי (n^2-1)/12.
לכל אוכלוסייה סופית ניתן לחשב את השונות כ־σ^2=(1/N)Σ(x_i- x̄)^2, כאשר x̄ הוא ממוצע האוכלוסייה.
אם מתייחסים למדגם כאל אוכלוסייה, השונות המדגם היא s^2=(1/N)Σ(y_i-ȳ)^2. אך כאשר רוצים לאמוד את שונות האוכלוסייה מתוך מדגם, נהוג להשתמש בתיקון שהוא בלתי מוטה.
האומד הבלתי מוטה לשונות האוכלוסייה מתוך מדגם זה s^2 = (1/(N-1)) Σ (y_i-ȳ)^2. נוסחה זו נותנת את הערך הצפוי שיושווה לשונות האמיתית בתנאים סטנדרטיים, ולכן מקובלת בשימוש סטטיסטי.
ניתן גם לכתוב נוסחאות חלופיות לצורך חישוב יעיל, כמו ביטוי המבוסס על סכום הריבועים והסכום הרגיל של הערכים.
שונות אומרת כמה הערכים מתפזרים סביב הממוצע. הממוצע הוא המספר המייצג את כולם. אם השונות היא אפס, כל הערכים זהים.
סטיית תקן היא השורש השני של השונות. היא מדברת באותן יחידות כמו הנתונים.
אפשר לחשב שונות עבור ערכים שמופיעים בצורה בדידה או רציפה. מחשבים את הממוצע ואז בודקים כמה כל ערך רחוק ממנו.
אם מטילים מטבע הוגן כמה פעמים, הממוצע של כמות הפעמים שתקבלו עץ הוא חצי מההטלות.
השונות במקרה הזה היא מספר קטן שמראה פיזור סביב חצי ההטלות.
בקובייה הוגנת עם מספרים 1 עד 6, הממוצע הוא 3.5. השונות מחושבת ויוצאת בערך 2.92.
- בהתפלגות פואסון, הממוצע והשונות שווים.
- בהתפלגות מעריכית, השונות קשורה הפוכה לפרמטר λ.
- בהתפלגות בינומית, השונות תלויה ב־n וב־p.
ניתן לחשב שונות עבור כל האוכלוסייה או רק עבור מדגם קטן. כשמאמצים שונות מתוך מדגם, משתמשים בדרך מיוחדת שמתקנת את החישוב. כך מקבלים אומדן נכון יותר לשונות של כל האוכלוסייה.
תגובות גולשים