Archive for the ‘סטטיסטיקות’ Category

מרימי השטרות

28 באוגוסט 2017

כבר סקרתי את ספרו של סת' סטפנס דווידוביץ' על אוסף הנתונים שהצטברו בגוגל על החיפושים שבני אדם עורכים, ועל שימושיהם של הנתונים האלו. שווה לציין במיוחד פרק מעניין שדווידוביץ' מקדיש למה שלא ניתן לעשות עם המידע הזה – לחלץ תובנות להשקעה בבורסה. דבריו בפרק מהווים דוגמה לעיקרון של יעילות השווקים הפיננסיים. בכל מידע שניתן להשתמש בו כדי להרוויח בבורסה, נעשה כבר שימוש מיידי, ולכן שימוש נוסף הוא חסר תועלת. בדיחה ידועה על העיקרון הזה אומרת שאם מרצה לכלכלה רואה שטר מונח על הרצפה, הוא אומר לתלמידיו שאין טעם להרים. אם זה היה שטר אמיתי, מישהו כבר היה מרים אותו.

אבל דווידוביץ' מתאר כיצד הוא כן עשה ניסיון להרים את השטר. הוא ישב לצורך כך עם לורנס סאמרס, נשיא הרווארד וכלכלן מבריק מאין כמוהו. נתניהו ניסה בזמנו לגייס את סאמרס להיות נגיד בנק ישראל במקום קרנית פלוג הבינונית. למרבה הצער, באחד הפספוסים ההיסטוריים אך הנשכחים בתולדות המדינה סאמרס ענה בסירוב.

בסופו של דבר דווידוביץ' וסאמרס הבינו שבכל צעד שיעשו, אין להם סיכוי להקדים את קרנות הגידור. אם יש כסף שניתן להרוויח על ידי בחינת חיפושים בגוגל – למשל לראות איך חיפושים של המילה אייפון מנבאים את הרווחים של אפל, מישהו כבר הרוויח אותו, קרנות גידור כבר ביצעו את הבדיקות האלו והן מתומחרות במחיר המניה.

מה שצריך להיזהר ממנו במיוחד בעריכת בק-טסטים כאלו, שמנסים למצוא בדיעבד מתאמים בין עליות וירידות השווקים לבין כל מיני אירועים והתרחשויות, הוא ההתאמות האקראיות. כשבוחנים מאות התאמות, בהכרח יהיו כמה שבמקרה יראו מובהקות סטטיסטית, אפילו שזו תוצאה מקרית לחלוטין. כשבוחנים התאמות באלפים ובעשרות אלפים, חלק מהן יראו לא רק מובהקות סטטיסטיות אלא אפילו מסתברות ואינטואיטיביות. מישהו חכם יגלה זאת וירוץ להקים קרן גידור על בסיס הציפיה שהתאמות אלו ימשיכו, אבל היא בקושי תרוויח פרוטה. או מאחר שחכמים אחרים יגלו את הקסם בעת ובעונה אחת ולפיכך יתחרו בה עד לסנט האחרון, או מאחר שהמתאם הסטטיסטי עצמו היה בעבר מקרי לחלוטין ולא העיד על שום דבר מהותי. עם זאת, צריך להעלות הסתייגות. ישנה קרן גידור מפורסמת אחת שמצליחה בדרכים נסתרות להניב תשואה פנומנלית מדי שנה – רנסנס טכנולוגיות של ג'ים סימונס.  כמו כמעט כל כהני הביג דאטה, סימונס הוא יהודי. סימונס הוא מתמטיקאי דגול, וחייו רצופים הישגים מדהימים, אך גם טרגדיות אישיות קשות. השילוב הזה מעלה בראש את המושג "עין הרע", הקונטרה שנותנים החיים למי שמצליח מדי. אבל מושג זה עצמו התהווה ככל הנראה מנטייתם של בני אדם לעשות עניין מצירופי מקרים והתאמות סטטיסטיות אקראית, כי בפועל הרי החיים נותנים קונטרה באקראי, או, מה שעוד יותר שכיח, דופקים את מי שדפוק כבר ממילא.

מודעות פרסומת

כשמפסיקים לשקר ומתחילים לגגל

2 באוגוסט 2017

"כל אחד משקר" מאת סת' סטפנס דווידוביץ הוא אחד הספרים המעניינים שקראתי בזמן האחרון. הוא עוסק באמת שחושפים חיפושי הגוגל עלינו בני האדם. ברשתות חברתיות כמו פייסבוק מנסים אנשים לשווק את הצדדים הטובים, הנעימים והחכמים של עצמם. זה לא שנעדרים שם הצדדים המכוערים של מיננו, אבל לפחות הנבונים שבנו מנסים לטשטשם.  חיפושי גוגל לעומת זאת חושפים את ההומו סאפיינס בצורתו הטהורה. בגוגל בני אדם שואלים שאלות שמשקפות מה באמת עובר להם בראש.

כדי שלא נשקע בקנאה ממליץ לנו הספר: "לעולם אל תשוו את הפוסטים של הזולת בפייסבוק למה שאתם מחפשים בגוגל". בפייסבוק הדרך הפופולארית עבור נשים לתאר את בעליהן היא:"הטוב ביותר", "החבר הכי טוב", "כל כך חמוד". בחיפושי גוגל שמות התואר הנפוצים עבור בעלים הן "אידיוט" ו"בלתי נסבל" והחשש הגדול שנשים מביעות בפני גוגל הוא שהבעל שלהן הוא בעצם הומו. אבל מתברר שאפילו בגוגל יש נשים שקוראות לבעל שלהן "מדהים". פתח צר עבור הקורא להמשיך להאמין שאהבה יש בעולם.

הכלל שיש להתעלם ממה שאנשים אומרים על עצמם בפומבי ולתת אמון רק במה שרואים אותם עושים בפועל, אומץ בתבונה בידי נטפליקס. בעבר אנשים נשאלו באתר נטפליקס איזה סרטים ירצו לראות בעתיד, והם הכינו רשימה של סרטים כבדים, אינטליגנטיים ומכובדים. נטפליקס הזכירה להם אותם מאוחר יותר, אך הם לעולם לא טרחו לצפות בהם בפועל. היום נטפליקס מציעה סרטים לצופיה על בסיס מה שבחרו לצפות בו בעבר בפועל וכך מאכילה אותם  בקומדיות המטופשות ובאקשן הזול שהם רוצים באמת.

מאחר שהבחינה השיטתית של חיפושי גוגל היא מדע חדש, הספר מלא בממצאים מסקרנים ושונה מהדברים הטריוויאליים לרוב שמחקרים במדעי החברה מגלים על העולם. הדוגמה הקלאסית לתועלת הגלומה בבחינת חיפושי גוגל לאנושות שניתנה בעבר היא שניתן לגלות באמצעות חיפושי אנשים על סימפטומים של שפעת שמגפה ממשמשת לבוא. תמיד הדוגמה הזו הזכירה לי את דבריו של הקוסם ג'יימס ראנדי על אורי גלר – "אם הוא באמת מכופף כפיות בכוח המחשבה, הוא עושה זאת בדרך הקשה". כשמגפת שפעת פורצת רופאי המשפחה רואים זאת מייד. לגייס את גוגל כדי לגלות זאת – זו הדרך הקשה. אבל הספר מראה שיש באמת מקומות שבהם גוגל מוסיפה מידע שיש לו ערך רב. למשל:

  • הורים מחפשים מידע על בנים מחוננים בתדירות גבוהה יותר מידע על בנות מחוננות. ממצא שמראה שהורים נוטים לייחס את תכונת המחוננות והגאונות לבנים יותר מאשר לבנות. וההפרש גדול – יותר מפי שניים! זה לא שלהורים לא אכפת מהבנות שלהן. הם עורכים חיפושי גוגל הקשורים אליהן, רק בתחומים אחרים – למשל איך לגרום להן להוריד במשקל.
  • יש מתאם שלילי בין מדינות שבהן נפוצה עריכת חיפושים גזעניים (כאלו המשתמשים במילה "ניגר") לבין שיעור ההצבעה עבור ברק אובמה בבחירות לנשיאות (וכנראה מתאם חיובי עבור הצבעה לדונלד טראמפ). הספר אומר שבניגוד לטענות לפיהן באמריקנים נותרה גזענות סמויה, האמת היא שהגזענות שנותרה היא מפורשת מאוד, רק שאנשים אינם מדברים עליה בפומבי אלא מקלידים אותה לגוגל.
  • 5% מחיפושי הפורנוגרפיה הגברית באינטרנט הם עבור פונוגרפיית גייז, מה שתואם לממצא הכללי הידוע ש-5% מהגברים נמשכים לבני מינם. אבל המפתיע הוא שגם במדינות דרומיות בארה"ב שבהן שיעור ההומואים המוצהרים נמוך, שיעור החיפוש דומה למדי. כלומר עדיין יש שם המון הומואים בארון.
  • ממצא מפתיע – נשים מחפשות יותר מידע על בן זוג שמסרב לסקס, מאשר ההיפך – גברים שמחפשים על בת זוג שאינה רוצה סקס. מול זה נותרתי באמת שמוט לסת. עוד ממצאים כאלו בענייני מין אפשר למצוא בשפע בהרצאה שהעביר כותב הספר ונמצאת בשלמותה ביוטיוב.

מאוד בלט לי ממצא אחד שהמחבר עצמו פסח עליו – כהני הביג דאטה שמוזכרים בספר, החל מהבעלים של גוגל והבעלים של פייסבוק ועד למומחה שהצליח לגלות באמצעות בחינת המוני קורלציות את סוד הניצחון של סוסים במרוצים ולמיליארדר שהסתייע בשירותיו – כולם יהודים. גם המחבר עצמו הוא יהודי. כאילו שקיעתם בים התלמוד של אבותינו חוללה איזה פלא ביכולתנו להתעסק בנושא.

על החיים ועל המוות

14 ביוני 2017

הפרסום האחרון של הלשכה המרכזית לסטטיסטיקה כלל לוחות תמותה מעודכנים לישראל. אם מתעמקים בהם מוצאים כל מיני מספרים מעניינים על תוחלת חיים של יהודים וערבים פה במדינה. האם שאלתם את עצמכם אי פעם את השאלות המקאבריות הבאות: כמה אחוז מהתינוקות צולחים את שנת החיים הראשונה? כמה מקרי מוות של ילדים בני שש יש בשנה? מה הסיכוי להגיע לגיל 20?  מה הסיכוי למות בשנה שחגגת בה יום הולדת שלושים? מה הסיכוי למות בשנה שחגגת בה את יום הולדת 90? מה הסיכוי למות בשנה שחגגת בה את יום הולדת 109? מה הסיכוי להגיע לגיל 90? לגיל 100? נסו קודם כל לתת אומדן אינטואיטיבי מהיר משלכם ואז תמשיכו לתשובות שמצאתי לשאלות האלו:

  • גיל 6 הוא הגיל הבטוח ביותר. עדיין, 1 ל-18,000 אלף ילדים יהודים שחוגגים יום הולדת שש לא יחגגו יום הולדת שבע. כל מקרה כזה הוא טרגדיה גדולה ובלתי נסבלת, אבל מדובר במספר מקרים חד ספרתי בשנה בכל המדינה. סיכויי ילד ערבי בן שש למות גדולים פי ארבעה.
  •  תחילת החיים היא הרבה יותר שברירית. 1 מכל 500 נולדים לא יגיעו ליום ההולדת הראשון. בקרב הערבים 1 מכל 180 נולדים לא יגיעו ליום ההולדת הראשון.
  • הסיכוי להגיע לגיל 20 הוא 99.5%, אבל אצל ערבים ממין זכר רק 98.5%. אצל ערביות – 99%. כאמור, חלק גדול מאוד מהסיכון עד אז מרוכז בשנת החיים הראשונה.
  • אם כבר הגעת לגיל עשרים, בשנות העשרים ובשנות השלושים המוקדמות הסיכוי לא לצלוח שנת חיים הוא בערך 1 ל-2,000 עבור זכר ו-1 ל-4,000 עבור נקבה.
  • בשנות החמישים המאוחרות הסיכוי הזה מגיע כבר ל-1 ל-200 לזכר ו-1 ל-300 לנקבה. כלומר יש סיכוי של חצי אחוז או שליש אחוז שמי שחוגג יום הולדת 57 או 58 לא יחגוג את יום ההולדת שנה אחר כך.
  • בקרב היהודים 80% מהזכרים מגיעים לגיל 72, 88% מהנקבות.
  • הסיכוי לעבור בשלום את גיל 80, עבור מי שהתחיל אותו, הוא 95%.
  • בסך הכול רבע מהזכרים היהודים מגיעים לגיל 90, שליש מהנקבות.
  • הסיכוי לעבור בשלום את גיל 90 הוא 85%, עבור מי שהתחיל אותו.
  • בקרב היהודים 2% מהזכרים ו-3% מהנקבות מגיעים לגיל 100.
  • עבור ישראלי הסיכוי לצלוח כל שנת חיים גדול משמעותית מחצי, פרט לגיל 108 ולגיל 109 שרק חצי ממי שמתחיל אותם זוכה לסיים.
  • חצי אחוז מאלו שעברו את גיל 100 יעברו את גיל 110.