מעט עלי
אני דירקטור בגוגל בתחום הביג דאטה ובינה מלאכותית, משמש בתור הדאטה סיינטיסט הראשי של ווייז וחבר הנהלה. הארגון שלי כולל את קבוצות הדאטה סיינס, האנליטיקה והתשתיות הטכנולוגיות המשרתות את כל צרכי הדאטה של החברה ומגישות ניווטים והמלצות ללמעלה מ-200 מליון משתמשים חודשיים
כמו כן אני חבר סגל בפקולטה לניהול באוניברסיטת רייכמן, וראש תוכנית הביג דאטה ובינה מלאכותית לתואר שני במנהל עסקים.
לשעבר הדאטה סיינטיסט הראשי בחברת אאוטבריין
הדוקטורט שלי עוסק באקונומטריקה, מאוניברסיטת תל אביב, ובפרט באופן שבו ניתן להשתמש בביג דאטה על מנת לחקור תמריצים.
אני דאטה סיינטיסט ומנהל ארגוני דאטה, שמתמחה בשימוש בלמידת מכונה ובינה מלאכותית לצרכים כלכליים, כאשר בעבודתי אני משלב מחקר אקדמי ודאטה אמיתי מהתעשייה. נקודות ההשקה של מודלים כלכליים תיאורטיים ופרקטיקות של למידת מכונה שדאטה סיינטיסטים מנוסים משתמשים בהן, הן רבות משהייתם חושבים; החל מתחומי ניהול ה-marketplace ואיפטום מכירות פומביות עם מערכות המלצה, דרך תחבורה יעילה ושכנוע אנשים לשימוש ב-carpool, עד להבאת תהליכי קבלת ההחלטות של מאמנים ב-NBA ומנכ"לים לשיאם. באתר תוכלו לראות דוגמאות מהעבודה שלי בתחומים האלה.
מוזמנות ומוזמנים לפנות אליי עם כל שאלה, ב-LinkedIn או בכתובת sasson.roy@runi.ac.il
אפשר גם להרשם למטה לניוזלטר החודשי שלי הנקרא ״בכל רגע נתון״ ולהתעדכן במה שחשוב בעולם הדאטה והעסקים
מחקרים ומוצרים נבחרים
(כפי שהוצגו בכנסים ובספרות אקדמית)
חיזוי זמני נסיעה ו-ETA ב-WAZE באמצעות מודלים של למידה עמוקה
בלוג פוסט זה חושף על קצה המזלג את האלגוריתם שפיתחנו בווייז לחיזוי זמני הגעה ליעד. מודל זה מתבסס על אלגוריתמים של למידה עמוקה, ושימוש נרחב במשין לרנינג אופריישנס המאפשרים לתחזק עשרות מודלים המשתנים באופן תכוף ונלמדים מחדש, על מנת לשרת למעלה מ-160 מליון משתמשים חודשיים.
הכלכלה והדאטה של הפחתת הפקקים - יחד
ההרצאה הקצרה הזאת מתארת את העבודה של צוות הדאטה סיינס שלי ב-Waze - אנחנו עוזרים לאנשים למצוא שותפים נוחים ל-carpool בדרך שהם עושים יום יום. בהרצאה מודגש איך מודלים כלכליים קלאסיים (בעיקר William Vickrey's) משפיעים על העבודה שלנו, בשילוב מודלים כלכליים מודרנים (כמו Nudging theories) ומודלים של למידת מכונה.
ממשלות משקיעות משאבים רבים להפחתת עומסי התנועה. החל משנות ה-70 המדיניות הנפוצה הייתה השקעה בנתיבים לתחבורה ציבורית, כלומר, נתיבים השמורים לרכבים עם נוסע נוסף לפחות, מלבד הנהג. עם הופעת הנתיבים הללו בכמה מדינות היעילות שלהם הייתה נושא שנוי במחלוקת. במאמר הזה, יש לנו הזדמנות חד פעמית לבחון את יעילות הנתיבים בצורה אמפירית על קארפולינג. באוקטובר 2019 ממשלת ישראל החליטה להשיק שלושה נתיבי תחבורה ציבורית. בתוך כך, יש לנו גישה הן לדאטה על התעבורה, והן לדאטה על קארפולינג דרך Waze (אפליקציית הניווט החינמית של גוגל) - גם לפני וגם אחרי השקת הנתיבים. בצורה זו אנו יכולים לכמת בדיוק גבוה את ההשפעה של הנתיב על כוונת הנוסע להשתמש בקארפול והפיכת השימוש בו ליום-יומי. בנוסף, למדנו שאלות נקודתיות יותר על השפעת סוגים שונים של נתיבים (2+ לעומת 3+), השפעת הזמן ביום והשינוי ההתנהגותי של נוסעים (למשל, בחירת זמני נסיעה בצורה אסטרטגית). המחקר שלנו מראה כי הופעת הנתיבים לתחבורה ציבורית הובילה לצמצום זמן הנסיעה בזמן שעות העומס בכ-5.7-15.7 דקות והעלה את אחוזי המשתתפים בקארפול במאות אחוזים עבור כמה מסלולים. מעניין לראות כי לנתיבי התחבורה הציבורית השפעה גלובלית-הם העלו את תדירות השימוש בקארפול גם במסלולים שלנתיבים אין כל השפעה עליהם. תופעה זו ניתנת להסברה ע"י העלאת מודעות הציבור להיבטיו החיוביים של הקארפול.
המאמר נכתב בשיתוף מקסים כהן מאוניברסיטת מקגיל, אלכס ז׳קילה מ-אמ-איי-טי ואביה רצון
שכנוע נוסעים לקארפול: ניסוי שטח רחב מימדים עם WAZE
עומס בכבישים הינה בעיה מורכבת חובקת עולם. פתרון אפשרי שאינו דורש כלל השקעה בתשתיות הוא שכנוע נהגים הנוסעים לבדם להשתמש בקארפול. במאמר זה מינפנו את שירות הקארפול של Waze והרצנו את הניסוי הדיגיטלי הגדול בעולם לעידוד נוסעים לשימוש בקארפול. מצאנו כי קיים קשר חזק בין הזיקה לשימוש בקארפול ובין פוטנציאל החסכון בזמן בשימוש בנתיבי תחבורה ציבורית. ספציפית, הערכנו כי עצם ציון נתיבי התחבורה הציבורית העלה את אחוז הלחיצות וההמרה ב-133-185% ו-64-141%, בהתאמה, ביחס
לשליחת הודעות גנריות.
בשיתוף מקסים כהן, מיכאל-דוד פישר ואביה רצון
כנס MIND THE DATA
בהרצאה זו אני פורש את משנתי לגבי התפקיד הנוכחי שיש לכלכלנים בתעשייה ואיך הם צריכים לפעול אם הם רוצים לשמור את מדע הכלכלה בגזרתם. הלקח החשוב ביותר מההרצאה הוא "כלכלנים צריכים ללכלך את הידיים", כלומר הם צריכים לבנות מוצרים במקום לייעץ, ולעמוד מאחורי הכשלונות שלהם.
מה מניע אנשים לשימוש בקארפול?
(כנס WAZE באמריקה הלטינית, מקסיקו סיטי 2019)
הרצאה זו מתארת את העבודה האנליטית הנעשית ב-Waze בנושא תמריצי הקארפול: סובסידיות, אלגוריתמי שידוך, ביטוח לנהגים בצד ההיצע ועוד.
מאמר "לעיניך בלבד": צריכה לעומת שיתוף תוכן בפייסבוק
המחקר המקיף ביותר שנעשה בהשוואת התוכן אותו אנשים צורכים ברשת, לעומת התוכן אותו הם משתפים בפייסבוק. המאמר מנתח התנהגויות של שני סוגי צריכה של תוכן אינטרנטי: (1) צריכה אישית של התוכן, אשר נמדד לפי כמות הצפיות בעמוד והקלקות בעמוד; ו(2) צריכה חברתית, אשר נמדד ע"פ כמות השיתופים בפייסבוק וכן שיעור השיתופים. בהתבסס על למעלה ממיליארד נקודות תצפית על מאות מפרסמים ברחבי העולם בשתי תקופות זמן שונות, ניתן לראות כי הקורלציה הקיימת בין שני הסיגנאלים האלה הוא די נמוך. סיבות אפשריות לכך נידונות ורעיון הדיסוננס האישי-חברתי מוגדר. אנליזה הצוללת לעומק הדברים מראה כי הדיסוננס בין הצריכה האישית והצריכה החברתית תלוי באפן מובהק בקטגוריית התוכן. לצריכת תוכן בקטגוריות כמו מין, פשע ומפורסמים יש שיעור גבוה יותר כשמדובר בצריכה אישית מאשר צריכה חברתית. לעומת זאת, לתחומים כמו ספרים, קריירה ומוזיקה יש שיעור צריכה חברתית גבוה יותר. נוסף לאנליזה שנעשתה offline, אומן מודל המבחין בין שני הסיגנאלים אשר הפיק מערכת המלצות. משקולות המודל דירגו את הסיגנאל החברתי נמוך מאשר שיעור ההקלקות. התוצאות רלוונטיות למפרסמים, משווקי תוכן, ארכיטקטים של מערכות המלצה וחוקרים המבקשים להשתמש בסיגנאל החברתי לצורך מדידה וחיזוי צריכת משתמשים.
עבודה משותפת עם רם משולם.
מציאת קהלים דומים LOOKALIKE MODELING באמצעות פרופיל תכנים ברשת
זהו מוצר שהצוות שלי ב-Outbrain פיתח-משווקים (לדוגמה, קמעונאים ברשת) העבירו ל-Outbrain רשימה של משתמשים מועדפים, כמו משתמשים שביצעו רכישה, לא בהכרח דרך Outbrain; אנחנו הרצנו מודלים של למידת מכונה כמו ריגרסיה לוגיסטית, עץ החלטות ו-matrix factorization כדי לאפיין את תחומי העניין של אותם משתמשים מועדפים. תחומי העניין (להם אנו קוראים פיצ'רים, ויש אלפים מהם) מכילים בין היתר את קטגוריות התוכן העיקריות אותן המשתמשים צורכים וכן את אלה שסביר שאינם צורכים, מפרסמים שהם מבקרים באתרם וכאלה שסביר שלא, אישיות וחברות המעניינות אותם ועוד. בעזרת אותם מודלים, זיהינו בזמן אמת משתמשים שאינם כלולים ברשימת המשווק אך דומים להם והמלצנו להם עם קמפיינים של אותו משווק.
המחקר הובל ע"י מורן גביש
מעורבות הצרכן - מעבר ללחיצות
ישנן יותר מ-150 מיליארד המלצות תוכן ש-Outbrain מעבירה ליותר מ-500 מליון משתמשים בכל חודש. כמויות עצומות של דאטה מספרות לנו את סיפורם של ההמונים בכל רגע נתון. השאלה היא, כיצד לנתח האם ההמלצה הניתנת למשתמש יחיד היא אכן בעלת ערך, ולמה הסתמכות בלעדית על שיעור הלחיצות היא מסוכנת לאורך זמן?
בהרצאה זו תתואר חווית הדאטה סיינטיסט בניתוח 'התנהגות שלאחר לחיצה' ואת האתגרים הכרוכים בכך, בהקשר של היחשפות לתוכן חדש. בהרצאה דוגמאות ללמה הסתמכות על שיעור לחיצות עלולה להטעות בטווח הארוך. נראה איך העדפות ההמון לתוכן שונה מהעדפותיו של הצרכן האינדיווידואלי. לבסוף, נציג תוכנית עבודה בעלת 3 שכבות לדאטה סיינטיסטים למדוד ולנתח 'התנהגות שלאחר לחיצה', תוך התחשבות בנקודת המבט של המוציא לאור, משווקים ונותני המלצות.
האם מאמני כדורסל פוחדים להשתמש ברוקיז שלהם? ממצאים אמפיריים מהאנ.בי.איי, ומה חברות יכולות ללמוד לגבי המנכ״לים שלהן?
כאשר ארגונים והסדרים חוזיים מתמודדים עם סוכנים בעלי פוטנציאל עזיבה גבוה בטווח הקצר, סוכנים אלה עלולים לחבל בפרויקטים אשר השלכותיהם יובנו רק בטווח הארוך. במחקר זה השתמשנו בדאטה של ה-NBA ללמוד איך סכנת עזיבה מיידית משפיעה על החלטותיהם של מאמנים. היות שלתת לשחקן מתחיל לעלות על המגרש מניב פירות בטווח הארוך, מאמן עם הסתכלות קצרת רואי עלול לתת לכך משקל נמוך יותר, לכן הנחנו באפן היפותטי כי פוטנציאל עזיבה גבוה יוביל להשתתפות פחותה של שחקנים מתחילים. בהמשך לאותה תאוריה, מצאנו כי במהלך תקופת ההסכם הקיבוצי ב-NBA בשנת 1999 והשליטה על מאפייני השחקנים המתחילים וקבוצותיהם, פוטנציאל עזיבה גבוה קושר עם השתתפות פחותה של שחקנים מתחילים וכי קשר זה השפיע על משחקים חשובים. הבחנו גם כי הקשר הזה לא קיים עבור שחקנים בשנתם השנייה, וכי הקשר המזוהה נעלם ב-2005 כאשר ההסכם הקיבוצי נתן לבעלי קבוצות תמריצים חזקים יותר לקדם שחקנים חדשים ולשים סוף להוצאתם מהמשחק.
בשיתוף אלמה כהן (הארוורד ואוניברסיטת תל אביב) ונדב לוי (המרכז הבינתחומי הרצליה)
קורסים אקדמיים
מבוא לאקונומטריקה
אוניברסיטת תל אביב,
בית הספר איתן ברלגס לכלכלה,
התוכנית לתואר ראשון
כל ההרצאות פתוחות חינם ב-YouTube
סקר שביעות רצון סטודנטים 2018 (ממוצע = 95/100)
סקר שביעות רצון סטודנטים 2019 (ממוצע = 91/100)
צמיחה עסקית מבוססת דאטה
אוניברסיטת רייכמן,
התוכנית להכשרת מנהלים
כלכלה בעולם הביג דאטה
אוניברסיטת רייכמן,
בית הספר אריסון למנהל עסקים
תוכנית לתואר שני
(הועבר גם בבית הספר לכלכלה באוניברסיטת תל אביב)
קידום תחום הדאטה סיינס והקהילה בישראל
עקרונות גילדת הדאטה של ווייז - הרצאה בכנס HAYADATA
מרבית אנשי הדאטה סיינס עוסקים בשאלות על הטכנולוגיות שיש לאמץ על מנת להשפיע על משתמשי הקצה, ודרכי העבודה הנדרשות להכנסת מודלים של למידת מכונה לפרודקשן. בהרצאה זאת אני דן בעקרונות המנחים את גילדת הדאטה של ווייז, ומיהי החברה שעלינו ללמוד הכי הרבה ממנה בשביל לבנות ארגון דאטה משמעותי
מערכות המבצעות A/B testing הפכו לכלי הכרחי עבור דאטה סיינטיסטים ומנהלי מוצר, על מנת לקבל תובנות וללמוד אילו פיצ'רים עובדים ומניעים את המשתמשים לשימוש בהם. בהרצאה זו, הניתנת בעברית, תיארתי את ארבעת האתגרים המהותיים שסטארט-אפים בתהליכי צמיחה מהירים נתקלים בהם בעת שימוש ב-A/B testing ככלי ללמידה מהותית, במיוחד בשוק המלא במוצרי marketplace כיום.
ועידת ירושלים לפכ"ם
לאתר הכנס
למידת דאטה סיינס ברשת - חינם
גם בלי היכולת לרכוש השכלה גבוהה, עדיין אפשר להפוך לדאטה סיינטיסט מיומן, כמעט בחינם. זו הרשימה שלי לקורסים המומלצים ביותר המועברים אונליין. הרשימה מכילה בערך את כל מה שתצטרכו לדעת כדאטה סיינטיסטים לעתיד.
תחרות KAGGLE לחיזוי הקלקות
אתגר ה-Outbrain שלנו קרא לקהילת החוקרים הבינלאומית לנתח את הדאטה שלנו ולמדל תבניות קריאה של משתמשים, במטרה לחזות את בחירות הקריאה העתידיות של יחידים. המודלים הטובים ביותר זכו במענקים כספיים בסך 25,000$. משקל הדאטה שפרסמנו, כ-100GB, היה חסר תקדים ב-Kaggle, פלטפורמת התחרות, ונחשב יוצא דופן עבור תחרויות באפן כללי. כמות הנתונים וודאי הכבידה על לא מעט מתמודדים-אך Outbrain מתמודדת עם כמויות כאלה יום יום.
התוכנית החדשה להנדסת נתונים ומידע של הטכניון - סקירה
ביג דאטה על הבר
הרצאה קצרה למתעניינים בתואר ראשון (דיזי פרישדון, תל אביב)