דאטה אנליסט, דאטה סיינטיסט ומלחמת היוקרה שפוגעת בתעשיית הדאטה

Roy Sasson
Apr 23, 2022
7 min read

Updated: Aug 14, 2022

בשנים האחרונות גייסתי גם עשרות דאטה סיינטיסטים עמם בנינו מודלים של משין לרנינג, ועשרות אנליסטים עמם לקחנו נתונים מורכבים, בנינו כלים והפקנו מהם תובנות אסטרטגיות. לאחרונה אני מזהה מגמה ברורה - מקצוע האנליסט, ובפרט האנליסט הבכיר - נמצא בבעיה ובמחסור גדול. מדובר בבעיה תדמיתית בתעשייה, המחלחלת להחלטות הגיוס ואופן בחירת המשימות של אנשי הדאטה בארגונים. דאטה סיינס נתפס בטעות כקסם (יש אפילו הקוראים לדאטה סיינטיסט המושלם ״חד קרן״), ואנליטיקה נתפסת בטעות כעבודה פחות מתוחכמת וזוהרת. כתוצאה מכך - אנשי דאטה רבים חושבים כי בניית מסלול קריירה מעניינת ומתגמלת דורשת עבודה על משין לרנינג והתמקצעות בדיפ לרנינג, וכי עבודה אנליטית (ניתוח סטטיסטי עבור תובנות) תעלם מן העולם ככל שהמודלים של אנשי הדאטה סיינס יהפכו למתוחכמים יותר. זוהי תפיסה שגויה, אשר פוגעת בפיתוח מקצוע האנליסט וביכולתם של ארגונים לטפח אנליסטים מקצועיים שעוזרים לקבל החלטות אסטרטגיות, שבמקרים רבים הינן הרות גורל בהרבה יותר מהחלטות אלגוריתמיות. למעשה - אני טוען כי המקצועות עוסקים בבעיות שונות, אך משלימות.

לקורס הדאטה שלי באוני׳ רייכמן

בפוסט זה אנסה להסביר כיצד ארגונים יכולים לפתור את הבעיה וכיצד אנליסטים יכולים לדאוג למסלול קריירה מרתק ומתגמל. אם צריך לסכם זאת במשפט וחצי - את אנשי הדאטה סיינס צריך לטפח כמהנדסים, ואת אנשי האנליטיקה צריך לטפח כיזמים עם רקע הנדסי (או שפים אמנים לחובבי הז׳אנר). תפקיד מנהל ארגון הדאטה הוא לטפח את המקצועות המשלימים הללו על גבי ציר זה, ולספק את התשתית הארגונית וההנדסית לשני המקצועות השונים האלה לפרוח ולהשפיע כאנשי מדע.

(מצאתם את הנושאים בהם אני עוסק מעניינים? בקורס דאטה 360 למנהלים באוניברסיטת רייכמן נכסה איך לבנות אסטרטגיית נתונים לחברה המשלבת בין טכנולוגיה, מוצר וניתוח נתונים - לינק)

1. דאטה סיינס אינו קסם. אנחנו נהנים מלצפות בפלאי החידושים וההמצאות של דאטה סיינס ולמידת מכונה כגון gpt-3 (היכולת של אלגוריתם לקבל טקסט ״כיסא בצורת אבוקדו״ ולהפיק ציור של כיסא בצורת אבוקדו), יכולת עיבוד שפה טבעית (צ׳אטבוטים שכמעט עוברים את מבחן טיורינג), זיהוי תמונה, וכדומה. אלה אכן פיתוחים מופלאים. ועם זאת:

הם עדיין מבוססים על נתוני עבר (מרבית האלגוריתמים אינם מבוססי reinforcement learning). הפקת ציור של כיסא בצורת אבוקדו משלבת מוטיבים קיימים של המון תמונות של אבוקדואים והמון תמונות של כסאות שנקלטו על ידי המודל ואופיינו בצורה כלשהי על מרחב משתנים בצורת טבלאית.
אם היינו מסמכים על נתוני העבר - אף אחד לא היה ממציא סטארטאפים. סטארטאפים במהותם הם ניגוד למה שהיה בעבר, ומבוססים על תובנות לגבי קשרים שאינם נתפסים בקורלציות, או לחלופין - הם מבוססים על תצפיות חריגות שהסטטיסטיקה הקלאסית אינה יכולה להן.
המודלים החדשים של עולם הדאטה סיינס הם אכן פלאים מתמטיים וטכנולוגיים. אבל כמו כל טכנולוגיה - הם הופכים לנגישים וזולים יותר. ככל ששירותי הענן מתקדמים - מודלים אלה זמינים יותר מן המדף לכל חברה (כבר היום חברות יכולות להתחבר ל-API של זיהוי תמונה או צ׳אטבוט המסופק על ידי ספקיות שירותי הענן ולשלבו בשירותיהן). לכן, עבודתם של מרבית אנשי הדאטה סיינס בחברה ספציפית תלך ותהיה יותר ויותר טכנית. בפרט - לעשות את 20% ההתאמות למודל שנלקח מהמדף באמצעות שיטות כגון transfer learning, בחירת ארכיטקטורה כזו או אחרת של למידה עמוקה, כיוונון היפר פרמטרים וניתוח טעויות של המודל. היא פחות תתמקד בפיתוח מודלים חדשים. המצאת הגלגל תישמר למתי מעט, בעלי רקע אקדמי מתמטי והנדסי מאוד ספציפי ומתקדם. אנו גם רואים כי התחום הקרוי Machine Learning Operations הולך ותופס תאוצה, מתוך ההבנה כי תחזוקת מודלים של למידת מכונה (אימון מחדש, מציאת טעויות שיטתיות, טיפול בשינויים בהתפלגויות הדאטה, וכולי) דורשת לא פחות השקעה מאשר בניית המודל הראשוני.

לקורס הדאטה שלי באוני׳ רייכמן

2. אנליסטים יכולים לפרוח רק כאשר קיימת גם התשתית ההנדסית וגם התרבות הארגונית הנכונה עבורם. צ׳רצ׳יל פעם אמר - ״SQL היא הדרך הגרועה ביותר להוציא תובנות מדאטה, מלבד כל יתר הדרכים שנוסו עד כה״. (הבהרה - צ׳רצ׳יל לא באמת אמר את זה, אבל אם הוא היה אנליסט - כנראה שהיה אומר את זה). כאשר עבודת האנליסט מתמצה בשליפות SQL עבור מנהלי מוצר ומנהלים בחברה - זהו סימפטום לכך שהארגון לא ממצה את יכולות הדאטה שלו. זוהי בעיה שמרבית הארגונים שפגשתי לא פתרו:

התשתיות הטכנולוגיות הזמינות לדאטה סיינטיסטים מקדימות את התשתיות הזמינות לאנליסטים. בדאטה סיינס הבעיה מוגדרת היטב - תנו לי מחט ואני אבנה מודל שיזיז אותה. בדרך כלל מדובר במשימת תחזית יחסית מוגדרת, כגון - כמה זמן יקח להגיע מנקודה א לנקודה ב, מהי תוצאת החיפוש הרלוונטית ביותר, איזה שיר הכי סביר שארצה לשמוע. לעומת זאת - האנליסט קודם כל מגדיר את הבעיה, בונה תיאוריות לגבי דינאמיקות בחוויית המשתמש, חושב על המחטים שמודדות את הבעיה ומציע פתרונות, שלבנייתם יש צורך בחלקים נוספים בארגון. כפי שניתן לראות - הרבה פחות נמצא בשליטתו של האנליסט לעומת הדאטה סיינטיסט, וכאן הקושי המרכזי (ראו פוסט קודם שלי לגבי ״עור במשחק החדש״).
לדאטה סיינטיסטים צריך לספק מוצר עם בעיה מעניינת, והתשתית לבנות ולחבר דברים בעצמם לתוצרים שרואה משתמש הקצה. לעומת זאת - לאנליסטים צריך לספק מערכת ארגונית הבוחנת היפותזות באופן רציף על המוצר באמצעות דאטה, המשתמשים, הסביבה העסקית, הדינמיקות בתעשייה. אם התשתית הארגונית אינה ערוכה לכך - אנליסטים ימצאו את עצמם בעיקר בונים דשבורדים על פי הזמנה בכדי שאחרים ינסו להסיק תובנות מהדאטה. ברוב המקרים כתוצאה מתהליך זה - קורה הדבר ההפוך - הבלבול בחברה הופך לרב יותר, כיוון שכל משתמש של דשבורד יבחר לפרש את אותם הנתונים באופן שישרת את צרכיו.
אוטומציה ותשתית פיתוח (כן, אנליטיקה היא סוג של הנדסה) עבור תהליכי דאטה יכולות להפוך אנליסטים להרבה יותר אפקטיביים וחשובים לארגון. הן צריכות לכלול: מאגר קוד וסטנדרטים לכתיבת קוד של אנליסטים, זיהוי אנומליות בדאטה, זיהוי שדות מיותרים, זיהוי שבירה של קוד או סתירה בלוגיקה של מטריקות או הגיון עסקי, מדידה אוטומטית של מטריקות מפתח במערכות הניסויים, בניית שכבות גמישות ובעלות יתרות לשבירה, ועוד. רבים מקבילים בנייה נכונה של טכנולוגיות הדאטה של החברה לבניית רכב אוטונומי - מתוך הקבלה שרכבים אוטונומיים יעלימו יום אחד את הצורך בנהגי מוניות, אך זוהי הקבלה לא נכונה. בניית טכנולוגיה דאטה נכונה שקולה להחלפה של כרכרות במכוניות מירוץ, דבר המוריד את הצורך בניקוי גללים של סוסים מהרחובות. ועדיין - מישהו (האנליסט) צריך לנהוג במכוניות המירוץ הללו, שילכו ויהיו יותר ויותר מתוחכמות ומהירות מהעגלות שקדמו להן (ויכולות לעשות נזק רב יותר - weapons of math destruction). זה אומר שאנליסטים יכולים לעסוק פחות בעבודה שחורה ויותר בחלקים המחקריים, האינטלקטואליים והתקשורתיים של עבודת האנליזה. כשהדבר נבנה נכון - הטכנולוגיה מאפשרת לאנליסטים אפיקי קידום יותר משמעותיים, כיוון שהם מקבלים חשיפה למנהלי הארגון העוסקים בהחלטות, ופחות עוסקים בבניית דשבורדים, ניקוי נתונים וטיפול בסתירות העולות מהדאטה.
אני אוהב להשוות דאטה סיינטיסט טוב למהנדס, ואנליסט טוב ליזם בעל רקע הנדסי (או שף). מהנדס הוא מדען יישומי - הוא מסוגל לייצר ניסויי מעבדה ולבנות טילים על בסיס התובנות מהמעבדה, על פי הזמנה של טיל כזה או אחר. שף טוב הוא מדען המשלב תיאוריה ופרקטיקה. הוא מגלה דברים על ידי ניסוי וטעייה ויש לו שיטת ליצירת התנאים הנכונים ללמידה גם ממקריות וסביבה לא ודאית (חלק ניכר מההמצאות המדעיות הגדולות, כולל הפניצילין - התגלו בטעות). האנליסט מבין מדוע האנושות צריכה לעוף לחלל. הדאטה סיינטיסט עוזר לבנות את הטיל. שניהם מדענים, רצוי ששניהם יעבדו תחת אותו ארגון דאטה (אחרת אנליסטים אינם מבינים את הקונטקסט האלגוריתמי של הדאטה סיינס), אבל העבודה שלהם הינה אחרת.
אנליסטים פועלים בסביבת אי ודאות גבוהה משל דאטה סיינטיסטים - אם ניתן לדאטה סיינטיסט (טוב) להזיז מחט מסויימת - הוא ידע להעריך בערך כמה זמן יקח עד שיביא לתזוזה במחט. לעומת זאת - לאנליסט (טוב) הרבה יותר קשה לתכנן את הזמן שידרש להביא תובנה מוצרית או עסקית, והאם הארגון בכלל יוכל להכיל אותה ולפעול לפיה.

3. תפקיד ההנהגה אסטרטגיה טובה בונה את היכולת לאלף את אי הוודאות בשוק, על ידי בניה היום של מוצר שמסוגל לתפוס את הגל שיגיע בעוד שנה או שנתיים (לא המצאתי.. זה נקרא catching a j-curve). היא שילוב של מזל, בחירות והחלטות שנעשו בחשיבה ארוכת טווח ובסביבה דינאמית, ויוצרות את האופציה לתפוס גלים עתידים. לדוגמה - החלטה של דיסני לרכוש את אולפני מארוול או לוקאס פילם, החלטה של חברת לגו להקטין את גודל החלקים ולהתרחק מהדיגיטל, על אף שרוב הילדים עברו למשחקי וידאו, ויש עוד הרבה דוגמאות (שאפשר לשפוט כחוכמה בדיעבד..). מנהיגי חברות מקבלים החלטות הרות גורל בכל דקה, והם מהווים ציר ארגוני מרכזי דרכו עובר מידע. תפקיד האנליסט הוא לספר את הסיפור הנוכחי למנהיגים, ולוודא שקיימת היכולת הארגונית לשאת את הנרטיב של מהות החברה ועתידה, תוך הבנה שאנשים שונים תופסים את אותה פיסת מידע באופן שונה, משתמשים במטריקות ותוצאות ככלי נשק שמשתק את יכולת קבלת ההחלטות בארגון (אני תמיד אומר -תנו לי תוצאה ואני יכול להשתמש בה לספר סיפור וגם את היפוכו). תפקיד הדאטה סיינטיסט נוטה יותר לבצע אופטימיזציות נקודתיות שעושות את השירות יותר טוב בהחלטות נקודתיות של משתמשי הקצה (המלצות סרטים, מוזיקה או מוצרים). קשה עד בלתי אפשרי להשתמש בלמידת מכונה בסיטואציות בהן הסובלנות הארגונית לטעויות הינה נמוכה, או כשהבעיה אינה מוגדרת היטב, או במקרה של החלטות משמעותיות או אי ודאות גדולה.

תפקיד מנהל הדאטה בחברה הוא ליצור את הויקיפדיה הארגונית - היכולת של ויקיפדיה להיהפך למקור הידע המרכזי שלנו הייתה נעוצה בבניית קהילה, בניהול הידע וכללי שמירת הידע של הקהילה ב״כיכר העיר״ והכי חשוב - בתהליך הלמידה ושיפור השיח באופן עקבי, באמצעות נתונים זמינים ומשתנים באופן תמידי. חשבו על אסטרטגיית הדאטה שלכם ועל התהליך שבו אתם לומדים ומקבלים החלטות. חשבו על עצמכם כמו על ויקיפדיה - בתחילת דרכה צחקו על כך שהערכים בה לא מדוייקים, אבל היום היא נחשבת למקור המידע המהימן ביותר אונליין, בגלל הרשת של האנשים שבונים את התובנות זו על זו, ולא ממציאים מחדש את הגלגל. דאטה הוא דבר טיפש אם אינו מחובר לתהליך יצירת הידע הארגוני. חשבו על מודל התגמול והקידום של אנליסטים באופן נפרד משל דאטה סיינטיסטים.

מסקנה לארגונים: מדדו ותגמלו דאטה סיינטיסטים כמו מהנדסים. מדדו ותגמלו אנליסטים כמו יזמים. אלו שני צדדים למדע.

לסיכום:

באמצעות מודלים מתוחכמים של דאטה סיינס אפשר להזיז מטריקות מרכזיות של המוצר בעשרות אחוזים, אך המודלים יכולים להשפיע בעיקר בהחלטות נקודתיות של משתמש הקצה. עם זאת, למידת מכונה ובינה מלאכותית עדיין מוגבלות מאוד מבחינת יכולות, ולא מדובר בקסם אלא בהמון עבודה שחורה ואופרציה. לבסוף - ללא רקע אקדמי מאוד מאוד עמוק - תקרת הזכוכית לדאטה סיינטיסטים מגיעה מהר מאוד. לעומת זאת, אנליטיקה מגדירה את הבעיה ומלמדת את הארגון מחוץ לדאטה בהחלטות החשובות ביותר. לכן - אנליטיקה בסביבה הנכונה מאפשרת להשפיע באלפי אחוזים על התוצאות העסקיות.

בפוסט הבא אני אתמקד במנהיגי הדאטה - ואדבר על שני האפיקים שאני רואה למנהיגי דאטה בארגון. אולי גם אשתף איזו סוג של עבודה אני מעדיף - דאטה סיינס או אנליטיקה..

לקורס הדאטה שלי באוני׳ רייכמן

כמה טיפים לאנליסטים:

1. שני ספרי חובה שאני ממליץ לכל אנליסט לקרוא:

אנטישביר של נסים טאלב - מדוע מערכות מבוססות למידת מכונה הן שבירות, וכיצד תפקיד האנליסט הוא להפיק תובנות ממקרי קצה מהם דווקא מתעלמת למידת מכונה.
מהפיכה סיבתית של יהודה פרל - מדוע עבור ההחלטות החשובות והיקרות ביותר חייבים תיאוריה על העולם וחייבים לבסס את השיטה להוכיח את התיאוריה באופן מסתכל קדימה (ולא מתוך נתוני עבר).

2. עור במשחק (ראו פוסט נפרד שלי בנושא). דאגו להציג את התוצאות ולהיות חלק מהבעלים שלהן.

3. אל תוותרו על הבנת הבסיס של משין לרנינג. אך הבסיס מספיק.

4. תהיו מנהלי המוצר של הדאטה בארגון שלכם.

5. עשו יותר הנדסה. הפרידו בין עבודת מעבדה אנליטית לבין עבודת פרודקטיזציה, וזכרו שעבודת מעבדה היא זמנית ובעלת תוקף קטן יותר מאשר בנייה הנדסית של תוצרים אנליטיים (עליהם ניתן לבנות מוצרים נוספים מאוחר יותר).

6. היו בעלי קהילה של דאטה בארגון. קדמו את השימוש בדאטה וכלים לשימוש עצמי.

7. תגידו ״לא״ לעבודות שליפות דאטה שעם השקעה נכונה בתשתיות יכולה להיהפך למיותרת.

אהבתם? הירשמו לניוזלטר

דאטה אנליסט, דאטה סיינטיסט ומלחמת היוקרה שפוגעת בתעשיית הדאטה

Recent Posts

Comments