• Roy Sasson

איך תמדדו את המודדים? עלייתו של צוות התשתיות האנליטיות

רועי ששון ו-אלכס אוחיון


דאטה הוא דבר טיפש, אנשי ארגון הדאטה הם מדענים, ואילו מדעי הנתונים היא מערכת חברתית (שיטות, כלים ותהליכים) שתפקידה להפוך את הדאטה לידע ארגוני שנצבר לאורך זמן. אבל איך מודדים ידע ארגוני ואת אפקטיביות התהליכים ליצירת הידע הארגוני? אנליסטים עוסקים רבות בקביעת מטריקות ואינדקטורים למצבה העסקי והמוצרי של החברה. מדעני נתונים עוסקים רבות במדידת הביצועים של המודלים שהם בונים ושמים בידיהם של המשתמשים. עם זאת, באופן אבסורדי - אנליסטים ומדעני נתונים כמעט ואינם עוסקים במדידת המערכת החברתית שהם אמורים ליצור כארגון דאטה.



לפני שנסביר כיצד למדוד ״מערכת חכמה״, כדאי להסביר קודם מהי מערכת חכמה? בין אם מדובר במערכת בינה עסקית או בינה מלאכותית - אנחנו נוהגים להשתמש רבות בדוגמא של ויקיפדיה (אשר חוגגת 21 שנה להיווסדה). כשבני דורנו חגגו בר מצווה - היינו מקבלים במתנה אנציקלופדיה (״בריטניקה״, ״עברית״ או ״אביב״, תלוי לאיזו אסכולה המשפחה שלכם הייתה שייכת..). כל כרכי האנציקלופדיה היו תופסים מדף ספרים שלם. פעם בעשור בערך, היו יושבים טובי המוחות האקדמיים, ומעדכנים את הערכים עליהם היו אמונים, ואז הייתה יוצאת להדפסה אנציקלופדיה חדשה, ואז עוד מדפים של בוגרי בר מצווה היו מתמלאים, וחוזר חלילה בכל דור ודור.


ויקיפדיה שואפת להיות מקור המידע הטוב בעולם לערכים ״חשובים״. מקור זה סומך את הידע שלו על קהילה קטנה של עורכים ראשיים וקהילה גדולה של ״אזרחים״ שיכולים לתרום לערכים מסוימים, העוברים ביקורת של עורך בכיר יותר. בתחילת דרכה ויקיפדיה נחשבה לרעיון פורץ דרך, אך בו זמנית גם לעגו לה, שכן ערכים רבים היו פרוצים, חסרים, ומלאי סתירות (חלקן נכתבו בזדון, וחלקן לא). מה שהפך את ויקיפדיה לאנציקלופדיה המובילה בעולם, כזאת שפינתה מדפי ספרים רבים של בוגרי בר מצווה ברחבי העולם - היה התהליך. ויקיפדיה ניצחה עם פחות מקורות עמוקים באקדמיה תוך הסתמכות לטובה על חוכמת ההמונים, בזכות התהליך הנכון. ארגון דאטה צריך לעבוד כמו אותה קהילה של עורכי ויקיפדיה על מנת ליצור באופן תמידי ידע נוסף ועדכני, כאשר כל חבר בגילדת הדאטה עומד על כתפיהם של קודמיו, ופותח צוהר לאחרים לעמוד על כתפיו.


אפשר למפות שישה אלמנטים עליהם מבוססת ״מערכת חכמה״:


  1. רעננות ומהימנות הנתונים - מערכת חכמה מכילה את הנתונים האחרונים והמדויקים ביותר בכל רגע.

  2. עדכניות - התרחבות תמידית לתחומים והתנהגויות שלא היו קיימות לפני כן, ומאחסנת הרחק מהעין תחומים שתם זמנם, או מחסלת מידע שפג תוקפו.

  3. מיידעת את משתמשיה (רצוי באופן פרואקטיבי) כאשר משהו השתנה בנתונים או בתהליכים, ועוזרת להם להסתגל לשינוי.

  4. מספקת תמיכה למשתמשים קיימים ומשתמשים חדשים שרוצים לתרום ידע חדש על גבי ידע קודם במערכת.

  5. מזהה מהר טעויות בכל ערך חדש, ומונעת מטעויות ליצור נזק או חוסר אמון בידע שנצבר עד כה.

  6. מסוגלת לעדכן בו זמנית תהליכי ידע התלויים אחד בשני, ולזהות סתירות.



דוגמא (לשם המחשה) לשירות ספציפי בווייז המפיק תועלת מהעקרונות המנחים של גילדת הדאטה: א. אחידות קוד ושימוש בענן יחיד לכל צוותי הדאטה, ב. דאטה סיינטיסטים ואנליסטים מחולקים לקבוצות לפי עולמות התוכן המוצריים ולא לפי המקצועות שלהם, ג. קירבה למערכות הבק אנד והפרונט אנד ככל הניתן על מנת להשפיע על חווית המשתמש.


בדוגמא למטה הדאטה סיינטיסט מסתמך על VertexAI לחיזוי הנסיעה הבאה של המשתמש. החיזוי מאוחסן ב-Big Query אבל גם נותן גישה למערכות הבק אנד במידת הצורך. כשהמשתמש נכנס לאפליקציה - הוא מקבל ממערכות הבק אנד חישוב מיידי של זמן ההגעה הצפוי לנסיעה הצפויה (המסגרת הלבנה למטה עם כפתור GO כחול). במקביל - אנליסט המוצר יכול להשתמש באותן תחזיות של הדאטה סיינטיסט לשירות אחר - שליחת הודעה למשתמש שהמערכת מזהה כי יש תנועה איטית מן הצפוי בנסיעה צפויה (ההודעה עם האייקון האדום בצד ימין). לבסוף - אנליסט המוצר ואנליסט בתחום השיווק יכולים להשתמש באותן תשתיות ומטריקות כדי לנתח ביחד עם מנהלי המוצר עד כמה השירות עוזר ואפקטיבי למשתמשים, ודנים בשיפור המוצר הבא.





אנליסטים ודאטה סיינטיסטים אחראים על התוכן של המערכת החכמה הזאת. הם עורכי ויקיפדיה ואזרחי הקהילה. לעומת זאת - צוות התשתיות האנליטיות אמון על בניית המערכת החכמה הזאת, הכלים, השיטות והתרבות הנאכפת בקהילה. זוהי קבוצת מהנדסי דאטה ואנליסטים בעלי יכולות טכנולוגיות, הכפופה לגילדת הדאטה.


ברמה ההנדסית- ארגון התשתיות האנליטיות אחראי על המערכות הבאות:

  1. תהליכי איסוף הדאטה לאחר שהועבר ממערכות הבק אנד והפרונט אנד, וקביעת התהליכים לפיהם בונים מסדי נתונים או אגמי נתונים בצוותי מוצר שונים (נהוג לחלקן לשכבת דאטה גולמי, דאטה מורחב ודאטה אגרגטיבי).

  2. כלי בדיקות הנתונים וניהול סכמות הטבלאות.

  3. הטקסונומיה הארגונית, ניהול שכבת המטריקות של החברה, ושילובן הכמעט בלתי מאומץ במערכות כגון מערכת הניסויים, Funnel analysis ומקורות הדיווח להנהלה.

  4. תשתיות ה-Orchestration של גילדת הדאטה - כגון Airflow.

  5. תשתיות האופרציה של למידת מכונה MLOps (לוגים של דאטה, תהליכי בניית הפיצ׳רים, כלי האופטימיזציה של מודלים, אחסון הגרסאות של המודלים, כלי המדידה והאימון מחדש של המודלים, וכדומה).

  6. ארגון ספריות הקוד של ארגון הדאטה ותהליכי העדכון והאינטגרציה של קוד המחקר אנשי הדאטה.

בוודאי שמתם לב כי ארגון התשתיות האנליטיות אמון על כלים ותהליכים רבים. אך זוהי רק הזוית ההנדסית של עבודתם. בסופו של דבר - כלים טובים אמורים להביא לתוכן איכותי. ואת התוכן יוצרים מדעני הנתונים והאנליסטים באמצעות מוצרי דאטה ומחקרים. לכן - מדידת המערכת החכמה צריכה לשקף עד כמה קל לחבר או חברה בקהילת הדאטה ליצור ידע חדש.


אז איך מודדים את המערכת החכמה של מי שמודד את הארגון? הנה רשימה חלקית של המטריקות בהן אנו משתמשים בארגון הדאטה של ווייז על מנת למדוד קלות יצירת הידע בחברה המסתמך על פטה-בייטים של דאטה, מעל 500 טבלאות ומאות תהליכי עיבוד נתונים יומיים.




1. מדדים לרעננות ומהימנות הנתונים:

  1. זמינות:

  2. הזמן הממוצע שבין היווצרות נתון ועד השימוש בנתון (במקרה של בינה עסקית - הגעה ל-10 הדשבורדים המרכזיים של החברה. במקרה של בינה מלאכותית - שימוש בפיסת הדאטה במודל חדש).

  3. אחוז הדאטה פייפליינים שנכשלו בחודש מסויים, משוקללים לפי כמות השימוש.

  4. מהירות העלייה הראשונה של 10 הדשבורדים השימושיים ביותר בחברה.

  5. עלות:

  6. עלות כוללת לעיבוד הנתונים בגילדת הדאטה בכל שבוע.

  7. איכות:

  8. כמות הבאגים בחודש שנפתחים בעקבות טעויות בדאטה או בחישוב מטריקות.

  9. (מבוסס סקר) - אחוז זמן הפיתוח של אנליסטים המושקע בחודש בשיפור איכות הדאטה (אמור לרדת עם הזמן).

2. פרודוקטיביות של חברי קהילת הדאטה: מדידת פרודוקטיביות אצלנו, בוחנת כמה קל ליצור ידע חדש בחברה, ולשלבו עם ידע ישן (״לעמוד על כתפיהם של נפילים״, ולא להמציא את הגלגל מחדש בכל אנליזה).


עיקרון בסיסי הוא כי ידע חדש משולב במערכות הדאטה באמצעות קוד חדש. ב-ווייז אימצנו שתי רמות מחקר ומוצרי דאטה שונים - ״מעבדה״ לעומת ״פרודקשן״. מחקר או מוצר ״מעבדה״ הינו מהיר, אינו דורש תהליכי ביקורת על ידי צוותים אחרים ואינו דורש אינטגרציה עם תהליכי או מוצרי דאטה אחרים בארגון. אנו משערים כי רוב העבודה של אנליסטים בארגוני דאטה היום הייתה נחשבת בוויז כ״מעבדה״. אנליסט יכול להריץ מחקר מעבדה מהיר, לתקשרו בתוך הצוות, לדון במספר תובנות ולזרוק אותו לפח בכל זמן שירצה.

תהליך פרודקשן עומד תחת קריטריונים נוקשים הרבה יותר. הוא בנוי על שיטת ה-Peer Reviewed האקדמית. תהליך זה מניח שאם המחקר יוצק ידע חדש - אזי הוא מסתמך על הידע הקודם של החברה, והוא מאפשר למי שיבוא לאחר מכן להסתמך עליו שוב ללא עבודה נוספת. כלומר - הוא כללי ובעל תוקף חיצוני. ברמה הפרקטית - אם אנליסט מבצע מחקר או מוצר פרודקשן - הוא צריך לכתוב את הקוד בצורה קריאה וסטנדרטית, לעבור קוד ריביו, שתהליכי יצירת הדאטה שלו יעברו תהליכי אינטגרציה עם מוצרי דאטה אחרים, ורצוי שהתהליך הזה לא ישכפל מאמצים דומים שנעשו בעבר, אלא יוסיף עליהם. לחלופין - אם דאטה סיינטיסט בונה מודל חדש עבור פרודקשן - אותו מודל צריך להיות גרסה משופרת של מודלים קודמים, ולהיות מסוגל להשתלב במערכות ההנדסיות של החברה באופן חלק ופשוט.


כיצד מודדים פרודקטיביות של אנשי דאטה?


  • כמות שינויי הקוד בין חברי צוותים שונים (מנהל שונה) - ככל שאנשי דאטה מצוותים שונים מרגישים בנוח לשנות קוד של צוותי דאטה אחרים - ככה ניתן להבין כי ידע נצבר ולא מומצא מחדש על ידי כל צוות.

  • כמות הזמן של קוד ריביו על ידי איש צוות אחד לשני, וכמות ההערות.

  • אחוז ה-Deployments שנכשלו על ידי אנליסטים ומדעני נתונים. ככל שהתהליך קשה ומורכב יותר, ככל שהקוד נראה יותר ויותר כמו ספגטי - ככה יכשלו אנשי הדאטה בלשלב את המחקרים שלהם במאגר הידע והקוד של גלדת הדאטה.

  • כמות הזמן מתחילת כתיבת קוד חדש ועד לסיום deployment

  • ״יחס הפרסומים״: כמות מחקרי הפרודקשן למחקרי המעבדה (גבוה יותר - טוב יותר).


3. תמיכה וקהילה:


הנחת העבודה היא כי מערכות הענן שלנו יתעדכנו כל הזמן בכלים חדשים, בשיטות טובות יותר ואנשי הארגון הקיים יצטרכו דרך לשכלל את הידע שלהם. כמו כן - הארגון גדל בכל עת (אם בכמות אנשי הדאטה, ואם במשתמשים קלים יותר כגון מנהלי מוצר, מנהלי שווקים וכולי). כל אלה זקוקים לתמיכה שוטפת. בארגון הדאטה שלנו - משתמשי דאטה יכולים להעלות שאלות YAQs (מערכת השאלות בפיתוח של גוגל), וארגון תשתיות האנליטיקה אחראית על מתן מענה לשאלות הללו. במקרים של שאלות קלות יותר - לאפשר לבעלי הדאטה הרלוונטיים לענות בעצמם (אנליסטים עונים גם כן על שאלות ספציפיות על תחומי הדאטה שלהם). בעולם התמיכה, אנו מודדים:

  • כמות השאלות הנשאלות בחודש - תחת ההנחה שקהילה טובה של משתמשי דאטה היא קהילה אקטיבית.

  • מצעד תורמי הידע (על כמה שאלות ענית בחודש האחרון).

  • זמן מענה ממוצע לשאלה.

  • כמות הצפיות לשאלה (גם משקף את העניין בידע, וגם עשוי לשקף תחומים הדורשים שיפור בתשתיות ומהווים כאב שכיח אצל משתמשי הדאטה).

  • הנושאים השכיחים ביותר שהועלו בחודש מסויים.


סיכום:


היסטורית, חברות נהגו להחזיק צוות אנליטיקה-הנדסי אחד הקרוי בשם השנוי במחלוקת Business Intelligence,. צוות זה היה אמון על דאטה לייק או מחסן נתונים אחד ויחיד של החברה, בניית תהליכי הדאטה ETLs הכבדים, ומענה על שאלות רבות ושטחיות יחסית ממספר רב של לקוחות פנים ארגוניים. ככל שכמות הדאטה ושונות השימוש בדאטה גדלה - כך עוברים יותר ויותר למצב שבו קיימות מספר קבוצות דאטה, אשר כל אחת מהן אמונה על שירותי דאטה המתמחים בעולם תוכן ספיציפי, החל מבינה מלאכותית ועד לבינה עסקית. לדוגמא - בגילדת הדאטה של ווייז קיימות שלוש קבוצות דאטה שונות הכוללות אנליסטי מוצר ודאטה סיינטיסטים: קבוצה אחת אמונה על עולם הניווט מבינה מלאכותית ועד בינה עסקית, קבוצה שנייה אמונה על חווית המשתמש והצמיחה בכמות המשתמשים מבינה מלאכותית ועד בינה עסקית, והקבוצה השלישית אמונה על עולם המודעות ושיתופי הפעולה העסקיים - גם החל מבינה מלאכותית ועד לבינה עסקית. כמעט כל ניתוח בכל אחת מהקבוצות הללו מסתמך על היישות הנקראת ״ניווט״, ״משתמש״, ״דיווח״ בדרך זו או אחרת. חישבו עכשיו על המצב שבו ההגדרה והמדידה של ״משתמש״ הייתה שונה בין קבוצה אחת לאחרת - כמעט בלתי ניתן יהיה ליצור מערכת קוהרנטית של ידע על פני החברה. לשם כך - עברנו לפרדיגמה של Data Mesh ו-distributed BI, כאשר כל ארגון דאטה מחזיק את הידע הטוב היותר לאופן שבו הדאטה צריך לשרת את המוצר והמשתמשים. אבל בשביל שכל אנשי הדאטה יעבדו בסנכרון - לגידלת הדאטה יש קבוצה נוספת - קבוצת התשתיות האנליטיות. זוהי קבוצה של מהנדסים שמכירים מקרוב את עולם התוכן של אנליסטים ודאטה סיינטיסטים. שמטרה היא אחת ויחידה - בניית הכלים, התהליכים והתרבות הארגונית של גילדת הדאטה - כדי שתיצור את הויקיפדיה הארגונית, ולמנוע מצב שבוא לאותו ארגון יש גם אנציקלופדיית בריטניקה, גם אנציקלופדייה עברית וגם אנציקלופדיה עברית.


אנו מקווים שהפקתם תועלת מפוסט זה. אם אהבתם אותו - שתפו עם אנשים נוספים אשר עשויים להפיק ממנו ידע.


אלכס ורועי.


* אלכס אוחיון הוא מנהל צוות התשתיות האנליטיות בגידלת הדאטה של ווייז. לעמוד הלינקדאין של אלכס

** ד״ר רועי ששון מנהל את גילדת הדאטה של ווייז, וחבר סגל באוניברסיטת רייכמן.













873 views0 comments