top of page

איך לזהות מול איזה סוג דאטה אתם עובדים (ולמה זה משנה)?

  • תמונת הסופר/ת: Datapoint
    Datapoint
  • 22 באוק׳
  • זמן קריאה 2 דקות

עודכן: 29 באוק׳

מה משותף לגיליון אקסל של מכירות, טקסט חופשי מפוסט בפייסבוק, וקובץ JSON? על פניו, לא הרבה. אבל בעולם הדאטה, שלושתם נחשבים מקורות נתונים. כל אחד מהם מייצג סוג אחר של נתונים, עם מבנה שונה ודרך אחרת לעבוד איתו. אם מבינים את ההבדלים האלה, אפשר לדעת באילו כלים להשתמש, איך לאחסן את הנתונים, ואיך להפיק מהם תובנות אמיתיות.


לצפייה בסרטון המלא

נתונים מובנים (Structured Data)

נתונים מובנים מאורגנים בצורה טבלאית: שורות, עמודות, סוגי מידע קבועים מראש.למשל: שם לקוח, סכום רכישה, תאריך הזמנה. ניתן לנתח אותם בעזרת כלים כמו SQL, Excel או Power BI. הם צפויים, אחידים, ואפשר לשאול עליהם כמעט כל שאלה - מממוצעים פשוטים ועד ניתוחים עסקיים מורכבים.

זה סוג הדאטה שהכי קל “לדבר איתו” ולעבוד איתו.

computer with excel table on screen


נתונים לא מובנים (Unstructured Data)

כאן הסיפור שונה לגמרי. נתונים לא־מובנים הם כאלה שאין להם מבנה קבוע: טקסט חופשי, תמונות, סרטונים, הקלטות קול או פוסטים ברשתות החברתיות.

אי אפשר להכניס אותם לטבלה מסודרת מכיוון שכל פריט נראה אחרת לגמרי. כדי לחלץ מהם תובנות, נדרשים כלים מתקדמים יותר - כמו NLP לניתוח שפה, Computer Vision לזיהוי תמונות, או Machine Learning לחילוץ תבניות.

האפשרויות כמעט בלתי מוגבלות - אבל גם מורכבות יותר.


girl scrolling throug social media


נתונים חצי מובנים (Semi-Structured Data)

בין הסדר המוחלט של טבלה לבין הכאוס של טקסט חופשי, נמצא האזור האפור - הנתונים החצי־מובנים. יש בהם מבנה בסיסי, אבל הוא גמיש ולא אחיד.

הדוגמה הקלאסית היא קובצי JSON או XML - כאלה שנשלחים דרך APIs. יש בהם שדות עם שמות קבועים, כמו “שם”, “אימייל” ו“תאריך הצטרפות”,אבל לא כל רשומה נראית אותו דבר.

נתונים מהסוג הזה נפוצים במיוחד באתרים, אפליקציות, מערכות בנקאיות או חיישנים תעשייתיים. כדי לעבוד איתם נדרשת גמישות - לרוב בעזרת Python או מסדי נתונים לא־רלציוניים כמו MongoDB.


example of json file


דוגמה פרקטית

ניקח לשם הדוגמא רשת חנויות נעליים:

  • הזמנות הלקוחות נשמרות במסד נתונים טבלאי - נתונים מובנים.

  • קטלוג התמונות באתר מאוחסן בענן - נתונים לא-מובנים.

  • חוות דעת הלקוחות נשמרות בקובצי JSON - נתונים חצי-מובנים.


כל אחד מסוגי הנתונים האלה מתנהג אחרת, ודורש כלים שונים לאיסוף, לאחסון ולניתוח. לכן חשוב לדעת לזהות מול איזה סוג דאטה אתם עובדים, כי זה משפיע על כל שלב בעבודה שלכם.

ככל שתבינו טוב יותר את ההבדלים, תדעו לבחור את הכלים הנכונים ולגשת לניתוח בצורה מדויקת וחכמה יותר.

רוצים להתחיל מהבסיס?

הצעד הראשון לעבודה נכונה עם דאטה הוא שליטה בנתונים מובנים, Structured Data - והדרך הכי טובה ללמוד את זה היא דרך SQL. הכנתי מדריך חינמי שילמד אתכם את יסודות השפה בצורה פשוטה וברורה, גם אם אין לכם רקע קודם.


 
 
 

תגובות


bottom of page