קורס ניתוח נתונים בפייתון

טיוב וניתוח נתונים מתקדם בפייתון 

אודות הקורס

נתונים נמצאים בכל מקום, אנו עובדים עם כמויות הולכות וגדלות של נתונים באופן יומיומי ונדרשים לעבד אותם, לנתח ואף להסיק מסקנות. המגמה הזאת מציגה בפנינו מספר אתגרים:

 

  • הנתונים שלנו עלולים להיות מפוזרים על פני קבצים רבים, ולפעמים אפילו מסוגים ופורמטים שונים. בנוסף, חלק מהנתונים עלולים להמצא בפלטפורמות שונות בענן (מסדי נתונים ארגוניים, APIs, אתרי אינטרנט, כלי ERP שונים ועוד).

  • הנתונים לרוב לא נמצאים בצורה נוחה לעיבוד/ניתוח ויש צורך לבצע "ניקוי" שלהם (טיוב נתונים).

  • כמויות הנתונים הגדולות מקשות עלינו לעבוד בכלים גרפיים מוכרים כמו אקסל (ולעיתים קרובות הופכות את האפשרות הזאת לבלתי אפשרית)

  • לעיתים יש לחזור על אותן הפעולות פעמים רבות באותו חודש או אפילו באותו יום, על קבצי נתונים שונים.


את כל הבעיות הללו ניתן לפתור באמצעות פייתון אשר נותנת לנו גמישות עצומה בעבודה עם נתונים וניתוחם, מאפשרת לנו למשוך נתונים מכל קובץ ומערכת, לבצע מניפולציות על הנתונים כדי להתאים אותם לצרכינו, לעבוד עם כמויות בלתי מוגבלות של נתונים (אפילו באופן מקומי) ולבצע אוטומציה מלאה לתהליך כך שנוכל לכתוב את התכנית פעם אחת בלבד ולתת לפייתון לעשות עבורנו את "העבודה השחורה" מעתה והלאה.
 

קהל היעד

עיקר המיקוד של הקורס הוא בניתוח נתונים מתקדם בסביבת פייתון ולכן מתאים במיוחד ל:

  • סטטיסטיקאים

  • אנשי דאטה (מפתחי בינה עסקית, אנליסטים, Data Scientists, Data Engineers וכו')

  • עובדים אשר מתוקף תפקידם עובדים עם כמויות גדולות של נתונים בפורמטים שונים.

  • מעבר לכך הקורס יכול להביא תועלת לכל אדם אשר בא במגע עם נתונים בעבודת היום יום שלו ונדרש לעבוד איתם או לעבד אותם בצורה כלשהי.

יעדי הקורס

  • יכולות מתמטיות וסטטיסטיות מתקדמות בעזרת ספריית numpy.

  • ייבוא נתונים לסביבת פייתון ממגוון מקורות - קבצים, בסיסי נתונים, דפי אינטרנט ואפילו שליפת נתונים מ-APIs.

  • ביצוע מניפולציות שונות על הנתונים והכנה שלהם לניתוח ע"פ צרכינו (Data Cleaning) באמצעות ספריית pandas.

  • הקניית יכולות ניתוח נתונים מתקדמות בסביבת פייתון.

דרישות קדם

לצורך קורס זה נדרשת מהמשתתפים הבנה טובה של יסודות תכנות בשפת פייתון - עבודה עם משתנים, תנאים ולולאות, פונקציות, עבודה עם מערכים, שימוש בספריות וכו'
שיטות העבודה בקורס זה מתמקדות בניתוח נתונים בפורמט טבלאי ולכן העקרונות יהיו מוכרים לאנשים המתמצאים באקסל או בשפת ה-SQL.  לכן היכרות מוקדמת עם הכלים הללו מהווה יתרון משמעותי.

סילבוס

מערכים וחישובים מספריים עם NumPy

ספריית NumPy היא אחת הספריות החשובות והפופולאריות ביותר שנוצרו לפייתון.
יתרונה העיקרי הוא בשיפור הדרמטי שהיא מביאה ליכולות הנומריות, המתמטיות והסטטיסטיות של פייתון. NumPy גם מהווה את התשתית שעליה בנויות כמה מן הספריות המשמעותיות ביותר בתחומי המדע, ניתוח נתונים, למידת מכונה ו-AI.

 

  • יצירת מערכים במגוון דרכים ושיטות

  • וקטורים, מטריצות ומערכים רב מימדיים

  • חיתוך מערכים (Slicing)

  • סינון ערכים ספציפיים מתוך מערכים

  • מיון מערכים

  • ביצוע חישובים סטטיסטיים על מערכים או חלקים מהם.

  • עבודה עם סוגי נתונים שונים (Data Types)

  • ביצוע מניפולציות על תמונות

ניתוח נתונים עם Pandas

ללא ספק הספרייה החשובה והמשמעותית ביותר בתחום ניתוח הנתונים וה-Data Science, ספריית Pandas (אשר גם היא נשענת על היסודות של NumPy) היא פרוייקט עצום אשר העבודה עליו מתבצעת באופן פעיל כבר יותר מעשור. Pandas מאפשרת לנו לייבא נתונים ממגוון מרשים של מקורות ולייצור ייצוגים טבלאיים של הנתונים האלו בתוך סביבת פייתון, וכך לעבוד עליהם ולבצע עליהם מניפולציות באופן פשוט לאין שיעור בהשוואה לצורות המסורתיות.

 

  • ייבוא נתונים ממגוון מקורות

    • קבצי טקסט

    • קבצי אקסל

    • בסיסי נתונים

    • מידע מאתרי אינטרנט

    • נתונים מ-APIs שונים

  • יצירת Data Frames

  • יצירה, שינוי ומחיקה של עמודות

  • סינון עמודות ושורות על פי מגוון קריטריונים

  • מיון טבלאי

  • המרות טיפוסי נתונים

  • עבודה עם ערכים חסרים וכפילויות

  • הקבצות וסטטיסטיקה

  • איחוד של טבלאות שונות במגוון שיטות

  • ניקוי ושינוי של ערכי טקסט

  • עבודה מול תאריכים וחישובים תארכיים

  • יצירת טבלאות PIVOT

  • ויזואליזציות נתונים בסיסיות בעזרת פונקציית plot

יצירת Data App

יצירת אפליקציה וובית אשר תאפשר לנו ולמשתמשי קצה אחרים להציג ולנתח נתונים בממשק גרפי נוח ודינמי.

  • יצירת אפליקציה על שרת מקומי באמצעות ספריית streamlit

  • יצירת אלמנטים גרפיים כגון כותרות, פאנלים, טפסים, כפתורים ועוד.

  • קבלת מידע מהמשתמש במגוון דרכים.

  • שליפת נתונים באופן דינמי והצגתם בפורמט טבלאי לפי בקשה.

  • ייצוא נתונים לקבצי אקסל בלחיצת כפתור

  • העלאת האפליקציה לשרת פומבי

© כל הזכויות שמורות ל-Datapoint מרכז הדרכה למקצועות ההייטק 2021