נושא הפרוייקט
מספר פרוייקט
מחלקה
שמות סטודנטים
אימייל
שמות מנחים
האצת חישובי למידת מכונה באמצעות חישוב רשתי
In-network aggregation for machine learning
תקציר בעיברית
לימוד מכונה מבוזר צובר פופולריות רבה ודורש שיטות אימון מהירות ויעילות יותר, בעקבות הגידול העצום בהעברות המידע ביישומים מודרניים, מחקרים אחרונים בתחום מראים כי צוואר-הבקבוק בתהליך הפך להיות רשת התקשורת. על מנת להתמודד עם האתגר, מחקרים נוספים מצביעים על הרעיון של צבירה תוך רשתית המציעה להעביר את החישובים מנקודות הקצה לרכיבים חכמים (אך יקרים) ברשת ועל ידי כך להפחית את כמות המידע המועברת בזמן השליחה. המטרה שלנו הינה לפתח מערכת אמולציה אשר משמרת את דיוק המודל תוך הדגמת הפוטנציאל החבוי בשימוש בפריסות נבחרות של רכיבים חכמים ובכך למזער את זמן ההשהיה והעלויות בתהליך האימון.על מנת לאמת את הגישה שלנו, ערכנו סדרת ניסויים באמצעות אמולטור הרשת Mininet לטובת יצירת תשתית הרשת ומימשנו לימוד מכונה מבוזר ומנגנון צבירה תוך רשתית באמצעות חבילת PyTorch. פריסות אסטרטגיות של מתגים בעלי יכולת צבירה תוך רשתית ממזערות ביעילות את העברות המידע ומציעות יתרונות רבים כגון: יכולת התרחבות, הפחתת עלויות ותאימות למערכות בעולם האמיתי. בעקבות זאת, לשימוש בצבירה תוך רשתית בפריסות נבחרות יש את הפוטנציאל לחולל מהפכה בתחום לימוד המכונה המבוזר ברשתות דאטה-סנטרים בקנה מידה נרחב. מילות מפתח: לימוד מכונה מבוזר, צבירה תוך רשתית, אמולציה, צוואר-בקבוק, יכולת התרחבות, הפחתת עלויות
תקציר באנגלית
Distributed machine learning (ML) is gaining popularity, demanding faster and more efficient training methods. Due to the vast growth in data transfers in modern day applications, recent work shows that the bottleneck for distributed ML is now the underlying communication network. To tackle this challenge, recent research is pushing the concept of in-network aggregation (INA) which suggests offloading computations to smart yet expensive in-network elements reducing data transfers on-flight. Our objective is to develop an emulation that maintains model accuracy while demonstrating the potential for reducing latency through selective hence less costly INA deployments. In order to validate our approach, we conducted a series of experiments using the Mininet emulator to create a network infrastructure and implemented distributed ML and INA using the PyTorch framework. Strategic deployments of INA-capable switches effectively minimize data transfers and offers advantages such as scalability, cost reduction, and compatibility with real-world systems. As a result, it has the potential to revolutionize distributed ML in large-scale data center networks . Keywords: Distributed Machine Learning, In-Network Aggregation, Mininet, PyTorch, Emulation, Bottleneck, Scalability, Cost Reduction.