נושא הפרוייקט
מספר פרוייקט
מחלקה
שמות סטודנטים
אימייל
שמות מנחים
קביעת תכנית לימודים עבור למידה עמוקה בשיטת החיזוקים
Determining a curriculum in deep reinforcement learning
תקציר בעיברית
מטרת העל של מחקר זה, היא גיבוש תוכנית לימוד מותאמת לרובוטים משני צורה, תוך שימוש בטכניקת למידה עמוקה בשיטת החיזוקים. מטרת הפרויקט הינה אימות השפעת למידה מבוססת תוכנית לימוד על התמודדות הרובוט בפתרון משימות מורכבות, תוך בדיקת שתי השערות מרכזיות: יעילותה של תוכנית לימוד לטיפול במכשולים מורכבים, וקיומו של יחס חשיפה אופטימלי למשימות המייעל את תהליך למידה תוך התייחסות לאלמנט השכחה. הפרויקט הנוכחי מתמקד בפיתוח מתודולוגיה יעילה ללימוד לRSTAR- (Rising Sprawl-Tuned Autonomous Robot), רובוט שטח הניתן להגדרה מחדש, להתמודד במיומנות עם מסלול מכשולים. המבנה הייחודי של הרובוט מאפשר שינויים במרכז המסה שלו ובממדיו הפיזיים, תכונות ייחודיות אלו מאפשרות לרובוט להתגבר על מגוון מכשולים בגדלים משתנים. בדומה לעולם האמיתי, שבו גודלו המדויק של מכשול בו הרובוט יתקל אינו צפוי, מסלול המכשולים שתוכנן למחקר זה משמש לחיקוי תנאים לא ודאיים אלה. המסלול מורכב משני מכשולים - מעבר צר הבנוי משני אבנים ומדרגה המיוצגים בסביבת סימולציה שנוצרה ב-Unity. תוכנית הלימוד פותחה בעזרת תהליך הבנוי ממספר שלבים: למידה ראשונית, איסוף נתונים, ניתוח הנתונים, הגדרת קושי המשימות, בחירת סדר הצגתן ולבסוף בחירת אחוז חשיפתן בכל שלב. בלמידה הראשונית, הרובוט ביצע כמות צעדים מוגדרת מראש על מנת להכיר את סביבת המכשולים בה הוא נמצא. הלמידה הראשונית מאפשרת לרובוט להבין את סביבת הסימולציה ובעיקר את מטרתו העיקרית – הגעה ליעד. מטרה זו מיושמת באמצעות מקסום פונקציית התגמול על ידי הרובוט. בשלב איסוף הנתונים, הרובוט התמודד עם מסלולים שונים שכללו מעבר בין אבנים במרווחים משתנים ומעבר מדרגה בגבהים משתנים בטווחים מוגדרים מראש. בכל צעד שהרובוט ביצע נדגמו 4 משתנים: מרחק מהמטרה, זווית הפתיחה (Sprawl), זווית הרכינה (FBEM) והזמן במסלול. בשלב ניתוח הנתונים, נוצר GMM (Gaussian Mixture Model) המורכב מארבעת המשתנים המייצגים יחד את התנהגות הרובוט בהתמודדות בכל מסלול. באמצעות מרחק הלינגר, חושבו מרחקי דמיון בין כל זוג GMM למען יצירת מטריצת מרחקים. אותה מטריצה שימשה כקלט לאלגוריתם אשכול היררכי למען קיבוץ המסלולים לאשכולות המייצגות רמות קושי. אותן אשכולות אובחנו על פי אחוז ההצלחה של הרובוט בכל אשכול למען סיווג רמת הקושי. כתוצאה מכך, נוצרה תוכנית הלימוד, המפרטת מהם טווחי גדלי המכשולים בכל רמת קושי. לאחר פיתוח תכנית הלימוד, תוכנן ניסוי במטרה להתמודד עם מנגנון השכחה, כלומר הידרדרות בביצועים במשימות שנלמדו בעבר כאשר משימות חדשות מוצגות. הניסוי חוקר את האחוז האופטימלי של חשיפה למשימות ״עבר״ בדרגות קושי שונות בעזרת ניתוח הישרדות. הניסוי כולל ארבע קבוצות, כך שכל קבוצה מייצגת רשת עצבית עם יחס חשיפה שונה המוגדר מראש לרצף המשימות שנקבע בתוכנית הלימוד. נתוני ביצועי הרובוט נאספו על פני הסביבות השונות ועברו ניתוח הישרדות. ארבעת תוכניות הלימוד מורכבות משתי תוכניות בעלות יחסי חשיפה 80%-20% ושתי תוכניות 60%-40% משימות קשות וקלות בהתאמה, כך שההבדל ביניהן הוא זמן הלמידה הראשונית. מתוצאות ניתוח ההישרדות עולה כי הרשת שאומנה תחת יחס החשיפה 80%-20% וזמן הלמידה הראשונית הגבוהה יותר, היא הרשת בעלת הביצועים הטובים ביותר. תוצאות הניסוי ממחישות כי לשלב הלימוד הראשוני ולפונקציית התגמול של הלמידה השפעה משמעותית על ביצועי הרובוט.
תקציר באנגלית