נושא הפרוייקט
מספר פרוייקט
מחלקה
שמות סטודנטים
אימייל
שמות מנחים
קביעת משך הלמידה הראשונית עבור תוכנית לימודים מותאמת לרובוט בלמידה בשיטת החיזוקים
Determining initial learning duration for robot adapted curriculum reinforcement learning
תקציר בעיברית
בעשור האחרון שימושים בלמידת מכונה נמצאים כמעט בכל תחום בחיינו. נתמקד בתחום למידה בשיטת החיזוקים, בלמידה בשיטת החיזוקים הסוכן מקבל משוב על-ידי קבלת פרס/קנס (reward) תוך כדי נקיטת פעולות ובחירת החלטות בתוך הסביבה על-ידי ניסוי וטעיה. מקובל להשתמש באלגוריתמי למידה בשיטת החיזוקים עבור למידה של רובוטים במשימות החלטה עוקבות בהן לסוכן יש משוב סביבתי מוגבל. שימוש ברובוטים למטרות חיפוש, סיוע והצלה מהווה יתרון בשמירה על חיי אדם, הפחתת הסיכון באופן משמעותי והגדלת מהירות התגובה. רובוט ה-R-STAR בעל תכונות דינאמיות המאפשרות לו יכולת תמרון טובה והצלחה במשימות חיפוש, סיוע והצלה. מטרת הפרויקט הינה מציאת זמן אופטימלי להרצת למידה ראשונית של הרובוט כתנאי בסיס לתוכנית הלימוד המותאמת לרובוט להמשך הלמידה. בחינת זמן הרצת הלמידה הראשונית האופטימלית התבצעה על-ידי בדיקות בסביבה בה שאר משתני הסביבה קבועים (ערך התגמול בעת הלמידה עבור כישלון/הצלחה כתלות במרחק הרובוט מהמטרה, אופן האשכול ההיררכי, רמות לימוד) ותחקורם. תהליך הלמידה של הרובוט כולל שני שלבים מרכזיים: שלב הלמידה הראשונית ושלב הלמידה בעזרת תוכנית לימוד. שלב הלמידה הראשונית קריטי להצלחת הרובוט בלמידה המבוססת על תוכנית לימוד מכיוון שבשלב זה הרובוט לומד ואוסף מידע מהסביבה בה הוא נמצא ועל ההשלכות האפשריות של הפעולות שלו. שלב הלמידה המבוססת על תוכנית לימוד מתחילה מהנקודה בה סיים הרובוט את שלב הלמידה הראשונית. שימוש בתוכנית לימוד מאפשר למידה יעילה יותר על-ידי ארגון תהליך הלמידה בצורה מובנית, דבר היכול להוביל להתכנסות מהירה ושיפור בביצועי המשימה העיקרית. הניסוי התקיים בסביבת סימולציה אשר הכילה מסלול המורכב משני מכשולים. הראשון הינו מעבר צר ברוחב של 220 מ"מ, השני הינו כניסה נמוכה בגובה משתנה בין 55-140 מ"מ. הצלחת הרובוט נמדדת על-ידי הגעה לנקודה סופית המוגדרת כיעד, הרובוט מתוגמל לפי המרחק מנקודה זו. ביצענו שלוש בדיקות כאשר השוני המרכזי בין כל בדיקה הינו כמות הצעדים שהרובוט לומד בשלב הלמידה הראשונית. הבדיקות אותן ביצענו מבוססות על למידה ראשונית של 4, 6 ו-8 מיליון צעדים, כאשר שלב הלמידה בעזרת תוכנית לימוד כלל כמות צעדים המשלימה ל-16 מיליון צעדים (12, 10 ו-8 מיליון צעדים בהתאמה). בכדי להשוות בין הבדיקות, דגמנו כ-18 גבהים ועבור כל גובה הרובוט ביצע 30 חזרות במטרה לצלוח את המסלול. השתמשנו במודל "ניתוח הישרדות" על-מנת לבחון את הצלחת הרובוט וכמות צעדי הרובוט עד הגעה למטרה/קטימה (קטימה יכולה להתרחש בעקבות נפילה ממשטח המסלול או מימוש כמות הצעדים המקסימלית המוגדרת לניסיון). משתני המודל הם: כמות הצעדים של הלמידה הראשונית ודרגת הקושי של מכשול הכניסה הנמוכה. תוצאות הניסוי הראו כי משתנה כמות הצעדים של הלמידה הראשונית משפיע ברמת מובהקות של 5% על צליחת מסלול המכשולים על-ידי הרובוט. מצאנו כי כמות הצעדים המיטבית של הלמידה הראשונית הינה כ-6 מיליון צעדים, מספר ההצלחות תחת ניסוי זה היה הגבוה ביותר.
תקציר באנגלית