נושא הפרוייקט
מספר פרוייקט
מחלקה
שמות סטודנטים
אימייל
שמות מנחים
למידת תרחישי מיינקראפט על ידי למידה של מודלי תכנון
Solving Minecraft by Learning Planning Action Models
תקציר בעיברית
מיינקראפט הוא משחק עולם פתוח שמציע סביבה עשירה ומורכבת למחקר בתחום הבינה המלאכותית. עיצובו מאפשר הגדרת של מגוון משימות ואתגרים שונים עבור סוכנים בתחום הבינה המלאכותית, כמו איסוף משאבים ויצירת חפצים. עבודות קודמות בתחום השתמשו גם בלמידה מחיזוקים (Reinforcement Learning) וגם בשיטות תכנון אוטומטיות (Automated Planning) כדי להשלים משימות שונות במיינקראפט. שיטות ה-RL בדרך כלל מחייבות מספר רב של אינטראקציות עם הסביבה, בעוד ששיטות התכנון (Planning) דורשות לדעת את המודל של העולם. יצירת מודל עולם למשימות במיינקראפט היא משימה מאתגרת מאוד. קיימים כבר אלגוריתמים ללמידת מודלי עולם מתצפיות, אך הם בדרך נמדדים מול מודלים אחרים בתחום ה Planning. בעבודה זו, אנו חוקרים את השימוש באלגוריתמים כאלה לפתרון משימות במיינקראפט. אנו מתמקדים במשימה של יצירת "מקל פוגו מעץ" וחוקרים דרכים שונות לייצג מצבים בעולם. לאחר מכן, אנו מציעים אלגוריתם לאיסוף תצפיות בעולם - בין אם יוצרו על ידי מומחה או נאספו מתצפיות - ולאחר מכן משתמש בהם עם אלגוריתם ללמידת מודל העולם.
תקציר באנגלית
Minecraft is a sandbox game that offers a rich and complex environment for AI research. Its design allows defining diverse tasks and challenges for AI agents, such as gathering resources and crafting items. Previous works have applied both Reinforcement Learning (RL) and Automated Planning methods to accomplish different tasks in Minecraft. RL methods usually require a large number of interactions with the environment, while planning methods requires a model of the domain to be available. Creating planning domain models for Minecraft tasks is arduous. Algorithms for learning a domain model from observations exist, yet have mostly been used on planning benchmarks. In this work, we explore the use of such algorithms for solving Minecraft tasks. We focus on the task of crafting a wooden pogo stick and explore different ways to represent states in this domain. Then, propose an agent that learns domain models from observations — either generated by an expert or collected online — and uses them with an off-the-shelf domain-independent planner.