נושא הפרוייקט
מספר פרוייקט
מחלקה
שמות סטודנטים
אימייל
שמות מנחים
Embible
Embible
תקציר בעיברית
בשנים האחרונות אנו עדים לעלייה בממצאים ארכיאולוגים עתיקים הקשורים ללאום היהודי. ממצאים אלו חשובים לחיזוק הזהות, הקשר לתרבות ולהיסטוריה של העם היהודי. בין ממצאים אלו ניתן למצוא כתבים עתיקים חסרים שנקרעו/ דהו במהלך השנים. המודל שאנו מפתחים בפרויקט בא לפתור בעיית( masked language modeling (MLM- השלמת קטעים חסרים מטקסט. ייתכנו מספר אפשרויות לקטע חסר: מילים חסרות, מילה בודדת שחסרה, אות בודדת שחסרה וחלקי מילים. לאחר סקירת מאמרים רבים על מודלים בתחום וחקירה לעומק את היתרונות והחסרונות שיש בכל אחד מהם, הגענו למספר מסקנות: - החיסרון במודלים אלו שרובם טובים בחיזוי עבור השפה האנגלית ושאר שפות שאומנו עליהם ( לדוג': יוונית) אך אינם טובים בחיזוי עבור השפה העברית. - ישנם מודלים שחוזים בצורה טובה מילים שלמות שחסרות אך חוזים בצורה פחות טובה עבור חלקי מילים שחסרים, ולהפך. על כן פיתחנו מודל אנסמבל שמאומן על התנ"ך שמנצל יתרון של מודל שיודע לחזות בצורה טובה מילים שלמות שחסרות ויתרון של מודל שמנבא היטב חלקי מילים שחסרים. (המודלים עליהם מתבסס המודל שלנו, הינם מודלים שביצענו fine tuning כדי לשפר את תוצאותיהם). במהלך ביצוע המחקר, מימשנו מדדים שבאים לבצע הערכה המודדת את טיב החיזוי תוך בדיקה על אחוז הסתרה שונה בטקסט. המודל מתממש כחלק ממערכת שפותחה. משתמש יכניס לתוך המערכת טקסט עם חלקים חסרים. עבור החלקים החסרים המערכת תחזיר מספר אפשרויות, בכל אפשרות יש הסתברות להשלמת החלק. כך אנו נעזור להיסטוריונים שמטרת מחקרם הוא לשחזר מגילות וכתבים עתיקים יהודים כמשימת חייהם.
תקציר באנגלית
In recent years we have witnessed an increase in ancient archaeological findings related to the Jewish nation. These findings are important for strengthening the identity, connection to culture, and history of the Jewish people Among these findings, a lot of the writings have been torn/faded over the years The model we are developing in our project aims to solve a masked language modeling (MLM) problem - completing missing (masked) sections in text. There may be several options for a missing section: missing words, a single word missing, a single letter missing or partial word After reviewing a number of articles in the field and investigating the advantages and disadvantages of each model , we reached several conclusions The disadvantage of these models is that most of them are good at predicting in the English language and other languages they have been trained on (for example: Greek), but are not good at predicting in the Hebrew language. There are models that predict whole missing words very well but predict worse for partial words that are missing, and vice versa. Therefore, we developed an ensemble model trained using the Bible that takes the advantage of a model that knows how to predict whole missing words well and an advantage of a model that predicts partial missing words well. (The models on which our model is based, are models that we performed fine tuning on to improve their predictions). During the research, we implemented metrics to evaluate and measure the quality of the prediction while checking for a different percentage of masked parts in text. The model is a part of a system. A user will enter text with missing parts into the system. For the missing parts, the system will return several options, each option has a probability of completing the hidden part. This is how we will help historians whose goal is to restore ancient Jewish scrolls and writing as their life mission.