נושא הפרוייקט
מספר פרוייקט
מחלקה
שמות סטודנטים
אימייל
שמות מנחים
שינוי קונספט בזרמי שפה
Concept Drift in Language Streams
תקציר בעיברית
השפה הינה ישות 'חיה'. כתוצאה מכך, באופן תמידי היא נתונה לשינויים, מתפתחת ועוברת אבולוציה סמנטית ופרגמטית. שינויים אלו מציבים אתגר בפני חוקרי רשתות חברתיות וחוקרי מדעי החברה החישוביים, שכן מודלי הסיווג שלהם סטטיים, בעוד השפה היא דינמית. בעקבות כך, נוצרים מודלים מיושנים שאין ביכולתם לעמוד בקצב השינויים בשפה, ולכן איכותם יורדת עם הזמן. תופעה זו ידועה בשם Concept Drift, והיא מתייחסת לשינויים בהתפלגות הנתונים (תכונות ומשתני יעד) לאורך זמן. דוגמה לכך היא התפרצות מגפת הקורונה בשנת 2019, אשר הובילה לשינויים בהתנהגות ובשפה בקרב אוכלוסיית העולם, במיוחד בקרב משתמשי רשתות חברתיות. שינוי זה מוביל למצב שבו מודל אשר היה יעיל לפני המגפה אינו מתאים יותר עקב הבדלי התפלגויות בין הדאטה שהמודל למד למצב 'בשטח'. עדכון מודל שפה הינו תהליך יקר הגוזל זמן רב. תיוג כל הדאטה החדש ואימון המודל מחדש דורשים משאבים מרובים, וביניהם זמן, עבודה ותקציבים. זוהי משימה מאתגרת שאיננו יודעים עד כמה היא אופטימלית, שכן אין הוכחות שזוהי הדרך הנכונה לפתור את הבעיה. מציאת דרכים לייעל ולהוזיל את תהליכי התיוג וההכשרה מחדש היא חיונית כדי להבטיח שימוש יעיל במשאבים. הפרויקט שלנו שואף לטפל בבעיה זו על ידי הצעת פתרון של למידה אקטיבית (AL) להפחתת עלויות אימון המודל מחדש ולהקטנת הצורך בתיוג נתונים מסיבי. נתמקד במודלים של שפה עמוקה – בייחוד ב-BERT – ובנתונים שבהם מתרחשת תופעת ה-Concept Drift.
תקציר באנגלית
Language is a 'living' entity. Consequently, it is constantly subject to change and evolution. This change poses a challenge for social networks and computational social science researchers, as the classification models they build are static, while language is dynamic. This results in outdated models that cannot keep pace with language and subject changes; Therefore, the model quality declines. This phenomenon is known as Concept Drift, which refers to the changes in data distribution (features and target variable) over time. For instance, the Corona epidemic outbreak in 2019 led to changes in behavior and language among people, particularly among social network users. This change results in a situation where a stationary model that was effective at a certain point is no longer suitable due to differences in data distribution. Updating such a model is expensive and time-consuming; Tagging all the new data and retraining the model requires excessive resources, such as time, labor, and funds. It's a time, money-consuming, and challenging task that we don't know how optimal it is. Finding ways to streamline and optimize the tagging and retraining processes is crucial to ensure that resources are used effectively. Our project aims to address this problem by proposing an active learning solution to reduce retraining costs and decrease the need for massive data labeling. We will focus on deep language models, specifically BERT, and on data where concept drift occurs.