נושא הפרוייקט
מספר פרוייקט
מחלקה
שמות סטודנטים
אימייל
שמות מנחים
זיהוי אירוניה בתגובות
Irony Detection
תקציר בעיברית
תחום עיבוד השפה הטבעית (NLP) התפתח לאחרונה, והוביל לפריצות דרך משמעותיות. האפקטיביות של העבודה עם טקסט גדלה, ותכונות חדשות כמו השלמה אוטומטית מתאפשרות בזכות היכולת לחלץ משמעויות אוטומטית מכמויות אדירות של טקסט, ללא התערבות אנושית. משימות פופולריות נעות בין ניתוח סמנטי של משפטים וזיהוי חלקי דיבור לזיהוי נושאים ותרגום. למרות התקדמות מרשימה, משימות רבות עם שפות עשירות מבחינה מורפולוגית אינן פתורות מכיוון שהן מורכבות יותר לעיבוד, כאשר זיהוי של סרקזם ואירוניה הם אחד המכשולים העיקריים לניתוח סנטימנטים ומשימות NLP אחרות. יתרה מכך, לא נערכו הרבה מחקרים על השפה העברית, בעיקר מפני שקהל היעד מצומצם מאוד וישנם פחות מאגרי נתונים. במחקר שלנו אנו עוסקים בשלוש משימות עיקריות: (1) יצירת פלטפורמה לתיוג פוסטים ותגובות בעברית שמקורם ברשת החברתית הפופולרית ביותר בישראל, פייסבוק. הפלטפורמה נגישה לקהל הרחב ומאפשרת תיוג לשוני מקיף. (2) יצירת מסד נתונים ייחודי המשלב נתונים מתויגים ונתונים גולמיים של פלטפורמת התיוג. תחומים בלעדיים מתמקדים בסוגי ביטויים (התנצלויות, הבעת תודה וכד'), בשאלה האם הביטויים הם אירוניים, מה הוא סוג האירוניה ועוד. (3) שימוש במודלים מתקדמים של למידת מכונה כדי להעשיר את אוצר המילים שעשוי לרמוז על נוכחות של אירוניה במשפט ולזהות את התגובה כאירונית. כחלק ממשימה זו, נבצע מספר ניסויים במודלים שונים של שפה: AlephBERT ו-FastText.
תקציר באנגלית
The field of Natural language processing (NLP) has developed recently, leading to ground-breaking breakthroughs. The effectiveness of working with text has increased, and new features like auto-completion are made possible by the ability to automatically extract meanings from enormous amounts of text without human intervention. Popular tasks range from semantic analysis of sentences and identifying parts of speech to identifying topics and translation. Despite impressive advances, many tasks are unresolved with morphologically rich languages as they are more complex to process with the detection of sarcasm and irony being one of the primary hurdles for sentiment analysis and other NLP tasks. Moreover, not many studies have been conducted on the Hebrew language, primarily because the target audience is very limited and there are less datasets. In our research, we deal with three main tasks: (1) Creating a platform for labeling posts and comments in Hebrew that originate from the most popular social network in Israel, Facebook. The platform is accessible to the general public and allows comprehensive linguistic labeling. (2) Creating a unique database that combines labeled and raw data of the labeling platform. Exclusive fields focus on types of expressions (apologies, gratitude, etc.), whether the expressions are ironic, irony type and more. (3) The use of advanced machine learning models to enrich the vocabulary which might imply presence of irony in a sentence and to identify the comment as ironic. As part of this task, we will perform some experiments in different language models: AlephBERT and FastText.