נושא הפרוייקט
מספר פרוייקט
מחלקה
שמות סטודנטים
אימייל
שמות מנחים
למידת מכונה לחיזוי מטרות-חוץ של קריספר
Machine-learning for CRISPR off-target prediction
תקציר בעיברית
מודל חיזוי שגיאות בקריספר מערכת קריספר/קאס-9 נמצאת בשימוש נרחב של אפליקציות עריכה-גנטית. למרות שהעריכה הגנטית המתבצעת על ידי הקריספר מדויקת מאוד בעריכה באזורים הרצויים, ישנם גם תוצרי לוואי של עריכות לא רצויות באזורים שאינם רצויים. המון שיטות ניסיוניות פותחו לגילוי אזורי השגיאות, אך שיטות ניסיונות אלו יקרות לביצוע, עורכות זמן רב ומייצרות תוצאות רועשות שמתבטאות בתוצאות שגויות. כתוצאה, קיימים מגוון רחב של שיטות חישוביות שפותחו על מנת לחזות שגיאות אלו בהינתן guide RNA וgenome לייחוס. המטרה של פרויקט המוצע היא לשפר את ביצועי המודל הקיים לחיזוי אזורי שגיאה אפשריים ולחזות את האזורים שעלולים להיערך באופן בלתי מכוון עקב שימוש בקריספר. ניסינו לשפר את הביצועים של המודל על ידי הוספת מידע כקלט למודל, כגון נוקלאוטידים לפני ואחרי הרצף ומידע אפיגנטי ספציפי לתא. אמנם זה הוביל לתוצאות משופרות, אבל גילינו שהתוצאות הטובות מושפעות מדליפת מידע בין האימון לטסט. כדי לטפל בבעית בריחת המידע בין האימון לטסט , המצאנו טכניקות לצמצום הדליפה על ידי חלוקה חכמה של הגיידים בין האימון לטסט. מילות מפתח: למידת מכונה, מיון, רגרסיה, אלגוריתם, למידה, חיזוי, קידוד.
תקציר באנגלית
Machine-learning for CRISPR off-target prediction CRISPR/Cas9 system is widely used in a broad range of gene-editing applications. While this gene-editing technique is quite accurate in the target region, there may be many unplanned off-target edited sites. Many experimental techniques were developed to detect off-target sites. However, these experimental techniques are expensive to apply, time-consuming, and produce noisy measurements that result in many false negatives. The goal of the proposed project is to improve the performance of an existing CRSIPR off-target site prediction model. We attempted to enhance the model's performance by adding information as input to the model such as flanking nucleotides before and after the off-target sequence and cell-specific epigenetic information. While this led to improved results, but we found out that the good results are affected by train-test leakage. we discovered that the positive results were influenced by train-test leakage in our dataset division. To address this issue, we devised techniques to mitigate the leakage by implementing intelligent dataset partitioning methods. Keywords: Machine Learning, Classification, Regression, Algorithm, Learning, Prediction, Encoding.