נושא הפרוייקט
מספר פרוייקט
מחלקה
שמות סטודנטים
אימייל
שמות מנחים
חיזוי ביטוי גנים על סמך רצפי פרומוטר על-ידי טכניקות למידת מכונה
Predicting gene expression based on promoter sequences using machine-learning techniques
תקציר בעיברית
כל היצורים החיים בכדור הארץ הם בעלי קוד גנטי בו קיימות כל התכונות אשר מקודדות בחומר גנטי הנקרא ד.נ.א אשר מורכב מארבע אבני בניין בסיסיות A, G, C, T. מטרתו של פרויקט זה היא להשוות בין מודלים וטכניקות שונות של למידה עמוקה על מנת לחזות את רמת ביטוי הגן על ידי רצף פרומוטר. המודלים בהם השתמשתי במהלך הפרויקט כוללים רשת קונבולוציה, טרנספורמר ושילוב של טרנספורמר ורשת קונבולוציה. בנוסף השתמשתי בטכניקה של העברת למידה לכל המודלים כאשר העברת הלמידה התבצעה על ידי אימון המודלים תחילה אימון על סט נתונים גדול בעל מדידה בדיוק נמוך ולאחר מכן אימון על סט נתונים קטן יותר בעל מדידה בדיוק גבוה. המסקנה העיקרית מפרויקט זה היא שמודל רשת הקונבולוציה אשר אומן בטכניקת העברת למידה הגיע לביצועים הטובים ביותר. למרות הדיוק הנמוך במדידות, סט הנתונים הגדול מכיל מידע בעל משמעות אשר ממנו יכולים המודלים ללמוד. בניגוד לכך הסקתי כי הטרנספורמר שאומן מראש לא משיג תוצאות מבטיחות מה שמעיד על כך שהוא אומן על סט נתונים שאינו מכיל מידע אשר רלוונטי לסט הנתונים שבו התמקדנו בפרויקט זה.
תקציר באנגלית
Every living organism on this planet contains a genetic code that holds all its properties encoded in pieces of genetic material called DNA. DNA comprises of 4 building blocks A, G, C, T. This research project aims to compare different deep learning models and techniques for predicting gene expression levels using promoter sequences. The models considered include Convolutional Neural Network (CNN), Transformer, and a fusion of CNN and Transformer. Transfer learning is applied to all models using a large dataset with low precision labels and a smaller dataset with high precision measurements. The main conclusion of the project is that the convolutional model trained with transfer learning demonstrates the best performance. Despite the low precision measurements in the large dataset, it contains valuable information that contributes to accurate gene expression prediction. However, the pretrained Transformer model does not show promising results, indicating a lack of information telated to the data set used in this project.