נושא הפרוייקט
מספר פרוייקט
מחלקה
שמות סטודנטים
אימייל
שמות מנחים
WOOD - הוכחת שימוש בנתונים ע''י ניתוח התפלגות
WOOD - Data Watermarking via OOD Detection
תקציר בעיברית
הוכחת בעלות על נתונים הופכת לדרישה חשובה בתחום למידת מכונה, במיוחד כאשר הנתונים יכולים להגיע מארגונים שונים עם דרישות פרטיות וסודיות שונות. מחקר זה נועד להתמודד עם האתגר של הוכחת מקור הנתונים המשמשים לאימון מודלים של למידת מכונה. באופן ספציפי, בסיפור המעשה שלנו, בעל נתונים רוצה לוודא שמודל נתון, שסופק על ידי גורם צד שלישי, אומן אך ורק על הנתונים שלו/ה; כלומר, לא נוספו נתונים נוספים לסט האימון של המודל. אנו מניחים שבעל הנתונים רק יכול לתשאל את המודל. ישנן שיטות קיימות שמטרתן לאמת את קיומם של רשומות ספציפיות בסט האימון של מודל מסוים, בעוד שהן אינן יכולות לספק אינדיקציה לגבי רשומות שנוספו ללא אישור לסט האימון. כדי לגשר על הפער הזה, אנו מציעים את WOOD – Data Watermarking via Out-Of-Distribution Detector . שיטה חדשנית המאמתת ביעילות את מקור סט האימון. השיטה שאנו מציעים מורכבת משלושה שלבים עיקריים: ראשית, בעל הנתונים מאמן גלאי שמסוגל לזהות את ההתפלגות של הנתונים שעליו הוא מאומן. לאחר מכן, בעל הנתונים מחלץ k אבות טיפוס מהמודל שנבדק (שסופק על ידי הצד השלישי). לבסוף, בעל הנתונים בודק את k אבות הטיפוס עם גלאי שאומן קודם לכן ומבצע ניתוח סטטיסטי על מנת לקבוע בהסתברות מסוימת אם המודל החשוד אומן על סט אימון שכולל מידע לא מאושר ממקורות אחרים מאלה שהוא נועד להיות. מחקר זה משמעותי שכן הוא מתייחס לסוגיה דחופה בתחום למידת מכונה ונותן מענה מעשי להתמודדות עם האתגרים של בעלות על נתונים וקניין רוחני עליהם.
תקציר באנגלית
Proving data ownership is becoming an important requirement in the field of machine learning, especially when the data can be originated from different organizations with different privacy and confidentiality requirements. This research aims to address the challenge of proving the origin of data used for training machine learning (ML) models. Specifically, in our use-case, a data owner wants to verify that a given ML model, provided by a third-party entity, was trained only on his/her data; i.e., no additional data was added to the model's training set. We assume that the data owner can only query the model. Existing related techniques aim at verifying the existence of specific instances in the training set (known as membership inference attack), while they cannot provide an indication of unapproved data that was added to the provided training dataset. To bridge this gap, we propose WOOD -- Data Watermarking via Out-Of-Distribution (OOD) detection -- a novel technique that effectively verifies the source of training data, offering greater transparency and accountability in ML processes. WOOD is constituted of three main stages: First, the data owner trains a close OOD detector. Next, the data owner extract k prototypes from the tested model (provided by the third-party). Finally, the data owner checks the k prototypes with the OOD detector and conduct statistical analysis in order to determine within a certain probability if the suspicious model was trained on other datasets than those it was intended to be. This research is significant as it addresses a pressing issue in the field of machine learning and provides a practical solution for addressing the challenges of data ownership and intellectual property over it.