פרופ' מיכל ליניאל מזהה רצפי חלבונים מפתיעים וחריגים בשיטות של בינה מלאכותית

הבנה עמוקה של תהליכים ביולוגיים וההתקדמויות המהירות ברפואה המודרנית מבוססות במידה רבה על זיהוי הגנים המעורבים והחלבונים אותם הם מקודדים. עד לפני שני עשורים ניתן היה לפצח את התפקיד והמבנה של חלבונים במאמץ ממוקד של מומחים, אך הדבר הפך לבלתי אפשרי נוכח היקפם של של מאגרי המידע, המכילים כיום מאות מיליוני רצפים של חלבונים.

כיצד בכל זאת נצליח לאתר בתוך ערימת השחת אותם רצפי חלבונים, שמספרים לנו סיפור חדשני ושונה ממה שכבר ידוע?

במחקר משותף של קבוצות המחקר של פרופ' מיכל ליניאל מן המכון למדעי החיים וד"ר ידיד חושן מביה"ס להנדסה ומדעי המחשב החלטנו להתמודד עם אתגר זה באמצעות שיטות זיהוי של ״חריגות״ (anomaly detection), המתמחות בחילוץ אוטומטי של מאפיינים בלתי צפויים באוספי נתונים ענקיים.

גייסנו את גישת זיהוי החריגות העדכנית ביותר, כדי לאפיין חלבונים ״מפתיעים״. הרעיון היה לייצר ייצוג משמעותי ללא תיוג מוקדם של כלל רצפי החלבונים המוכרים כיום, ולהפעיל עליהם שיטות למידה עמוקה באמצעות בינה מלאכותית (AI). אנו משתמשים ברעיון הפשוט לפיו חלבון מדמה משפט מורכב ״בשפת החלבונים״. בדומה להבנה של שפה טבעית, בה אנו מזהים בקלות אנומליה, גם שפת החלבונים מאפשרת לנו לחשב את עוצמת החריגה ומיקומה.

בעזרת שיטות אלה איתרנו מגוון ממצאים מעניינים וחשובים:

  • אפיינו עשרות חלבונים חדשים שנושאים את התכונה של פריונים. חלבונים אלה הם בעלי יכולת ״חריגה״ לשנות בקלות את המבנה המרחבי שלהם, שינוי שעשוי להוביל למחלות ניווניות (כגון הפריון שגורם למחלת "הפרה המשוגעת").  
  • הצלחנו להפריד באופן כמעט מלא חלבונים ויראליים מתוך כלל חלבוני המארח.
  • זיהינו רצפי חלבונים ואנזימים הדורשים קישור ליונים או מתכת, אך מבוססים על פתרונות לא-קלאסיים.
  • פרקנו את  כלל רצפי החלבונים למקטעים מקופלים ולאזורים בלתי מקופלים.

בעבודה זו הראינו כיצד שיטות של חיפוש ״הפתעות״ ע"י שימוש בכוחה הרב של הבינה המלאכותית בשילוב עקרונות שפה טבעית מאפשרים למצוא לא רק מחט (אחת) בערימת השחת, אלא לאתר וללמוד על מאות ואלפי פתרונות מקוריים בעולם החלבונים, שנוצרו במהלך האבולוציה.

קיראו את המאמר - https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10939404/

 

 

אילוסטרציה