חדשות

ChatGPT עקף את המתמחים הישראלים בבחינות ההתמחות

במחקר השוואתי שנערך בהנחייתו של פרופ' עידו וולף מ"איכילוב" נמצא: ChatGPT גירסה 4 הצליח לעמוד בבחינות שלב א' במקצועות פנימית, כירורגיה ופסיכיאטריה טוב יותר מהמתמחים הישראלים

בחינה (אילוסטרציה)
בחינות רופאים (אילוסטרציה)

צ'אט GPT משמש כיום בתחום הרפואה במגוון יישומים, כגון התראות על אירועים רפואיים, כימות דם ואבחונים, וגם לקבלת מענה מיידי לשאלות רפואיות. לפני כשנה, עם הופעתו של הצ'אטבוט המבוסס על בינה מלאכותית, העלה ד"ר אוריאל כץ, סטאז'ר בבית החולים וולפסון, רעיון לבדוק את יכולות צ'אט GPT במענה על שאלות רפואיות. באותה תקופה, כאמור, היה עניין רב בנושא הצ'אט ויכולותיו.

יחד עם חברו ללימודי הרפואה בחו"ל, ד״ר ערן כהן, מתמחה בפסיכיאטריה במרכז הרפואי לבריאות הנפש לב השרון, החליטו השניים למצוא מאגר שאלות על מנת לבחון את הצ'אט. לאחר חיפושים נרחבים הם החליטו לתרגם את המבחנים המסמיכים לקבלת תואר מומחה במקצועות הרפואה בישראל. הם תרגמו מקבץ שאלות קטן ואתגרו את הצ'אט. שעות ספורות לאחר מכן, ד״ר כץ התקשר לד"ר כהן והודיע לו: ״יש מצב שהוא עובר את בחינות ההתמחות".

השניים תרגמו עוד ועוד מבחנים והבינו שיכולות הצ'אט אכן מרשימות. עם התוצאות הגיעה ההבנה שאין להם את הכלים להביא את המידע לעולם המחקר, הם פנו לחברים וקולגות על מנת להבין מהו השלב הבא וקיבלו המלצה לפנות לפרופ' עידו וולף, מנהל המערך האונקולוגי ב"איכילוב", ראש בית הספר לרפואה בפקולטה לרפואה באוניברסיטת תל אביב, שהסכים מיד לחנוך אותם והמחקר יצא לדרך.

החוקרים ד"ר ערן כהן וד"ר אוריאל כץ. אתגרו את הצ'אטבוט. צילום: דוברות "איכילוב"

בעזרתו של פרופ' וולף בוצעה פנייה להסתדרות הרפואית על מנת שיוכלו להשוות את תוצאות הבחינות של צ'אט GPT לתוצאות הבחינות של המתמחים בשנת 2022. בהר״י נענו לפנייה. כך נוצר מחקר השוואתי, בין בינה מלאכותית למתמחים ברפואה.

התוצאות היו מפתיעות: צ'אט GPT גירסה 4 הצליח לעמוד בבחינות שלב א' במקצועות פנימית, כירורגיה ופסיכיאטריה טוב יותר מהמתמחים הישראלים, ולמעשה סטיית התקן בתוצאות של הצ'אט נמוכה משמעותית מזו של המתמחים. בגינקולוגיה וברפואת ילדים, לעומת זאת, המתמחים השיגו תוצאה טובה יותר משל הצ’אט, אולם בפער קטן.

במחקר נבחנו תוצאות הבחינות של המתמחים ושל צ'אט GPT בגירסתו הישנה יותר - 3.5 ובגירסתו החדשה 4, שיצאה כשנה לאחר מכן. כל צ'אט עבר את המבחן 120 פעם על מנת לאמוד את יכולותיו בעקביות. המקצועות שנבדקו היו: ילדים, כירורגיה כללית, גינקולוגיה, פסיכיאטריה ורפואה פנימית.

גרף מתוך המחקר שהתפרסם ב-NEJM

ניתן לראות בגרף כי שיפור היכולות בין גירסה 3.5 ל-4 מדגים את הקפיצה המהירה וקצב התפתחות ה-AI בטווח זמן של כשנה. מדובר בנתוני אמת ממבחני הרישוי, כאשר כל מתמחה נבחן רק בתחום התמחותו, ואילו הצ'אט נבחן בכל התחומים וצלח את הבחינות, כאשר במקצוע רפואה פנימית ופסיכיאטריה הצ'אט הצליח טוב יותר מרוב המתמחים.

לשאלה מי הצליח טוב יותר, יש כמה תשובות: צ'אט 4 כמעט ולא נכשל - הקו האדום מסמן ציון עובר, לעומת שיעורי כישלון של 25% בקרב המתמחים בהתמחויות השונות. עם זאת, ממוצע הציונים בין הצ'אט למתמחים כמעט זהה, כאשר הצ'אט עקבי ומראה ביצועים יציבים והמתמחים נעים בין ציון 30 ל-85.

המחקר הישראלי הוגש ל-New England Journal of Medicine AI והוא הובא השבוע לפרסום. כזכור, היכולת המדהימה של צ'אטבוטים לענות על שאלות רפואיות אינה חדשה. חוקרים מארה"ב בדקו אשתקד את הביצועים של צ'אט GPT בבחינת הרישוי הרפואי של ארה"ב ומצאו שהצ'אט הגיע לסף העובר בכל שלושת מרכיבי הבחינה, בלי כל הכשרה מוקדמת או תגבור מיוחד. ממצאי המחקר התפרסמו באתר medrivx.

נושאים קשורים:  ChatGPT,  פרופ' עידו וולף,  בחינות התמחות,  מחקרים,  בינה מלאכותית,  מתמחים,  ד"ר אוריאל כץ,  ד"ר ערן כהן,  חדשות
תגובות
אנונימי/ת
17.04.2024, 18:49

מאמר שהפך לא רלוונטי ברגע שנכתב ובטח כשפורסם.
השינויים כל כך מהירים שמהר מאוד הצ'אט יעקוף את כל התשובות האנושיות ולא רק בשאלות סגורות

מובן שלמחשב כל האינפורמציה ולא בהכרח ככה לנבחנים. הגרסה כל פעם משפרת החיפוש ושימוש של האינפורמציה זה הכל

17.04.2024, 21:50

הצעד הבא של הגאונים מוולפסון יהיה לתת ל- ChatGPT לטפל בחולים שלהם וללכת לבלות לים.
ד.א. מגנוס קרלסון עדיין מנצח את כל המחשבים שתוכנתו לשחק שחמט.
https://www.youtube.com/watch?v=uHrcpdvWAUE

אנונימי/ת
18.04.2024, 07:06

מדוע כלל עלה צורך להשוות מענה אנושי עם מחשב? מה הלאה? מטופל במצב פסיכוטי או דיכאוני מג'ורי ישב מול מחשב ויקבל אבחנה והמלצות לטיפול?? איזו מחשבה לא רלוונטית.. אם היו מעריכים את רופאים רק לפי הידע. האומנות היא להיות גם בן אדם כדי שמטופל ירגיש שלמישהו אכפת ממנו ובאמת רוצים לעזור לו. וכן, רופא צריך לדעת לפנות למקורות מידע וכך גם לומד.

אנונימי/ת
18.04.2024, 07:07

שלב א דורש ידע תיאורטי
מתמחה שלומד בע"פ את ספר הלימוד יכול לעבור בהצלחה את בחינת שלב א , בניגוד לשלב ב.
אין פה אינטיליגנציה מלאכותית , יש פה בסה"כ איסוף נתונים

אני תוהה אם הסיפור הזה לא מעיד על חולשתה של הבחינה (שלב א'). נראה שהיא בודקת יותר את הזיכרון וכושר השינון של הנבחן (חידון טריוויה...) ולא את היכולות הקוגניטיביות החשובות באמת, כמו יכולת לנתח סיטואציות מורכבות, הסקת מסקנות במצבי חוסר וודאות וכו'.

18.04.2024, 11:31

האם גם המתמחים הנבחנים יכלו להיבחן עם מחשב פתוח ?

אנונימי/ת
18.04.2024, 11:57

לא ברור לי מדוע יש כאן אנשים שנעלבים מהעניין.
בינה מלאכותית עדיין לא יכולה להחליף רופאים אבל אין סיבה שזה לא יקרה בעתיד לפחות בחלק מהתחומים. למשך פענוח בדיקות דימות