MEDİMAGAZİN - ChatGPT, bir komut istemine dayalı olarak insan benzeri yanıtlar oluşturmak için geniş eğitim verilerindeki kelimeler arasındaki kalıpları ve ilişkileri tanımak için derin bir öğrenme modeli kullanan bir yapay zeka (AI) sohbet botudur. Ancak eğitim verilerinde herhangi bir doğruluk kaynağı bulunmadığından, araç gerçekte yanlış olan yanıtlar üretebilir.
Toronto Genel Hastanesi'nde teknoloji lideri Dr. Rajesh Bhayana yapılan araştırmayla ilgili "ChatGPT gibi büyük dil modellerinin kullanımı hızla artıyor ve daha da artacak. Araştırmamız ChatGPT'nin radyoloji bağlamındaki performansı hakkında fikir veriyor ve büyük dil modellerinin inanılmaz potansiyelinin yanı sıra onu güvenilmez kılan mevcut sınırlamaları da vurguluyor." dedi.
Dr. Bhayana, ChatGPT'nin yakın zamanda tarihin en hızlı büyüyen tüketici uygulaması seçildiğini ve benzer sohbet robotlarının Google ve Bing gibi doktorların ve hastaların tıbbi bilgi aramak için kullandıkları popüler arama motorlarına dahil edildiğini belirtti.
150 soru soruldu
Radyoloji kurul sınavı soruları üzerindeki performansını değerlendirmek ve güçlü ve sınırlı yönlerini keşfetmek için Dr. Bhayana ve meslektaşları ChatGPT'yi ilk olarak şu anda en yaygın kullanılan versiyon olan GPT-3.5'i temel alarak test etti. Araştırmacılar, Kanada Kraliyet Koleji ve Amerikan Radyoloji Kurulu sınavlarının stiline, içeriğine ve zorluğuna uyacak şekilde tasarlanmış 150 çoktan seçmeli soru kullandılar.
Sorular görüntü içermiyordu ve performans hakkında fikir edinmek için soru türüne göre gruplandırıldı: alt düzey (bilgi hatırlama, temel anlama) ve üst düzey (uygulama, analiz, sentez) düşünme. Üst düzey düşünme soruları ayrıca türe göre (görüntüleme bulgularının tanımı, klinik yönetim, hesaplama ve sınıflandırma, hastalık ilişkileri) alt sınıflandırmaya tabi tutuldu.
ChatGPT'nin performansı genel olarak ve soru türüne ve konuya göre değerlendirildi. Yanıtlardaki dil güveni de değerlendirildi.
GPT-4 soruların yüzde 81'inin doğru bildi
Araştırmacılar, GPT-3.5 tabanlı ChatGPT'nin soruların %69'unu doğru yanıtladığını (150 sorudan 104'ü) ve bu oranın Kanada Kraliyet Koleji tarafından kullanılan %70'lik geçme notuna yakın olduğunu tespit edildi. Model, alt düzey düşünme gerektiren sorularda nispeten iyi performans gösterirken (%84, 61'de 51), üst düzey düşünme içeren sorularda zorlandı (%60, 89'da 53).
Daha spesifik olarak, görüntüleme bulgularının tanımlanmasını (%61, 46'da 28), hesaplama ve sınıflandırmayı (%25, 8'de 2) ve kavramların uygulanmasını (%30, 10'da 3) içeren üst düzey sorularda zorlandığı görüldü. Üst düzey düşünme sorularındaki düşük performansı, radyolojiye özgü ön eğitim eksikliği göz önüne alındığında şaşırtıcı değildi.
GPT-4, Mart 2023'te ücretli kullanıcılar için sınırlı bir şekilde piyasaya sürülmüş ve özellikle GPT-3.5'e göre gelişmiş ileri düzey muhakeme yeteneklerine sahip olduğu iddia edilmiştir.
Bir takip çalışmasında, GPT-4 aynı soruların %81'ini (150 sorudan 121'i) doğru yanıtlayarak GPT-3.5'ten daha iyi performans göstermiş ve %70'lik geçme eşiğini aşmıştır. GPT-4, özellikle görüntüleme bulgularının tanımlanması (%85) ve kavramların uygulanmasını (%90) içeren üst düzey düşünme sorularında (%81) GPT-3.5'ten çok daha iyi performans göstermiştir.
Bulgular, GPT-4'ün iddia edilen gelişmiş ileri düzey muhakeme yeteneklerinin radyoloji bağlamında gelişmiş performansa dönüştüğünü göstermektedir. Ayrıca, görüntüleme açıklamaları da dahil olmak üzere radyolojiye özgü terminolojinin bağlamsal olarak daha iyi anlaşıldığını göstermektedir ki bu da gelecekteki sonraki uygulamaları mümkün kılmak için kritik öneme sahiptir.