Can we trust AI chatbots’ answers about disease diagnosis and patient care?

Sun Huh

doi:10.5124/jkma.2023.66.4.218

Abstract

Background: Several chatbots that utilize large language models now exist. As a particularly well-known example, ChatGPT employs an autoregressive modeling process to generate responses, predicting the next word based on previously derived words. Consequently, instead of deducing a correct answer, it arranges the most frequently appearing words in the learned data in order. Optimized for interactivity and content generation, it presents a smooth and plausible context, regardless of whether the content it presents is true. This report aimed to examine the reliability of ChatGPT, an artificial intelligence (AI) chatbot, in diagnosing diseases and treating patients, how to interpret its responses, and directions for future development.
Current Concepts: Ten published case reports from Korea were analyzed to evaluate the efficacy of ChatGPT, which was asked to describe the correct diagnosis and treatment. ChatGPT answered 4 cases correctly after being provided with the patient’s symptoms, findings, and medical history. The accuracy rate increased to 7 out of 10 after adding laboratory, pathological, and radiological results. In one case, ChatGPT did not provide appropriate information about suitable treatment, and its response contained inappropriate content in 4 cases. In contrast, ChatGPT recommended appropriate measures in 4 cases.
Discussion and Conclusion: ChatGPT’s responses to the 10 case reports could have been better. To utilize ChatGPT efficiently and appropriately, users should possess sufficient knowledge and skills to determine the validity of its responses. AI chatbots based on large language models will progress significantly, but physicians must be vigilant in using these tools in practice.

Key Words: Artificial intelligence; Language; Physicians; Republic of Korea

찾아보기말: 인공지능; 언어; 의사; 대한민국

서론

2022년 11월 30일 OpenAI사에서 GPT-3.5를 기반으로 한 ChatGPT를 출시한 뒤[1], 많은 사람들이 이 대형언어모형(large language model) 인공지능 플랫폼(artificial intelligence [AI] platform)을 사용하기 시작하였다. 특히 가장 관심을 가진 분야는 교육 현장으로 학생들이 essay를 제출할 때, ChatGPT를 활용하였다. 그리고, program coding 분야에서도 획기적인 도구로 사용하였다. 의사나 환자, 보호자가 ChatGPT를 활용할 것을 짐작하는 것은 전혀 어려운 일이 아니다.

ChatGPT는 인공지능 챗봇(AI chatbot)의 하나이다. 대형언어모형을 적용한 인공지능 챗봇에는 다양한 종류가 있다. 이 중에서 ChatGPT는 자동 회귀 모델링(autoregressive modeling)이라는 프로세스를 사용하여 응답을 생성한다. 이 모델은 이전에 나온 단어를 기반으로 다음 단어를 예측한다. 그러므로 정답을 유추하는 것이 아니라, 학습한 데이터에서 가장 적절한 단어를 순서대로 배열한다. 그러므로 대화형에 최적화되어 있고, 내용을 생성하는 데 유리하다. 또한 문맥은 사실 여부와 상관없이 매끈하고 그럴 듯하다.

이 논문에서는 인공지능 챗봇이 질병 진단 및 환자 치료에 대한 답을 할 때 얼마나 신뢰할 수 있는지, 또한 어떻게 해석하여야 하는지, 앞으로 어떤 방향으로 발전할지를 논의해 보고자 한다.

인공지능 챗봇의 질병 진단 및 환자 치료에 대한 답변은 신뢰할 수 있는가?

ChatGPT에 문의하여 본 결과, 다음과 같이 요약하였다(Suppl. 1).

“인공지능 챗봇은 도움이 되는 정보와 통찰력을 제공할 수 있지만 전문적인 의학적 조언이나 진단을 대체할 수는 없다. 전문가를 대체하는 것이 아닌 전문가 의료 자문과 함께 사용하는 것이 중요하다.”

당연한 답이기는 하지만 그렇다면 어느 정도 수준에서 ChatGPT는 의료 지식을 제공할 수 있을까?

ChatGPT의 의학 지식에 대한 답은 어느 수준인가?

PubMed (https://pubmed.ncbi.nlm.nih.gov/)에서 ChatGPT를 검색하여 그 가운데 의료 지식을 점검한 논문 내용은 다음과 같다.

한림대학교 의과대학 학생과 같은 기생충학 시험 문항으로 점검한 결과, ChatGPT는 79문항 중 48문항(60.8%)에 적절한 답을 하였고, 의대생 77명은 평균 71.8문항(90.8%)에 적절한 답을 하였다. 또한 정답인 48문항 중 7문항은 설명에 수정이 필요하였다[2]. United States Medical Licensing Examination (USMLE) 300문항을 ChatGPT가 시험을 치르도록 하였을 때 합격선 60%에 다다랐다[3]. 미국의 33명 의사가 출제한 284문항의 질문을 ChatGPT가 답을 하였을 때, 정확도는 1-6점 Likert scale에서 평균 4.8, 완결성은 1-3 scale에서 평균 2.5였다[4]. 미국 내과 전문의가 제작한 흔한 증상으로 구성한 10개 증례보고에서 ChatGPT가 제시한 감별진단명 목록의 정확도를 점검한 결과, 두 명의 의사가 제안한 감별진단 목록 정확도는 98.3%인데 반하여 ChatGPT는 83.3%였다(P=0.03) [5].

실제 증례에서 진단 내릴 수 있을까?

그렇다면 실제 임상 현장에서 증례를 ChatGPT는 얼마나 정확하게 진단 내릴 수 있는지 알아보았다. 2023년도 PubMed에서 저자 소속에 Korea, 제목에 case report로 검색하여 124편의 논문을 찾았다. 이 중에 무작위로 10편을 선별하였다(Suppl. 2). ChatGPT에 10편을 우선 증상과 임상 소견만으로 감별진단명을 나열하도록 하고, 이후 진단 검사 결과를 추가하여 감별진단을 내리도록 하였다. 이후 증례보고에 나와 있는 진단명에 따른 치료 방법을 나열하도록 하여, 증례보고에 기술한 내용과 일치도를 점검하였다(Suppl. 3). 일치도는 감별진단 목록에 정확한 진단명이 포함되어 있으면 1, 없으면 0으로 판정하고, 치료 방법은 모든 내용이 적절하면 2, 적절한 내용이 포함되어 있지만 일부라도 해당하지 않는 내용이 있으면 1, 모든 제시한 치료 방법이 적절치 않으면 0으로 판정하였다. 증례보고에 나와 있는 정보를 바탕으로 판정하였다.

ChatGPT가 환자의 증상, 소견, 과거력만으로는 10예 중 4예에서만 감별진단에 제시한 증례 진단명이 포함되어 있다가, 여러 진단 검사 후 7예에서 진단명을 제시하고 있음을 알 수 있다. 3예에서는 검사 결과를 제공하여도 정확하게 진단명을 제시하지 못함을 알 수 있다. 또한 논문에 치료 방법을 기술한 9예에서 ChatGPT는 1예는 제대로 알려주지 못하였고, 4예에서는 적절치 못한 내용이 포함되어 있고, 4예에서만 적절한 방안을 제시하였다(Table 1).

이 10개 증례에 대한 ChatGPT의 답은 앞에 언급한 미국의 33명 의사가 출제한 284문항, 내과 전문의가 제작한 흔한 증상으로 구성한 10개 증례보고에서와 차이가 나게 낮은 수준이다. 그 이유는 이번 10개 증례가 흔히 볼 수 있는 예가 아니고 또한 현재 ChatGPT 3.5 version은 2021년도까지 자료를 가지고 훈련시킨 것이므로 최신 정보에 대한 훈련이 부족한 때문으로 추정한다. ChatGPT는 자연처 처리 중 대형언어모형을 적용한 것이다. 또한 별도의 플랫폼이 필요하거나 소스 코드로 제작하여야 하는 것이 아닌 Application Programming Interface (API)를 제공하여 사용자 환경에서 쉽게 사용할 수 있다. 과거에 나온 어떤 자연어처리 플랫폼 챗봇에 비하여 매우 정확하게 유용한 답을 제공하고, 문장의 맥락을 갖추고 있어 많은 사람들에게 각광을 받고 업무에 활용하고 있다. 의료 현장에서 특히 전문가인 의사는 해당하는 답이 어느 정도 수준으로 정확한지 감별할 수 있으나 비전문가인 경우, 이 답을 그대로 받아들이면 매우 위험할 수 있다. 그러므로 챗봇은 늘 전문가에게 자문을 구하라고 답 마지막 부분에 추가한다. 더구나 이 글에서 증례보고는 모두 영문 논문이고 영문으로 질문과 답을 주고받은 것이라서 조금 낫지만, 만약 국문으로 질의 응답하였다면 그 수준은 더 낮아질 수 있다. 왜냐하면 ChatGPT가 익힌 국문 문서에 대한 훈련 양은 영문 문서보다 훨씬 적기 때문이다.

우리 의사는 왜 챗봇을 사용할까?

비록 특수한 분야 증례에 대한 답은 만족스럽지 못하지만 일반적인 흔한 증상에 대한 답은 상당히 높은 수준이다. 감별진단은 자신이 흔히 다루는 특정 증상에서는 늘 염두에 두는 내용이지만, 조금 벗어나는 증상이거나 흔히 보지 못하는 증상을 호소하면 감별진단명에서 도움을 받을 수 있다. 물론 환자 대면 진료 현장에서 바로 챗봇을 사용하는 것은 워낙 짧은 시간 안에 진료를 마쳐야 하는 현실에서 쉽지 않다. 그러나, 비대면 진료 현장에서는 충분히 활용 가능할 것이고, 또는 진료 이후 환자에 추적 진료를 위하여 점검하는 데 사용할 수 있을 것이다. 또한 단순히 진료 현장에서 사용하는 데서 나아가, 발표 원고 작성, 교재 제작, 논문 작성, 번역, 영문 교열, 말 바꾸어쓰기(paraphrasing), 요약 등 진료 업무 이외 연구와 교육 현장에서 손쉽게 사용하여 시간을 아낄 수 있다[6]. 용어를 정의 내리고 과거 지식을 요약하여 제공하는 작업은 탁월하다. 논문 작성에서 활용할 때 한계라면, ChatGPT는 정보 원천(source)을 제공하지 않는다는 점으로 표절 시비에 휘말릴 수 있지만, 놀랍게도 기존에 나와 있는 Similarity Check이나 Turnitin 등의 표절 점검 프로그램에서는 중복으로 나오지 않는다. 인공지능 챗봇 가운데 정보 원천을 제공하는 챗봇으로 Elicit (https://elicit.org/)이 소개되었다. Elicit은 주로 가장 많은 인용을 받은 논문이나 자료를 바탕으로 하여 답을 작성하므로 최신 정보가 포함되지 않을 가능성이 높다. 또한 프로그래밍을 할 수 있다면 코딩 작업에 ChatGPT는 매우 유용하다. 코딩의 오류를 잡아 줄 수 있으며, 중급 프로그래머 수준 코딩도 가능하다. 이런 기능 역시 사용자가 코딩에 대한 일정 수준 이상의 역량을 갖추어야 효율 있게 활용 가능하다.

챗봇 사용할 때 환각현상

ChatGPT는 다음 단어를 적절히 예측하도록 훈련된 응답 시스템이므로 단어를 배열하는 능력이 뛰어나다. 그러나, 훈련된 자료가 잘못된 경우, 적절한 응답이 아니더라도 그럴 듯하게 문맥에 맞추어 응답한다. 이런 것을 환각현상(hallucination phenomena)이라고 한다. 인터넷에서 접근할 수 있는 모든 자료가 올바른 것일 수는 없다. 매우 많은 과학적이지 못한 정보가 산재한다. 그러므로 어떤 것을 선별하여 챗봇을 훈련시킬지가 플랫폼 개발에서 핵심 과제이다. 이런 선별 과정을 얼마나 자동화할 수 있느냐도 관건이다. 모든 선별을 수작업으로 하는 것은 불가능에 가깝다. 챗봇에서 환각현상을 피하고, 환각인지 파악할 수 있는 능력은 앞에서도 언급하였지만 해당 분야의 최고 수준 전문 지식과 수기를 갖추어야 가능하다.

챗봇 발전 방향

ChatGPT의 기반이 되었던 2022년 11월 30일 발표한 GPT-3.5는 매개변수(parameter)가 1천750억 개이나 GPT-4에서는 100조 개로 570배 증가할 것으로 예측하고 있다. 여기서 매개변수는 프로그램과 프로그램을 연결하는 변수를 말한다. 매개변수가 늘어남에 따라 응답 속도가 빨라지고 더 정밀한 응답이 가능하다. 또한 최신 자료를 훈련시켜 더욱 정밀한 응답이 가능하다면, 의료와 같은 전문 분야에서도 지금보다 더욱 뛰어난 응답을 할 수 있을 것으로 전망한다.

결론 및 제언

위와 같은 결과를 볼 때 ChatGPT가 임상에서 증례보고로 발표한 논문에 나온 증례에 감별진단명을 작성하는 것은 쉽지 않고, 치료 방법 제시도 완벽하지 않음을 알 수 있다. 이번에 활용한 증례는 우리가 흔히 보는 것이 아닌 매우 드문 경우이기에 흔히 볼 수 있는 증상을 진단하는 것과 차이가 있을 수 있다. ChatGPT는 매우 일반적인 지식을 제공하는 것은 가능하고, 질문의 맥락에 맞추어 답을 하지만, 그 답이 얼마나 신뢰할 수 있느냐는 오로지 전문가의 판단에 달려 있다. 즉, 인공지능 챗봇을 활용할 때 핵심은 사용자의 전문적인 지식이다. 어떤 답이 신뢰할만한지는 전문가만이 제대로 파악할 수 있기 때문이다. 진단보다는 치료 방법은 조금 더 나은 수준으로 제공한다. 치료 방법은 대개 안전하다고 이미 잘 알려진 것을 임상 현장에서 시행하므로 진단과는 다른 차원이다. 그러므로 비전문가가 인공지능 챗봇을 활용하여 답을 얻는 것은 비록 일부 제대로 답하는 내용이 있다고 하더라도 권장할 수 없다. 인공지능 챗봇의 답이 앞으로 더욱 많은 훈련 과정을 통하여 조금 더 수준이 올라갈 수 있을 것이다. 그러나, 이런 도구를 효율적으로 적절히 사용할 수 있는 전문가로서 충분한 지식과 술기를 갖추어야 답이 어느 수준에서 타당한지 판단할 수 있을 것이다.

앞으로 이 인공지능 챗봇이 점점 더 정교하고 신뢰할 수 있는 수준으로 발전하고 더 많은 우리말 정보로 훈련도 받을 것이다. 인공지능 챗봇이 어디까지 발전할지 주시하고 또한 우리 의사도 이런 작업에 전문가로서 적극 참여하여 더욱 유용한 챗봇 개발에 일익을 담당하기 바란다.

No.	Diagnosis of case report	ChatGPT
No.	Diagnosis of case report	DDx with symptoms, signs, and history	DDx after diagnostic approach	Treatment
1	Paraganglioma	0	0	1
2	Hypersensitivity reaction caused by sugammadex	0	1	1
3	Infantile steroid-resistant nephrotic syndrome	0	0	0
4	Hepatocellular carcinoma	0	1	1
5	Infected left atrial myxoma	1	1	2
6	Polyhydramnios associated with congenital bilateral vocal cord paralysis	0	0	1
7	Monochorea after acute contralateral pontine infarction	1	1	2
8	Osteoid osteoma	0	1	2
9	Corneal graft rejection after vaccination against COVID-19	1	1	N/A
10	Fournier gangrene	1	1	2
	Total	4	7	12

인공지능 챗봇의 질병 진단 및 환자 치료에 대한 답변은 신뢰할 수 있는가?