흉부 영상의학에서 인공지능의 현재와 미래: 폐질환 진단의 새로운 패러다임
Artificial intelligence in thoracic imaging—a new paradigm for diagnosing pulmonary diseases: a narrative review
Article information
Trans Abstract
Purpose
This review explores the current applications and future prospects of artificial intelligence (AI) in thoracic imaging, with a particular focus on chest radiography (chest X-ray, CXR) and computed tomography (CT).
Current Concepts
Recently developed CXR AI algorithms have improved the efficiency, accuracy, and consistency of radiologists' routine clinical workflows by assisting in the detection of a wide range of thoracic diseases on CXR. These AI systems demonstrate diagnostic performance comparable to that of radiology residents who have limited interpretive experience. Furthermore, generative CXR AI technologies are capable of not only automatically detecting abnormalities such as pulmonary nodules, pneumonia, pneumothorax, and tuberculosis, but also generating radiology reports. These advancements represent a paradigm-shifting innovation that may significantly alter the current landscape of CXR interpretation in thoracic radiology. Although performance varies depending on the specific algorithm and dataset, AI applied to low-dose chest CT has demonstrated diagnostic accuracy ranging from 0.81 to 0.98 for nodule detection and malignancy assessment, with sensitivity ranging from 0.88 to 0.99 and specificity from 0.82 to 0.93. Incorporating AI as a second reader in CT interpretation can reduce reading time by approximately 20%, while also improving sensitivity for pulmonary nodule detection by 5% to 20% and malignant nodule diagnosis by 3% to 15%.
Discussion and Conclusion
Both CXR AI and chest CT AI streamline image interpretation by assisting with simple and repetitive tasks. Simultaneously, they provide novel diagnostic insights that are expected to influence and potentially reshape the interpretative patterns of radiologists in the near future.
서론
인공지능(artificial intelligence, AI)은 인간과 유사한 지능을 가진 컴퓨터 시스템을 의미한다. 2006년에 딥러닝(deep learning)이 나온 후 10년 동안 컴퓨팅 파워의 향상, 다양한 알고리즘 개발, 빅데이터 활용 등의 발전으로 인해 AI 붐이 촉발되고 있다[1–3]. 최근에 의료 분야에서 AI 기술의 적용과 개발이 국제적으로 활발하게 이루어지고 있으며[4], 국내에서는 이미 AI가 임상 진료에서 영상 진단을 보조하는 역할을 하고 있다[5–7]. 그러나 아직까지 AI는 의사를 보조하는 시스템 정도의 역할만 가능하기 때문에 AI 역할의 한계를 충분히 이해하면서 최종적인 판단은 의사가 내려야 한다[2,3,6–9].
AI의 발전은 흉부 영상의학 분야에서 다양한 폐질환 진단의 패러다임을 변화시키고 있다[3,6,8]. 과거에 단순 흉부 X선 영상(chest radiography, CXR)이나 흉부 컴퓨터단층촬영(computed tomography, CT)의 영상 판독은 영상의학 전문의들의 오랜 경험과 직관에 크게 의존했지만, AI 기술이 도입되면서 영상의학과 전문의들이 CXR이나 흉부 CT에서 AI 영상 분석을 이용하는 새로운 패러다임의 형태로 폐질환 진단함으로써 폐질환 진단의 정확성과 판독의 효율성이 향상되고 있다[2,6,7]. 그 근본적인 이유로는 AI의 발전이 CXR이나 흉부 CT의 영상 판독에 도입되면서 영상의학 전문의들의 오랜 경험이나 직관과 더불어 인간의 눈으로는 식별할 수 없는 패턴을 인식하는 능력을 추가했기 때문이다. 흉부 분야에서 AI는 이미 임상에서 활용되고 있는데, CXR이나 흉부 CT에서 폐 결절 검출 보조[1,5,10,11], 폐 결절의 양성/악성 진단 지원[3,9,12], 폐기종이나 폐 섬유화가 폐에서 차지하고 있는 정도의 자동 정량화와 같은 영상 처리[13–15] 등에 적용되고 있다.
이 종설에서는 흉부 영상의학에서 AI의 현재 활용 현황과 미래 전망을 알아보고, CXR과 흉부 CT에서 폐질환 진단의 새로운 패러다임을 언급하고자 한다.
이 종설은 인간 대상 연구가 아닌 문헌 기반 연구이므로 기관윤리심의위원회(IRB)의 승인이나 연구 참여자의 동의는 필요하지 않다.
CXR에서 AI를 이용한 영상 진단의 현재와 미래
CXR은 폐암 검진이나 환자가 호흡기 증상이 있었을 때 기본적으로 폐질환 유무를 알기 위해 오랫동안 시행해 왔던 영상 진단 방법이고, 의사라면 누구나 기본적으로 CXR의 소견을 알고, 이를 이용해서 호흡기 질환의 진단에 활용한다[12,16]. 그러나 CXR은 흉부의 복잡한 구조물이 하나의 평면영상으로 나타나기 때문에 정확한 판독에 항상 어려움이 따른다. 특히, 조기 폐암을 진단하기 위한 CXR 진단 오류는 20–50%로 알려져 있으며, CXR에서 폐암을 놓칠 경우 진단이 지연될 수 있고, 이는 환자의 예후에 심각한 영향을 미친다[12,16,17]. CXR에서 폐암을 놓치는 요인은 판독자의 오류, 종양의 특성, 그리고 CXR 촬영의 기술적인 요인이 있다. 종양의 특성 즉 병변의 크기가 1 cm 미만의 경우 CXR에서 폐암을 놓치는 경우는 30% 정도이고, 이것은 판독자의 오류와 CXR 촬영 기술의 향상을 해야만 줄일 수 있다. CXR 촬영 기술은 디지털 촬영 기기의 발달과 더불어 많은 향상이 되어 왔지만 판독자의 오류는 여전히 25–40%까지 보고되며(Figure 1), 특히 전공의나 CXR 판독에 경험이 적은 의사의 경우 흉부 영상 전문의에 비해서 판독자의 오류가 더 증가한다[12,17]. CXR에서 폐암을 놓치는 요인 중 판독자의 오류를 줄이기 위해서는 흉부 영상 전문의만 CXR을 판독하거나 전공의나 CXR에 판독 경험이 적은 의사의 경우 경험이 쌓일 때까지 흉부 영상 전문의와 함께 이중 확인을 하는 방법이 유일하다. 그러나 이러한 방법은 비현실적이고 현재 우리나라에서는 실현 가능성이 전혀 없다.

Chest posteroanterior (PA) radiograph illustrating missed lung cancer. (A) The initial chest X-ray (CXR) was interpreted as normal by a radiologist. (B) Two years later, another radiologist interpreted the patient's CXR as revealing a mass in the right upper lung field (white arrow), noting an increase in size compared to the previous examination. (C) The patient underwent a chest computed tomography scan, confirming lung cancer in the right upper lobe (black arrow). The author provided the chest PA image after obtaining informed consent from the patient.
최근에 CXR에서 AI (Figures 2, 3)의 필요성이 요구되고, 현재 진단 보조 도구로 사용하고 있는 가장 큰 이유는 영상의학과 의사들의 업무 강도를 줄이고 동시에 CXR 판독의 오류를 감소시키고자 하는 데 있다[5,6,11,18]. AI 기술 중 컨볼루션 신경망(convolutional neural network, CNN)이 현재 CXR을 분석하는 데 널리 활용되는 딥러닝 기법이며, 다양한 연구와 임상 적용을 통해 그 효용성이 입증되었다. 그럼 현재 개발되어 있는 CXR AI의 판독 능력은 어느 정도일까? 물론 개발된 AI마다 CXR AI 판독 능력에 차이가 있겠지만, Wu 등[5]은 응급실 환자의 CXR anteroposterior (AP)로 훈련된 AI와 CXR 판독 경험이 있는 3명의 영상의학과 전공들의 CXR AP 판독 능력을 비교했을 때 AI의 민감도는 0.716 (95% 신뢰구간, 0.704–0.729)이었으며, 영상의학 전공의의 민감도는 0.720 (95% 신뢰구간, 0.709–0.732)으로 나타났지만, 통계적으로 유의하지 않았다(P=0.66). 반면, 양성 예측도(positive predictive value)는 AI에서 0.730 (95% 신뢰구간, 0.718–0.742), 영상의학 전공의는 0.682 (95% 신뢰구간, 0.670–0.694)로, AI가 유의하게 높았다(P<0.001). 특이도는 AI가 0.980 (95% 신뢰구간, 0.980–0.981), 영상의학 전공의가 0.973 (95% 신뢰구간, 0.971–0.974)으로 AI가 더 높았고, 통계적으로 유의했다(P<0.001). 결과적으로 응급 환자 CXR AP의 판독 능력은 AI가 영상의학 전공의보다 높다고 보고를 하였다.

Chest posteroanterior (PA) radiograph of lung cancer in the left lower lung field. (A) A large mass (black arrow) is present in the retrocardiac area of the left lower lung field on the chest X-ray (CXR). (B) The mass in the retrocardiac area of the left lower lung field is identified by the artificial intelligence-based computer-aided detection software, indicating an abnormality probability of 72%. (C) Chest computed tomography scan demonstrates an 8.5 cm solid nodule (black arrow) in the left lower lobe. The patient underwent a percutaneous needle biopsy, confirming adenocarcinoma. The author provided the chest PA image after obtaining informed consent from the patient.

Chest posteroanterior (PA) radiograph of lung cancer accompanied by interstitial lung disease in the right lower lung field. (A) The chest X-ray shows a solitary pulmonary nodule (black arrow) in the right lower lung field, along with increased opacity in the right upper lung field and both lower lung fields (black arrow). (B) The solitary pulmonary nodule (black arrow) in the right lower lung field is detected by artificial intelligence (AI)-based computer-aided detection (CAD) software, with an abnormality probability of 94%. Increased opacity (black arrow) in the right upper lung field is also detected by the AI-based CAD software (abnormality probability 60%). However, the AI-based CAD software fails to detect the increased opacity in the basal lower lung field. (C) A chest computed tomography scan reveals a 2.9 cm solid nodule (black arrow) in the right lower lobe. Percutaneous needle biopsy confirmed adenocarcinoma. Additionally, fibrosis due to old pulmonary tuberculosis was present in the right upper lobe, and lung fibrosis associated with usual interstitial pneumonia was observed in both lower lobes. The author provided the chest PA image after obtaining informed consent from the patient.
Ahn 등[18]은 6명의 영상의학과 의사(2명의 흉부 영상의학 전문의, 2명의 흉부 영상의학 전임의, 2명의 레지던트)와 AI가 497개의 CXR (247장은 MIMIC-CXR 데이터 세트, 250장은 Massachusetts General Hospital [MGH] 데이터 세트)에서 네 가지 주요 소견(폐렴, 결절, 기흉, 흉막삼출)이 있는 351개의 CXR에서 판독의와 AI의 이 네 가지 소견에 대한 판독 결과를 비교하였다. AI는 모든 소견에서 판독의들과 비교하여 더 높은 민감도를 보였다; 결절(AI: 0.816 [95% 신뢰구간, 0.732–0.882] 대 판독의 0.567 [95% 신뢰구간, 0.524–0.611]), 폐렴[AI: 0.887 (95% 신뢰구간, 0.834-0.928) 대 판독의 0.673 (95% 신뢰구간, 0.632–0.714]), 흉막삼출[AI: 0.872 (95% 신뢰구간, 0.808–0.921) 대 판독의 0.889 (95% 신뢰구간, 0.862–0.917]), 기흉[AI: 0.988 (95% 신뢰구간, 0.932–1.000) 대 판독의 0.792 (95% 신뢰구간, 0.756–0.827]). 또한, AI를 보조 판독으로 이용했을 때 네 가지 소견에 대해 판독의들의 민감도를 유의미하게 향상시켰다. 특히, CXR에서 기흉과 결절 발견에서 유의미하였다. 이와 더불어 AI를 활용하는 경우 판독 시간은 AI 없이 수행한 경우보다 10% 단축되었다(40.8초 대 36.9초; 차이, 3.9초; 95% 신뢰구간, 2.9–5.2초; P<0.001). 또, 다른 연구로 Nam 등[11]은 건강검진자의 CXR에서 AI를 이용한 그룹과 AI를 이용하지 않은 그룹을 비교함으로써 폐암 진단 AI의 임상적인 유용성을 연구하였는데 건강검진자의 CXR에서 임상적으로 의미 있는 폐 결절의 검출률은 AI 그룹에서 비-AI 그룹보다 더 높았다(각각 0.59% [5,238명 중 31명] 대 0.25% [5,238명 중 13명], P=0.008). 그러나 폐 결절 검출에 대한 CXR의 양성 판정률은 AI 그룹(2.3% [5,238명 중 122명])과 비-AI 그룹(1.9% [5,238명 중 100명]) 간에 유의한 차이가 없었다(P=0.14). 또한, 양성 판정을 받은 222명의 참가자 중 AI 그룹과 비-AI 그룹은 유사한 거짓 의뢰(false-referral) 비율을 보였다(각각 45.9% [122명 중 56명] 대 56.0% [100명 중 56명], P=0.14). 결론적으로 AI 그룹은 비-AI 그룹과 비교했을 때 건강검진자의 CXR에서 폐 결절 검출에 더 높은 민감도(각각 56.4% 대 23.2%, P<0.001), 양성 예측도(각각 35.6% 대 18.8%, P<0.02), 음성 예측도(각각 99.0% 대 98.2%, P<0.03)를 보였으며, 특이도(각각 97.6% 대 97.7%, P<0.94)는 두 그룹 간 유사한 것으로 나타났다. 이와 더불어 판독을 수행한 영상의학과 의사들 사이에서 비-AI 그룹은 양성 판정률의 차이가 있었으나, AI 그룹은 영상의학과 의사들 간에 양성 판정률이 유사하게 나타났다(P=0.87). 따라서 이 연구에 이용된 CXR AI는 CXR에서 결절의 검출과 판독에 대한 개별 영상의학과 의사들의 차이를 감소하는 데 도움이 될 수 있음을 보고하였다. 이런 연구 결과를 보면 현재 개발된 AI의 판독 능력은 CXR에 판독 경험이 적은 영상의학과 전공의와 비슷한 정도이고, AI를 이용하면 CXR를 판독하는 영상의학과 의사들의 능력 차이를 감소시킬 수 있으며, CXR에서 폐암을 진단할 때 AI는 판독 오류를 감소시킬 수 있다는 것을 알 수 있다. 그러나 주목을 해야 할 사실은 CXR AI가 모든 질환을 진단할 수 있는 것은 아니며, AI를 개발할 당시 어떤 환자군을 대상으로 학습을 시켰는지에 따라 개발한 AI의 적용 범위가 다르다는 것을 알아야 한다(Table 1). 즉 응급실 환자를 대상으로 개발된 CXR AI는 응급 환자 CXR 진단에 도움을 주고, 건강검진자를 대상으로 학습을 시킨 AI는 건강검진 CXR을 판독할 때 판독의에게 도움을 줄 수 있다는 것을 AI를 이용하는 의료인은 인지를 해야 한다[2–5,7,10,11,19].

A list of commercially approved artificial intelligence solutions that have presented training data for chest X-rays
그럼 향후 CXR AI는 어떻 방향으로 발전을 할까? 생성형 AI기술이 나온 이후 CXR AI는 CNN을 이용한 AI에서 생성형 AI로 바뀌고 있다[20,21]. 생성형 AI란 기존 데이터의 분포를 학습하여 새로운 데이터를 생성하는 기술이다. 대표적인 예가 Open AI의 ChatGPT이다. 여기서 새로운 데이터란 학습한 데이터와 유사한 속성을 가지면서도 독창적인 결과물을 말한다. 예를 들면, CXR 생성형 AI가 텍스트가 포함된 CXR 학습 데이터로부터 새로운 진단이 요구되는 CXR의 판독 소견과 진단명을 만들어 낼 수 있다(Figure 4) [22,23]. 그럼 이런 모델이 현재 임상에서 이용되고 있는 CXR AI 모델과 어떤 차이가 있을까? 현재 임상에서 사용되고 있는 CNN을 이용한 CXR AI는 학습된 CXR 데이터를 기반으로 진단이 요구되는 새로운 CXR에서 병변의 위치나 유무 정도를 제공하기 때문에 의사들의 진단 보조로만 활용을 할 수 있다[3,7,10,11,19]. 이에 반해서 생성형 AI의 경우 판독 소견이 포함된 CXR로 학습이 기술적으로 가능하며, 대용량의 학습 데이터를 반복적인 학습을 통해서 새로운 결과물을 만들어 낼 수 있다. 즉, 학습할 때 제공된 CXR과 판독문을 근거로 판독을 해야 할 새로운 CXR에 대해 새로운 판독문을 만들어 낼 수 있는 기술이다. 현재까지 제한적이지만 생성형 AI를 활용한 CXR 판독에 관한 연구가 진행 중이다. Huang 등[20]은 transformer-based encoder-decoder 모델 AI를 이용하여 응급실 환자 500명의 CXR의 임상적 유의성에 대해 영상의학과 전문의와 AI를 비교했을 때 판독문 유형에 따른 유의미한 효과는 나타나지 않았다(영상의학과 전문의: 평균[표준 오차], 0.98 [0.01]; AI, 평균[표준 오차], 0.96 [0.01]; 원격 판독, 평균[표준 오차], 0.94 [0.02]; P=0.12). 또한 판독 소견에 병변의 유무, 즉 정상 소견과 비정상 소견에 따른 유의미한 차이도 없었다(소견 있음, 평균[표준 오차], 0.97 [0.01]; 소견 없음, 평균[표준 오차], 0.97 [0.01]; P=0.64). 영상의학과 전문의의 판독문을 기준(standard)으로 했을 때, 생성형 CXR AI 판독문의 이상 소견 및 진단명 결과에 대한 민감도는 84.8%, 특이도는 98.5%였다. 그러나 이 연구에서 제시한 생성형 AI 모델은 응급실에 내원한 900,000명의 흉통과 호흡곤란 환자의 CXR 데이터를 가지고 학습을 했기 때문에 응급실 환자 CXR에서는 좋은 결과를 낼 수 있지만 다른 환경 또는 타 기관에도 같은 결과를 보일지는 분명하지 않다. 그럼에도 불구하고 CXR에서 폐 결절, 폐렴, 기흉, 결핵 등의 소견을 자동 검출하고, 이러한 소견과 진단명을 자동으로 판독문을 생성할 수 있는 생성형 CXR AI는 향후 흉부 영상의학 분야에서 영상의학과 전문의의 CXR 판독 패러다임을 바꿀 새로운 기술임에는 분명하다.

Chest anteroposterior (AP) radiograph and chest computed tomography (CT) scan showing lung cancer in the left lower lobe. (A) Chest AP radiograph demonstrates a mass (black arrow) in the left hilar region. (B) Using color annotation, generative artificial intelligence (AI) highlights the mass in the left hilar region on the chest AP radiograph. (C) Simultaneously, the generative AI produces a textual report describing the findings on the chest AP radiograph. (D) Chest CT confirms lung cancer (black arrow) in the left lower lobe. The author provided the chest PA and CT images after obtaining informed consent from the patient.
흉부 CT에서 AI를 이용한 영상 진단의 현재와 미래
임상적으로 현재 CXR AI와 흉부 CT AI는 판독 보조(AI-assisted diagnosis)로 활용되고 있지만, 흉부 CT AI는 다양한 폐질환에 대해서 매우 정밀한 진단을 요구하므로 CXR AI에 비해서 더 높은 정확도와 신뢰성이 요구된다. 따라서 흉부 CT AI는 CXR AI에 비해서 개발이 더 어렵다. CXR은 병원에서 가장 흔히 촬영되는 영상 중 하나이고, 방대한 양의 데이터가 쉽게 확보할 수 있지만 흉부 CT AI를 개발하기 위한 방대한 데이터를 매우 얻기 어렵고, AI를 학습하는 과정 중 더 정교한 병변 라벨이 필요하다. 또한 흉부 CT는 삼차원 볼륨(volume) 데이터이므로 분석하려면 훨씬 더 높은 연산 자원이 필요하며, 모델 구조도 복잡해지고, 그래픽 처리 장치(graphic processing unit) 메모리와 저장 공간 요구량이 급격히 증가한다. 이와 더불어 흉부 CT AI의 개발에 가장 어려운 점은 CXR 이미지는 여러 기관에서 비교적 일관된 프로토콜로 촬영되지만, 흉부 CT는 병원마다 촬영 기기, 재구성 알고리즘, 조영제 사용 여부 등이 다르다. 이런 차이로 인해 개발된 흉부 CT AI 모델이 특정 기관에서만 좋은 성능을 보이는 도메인 편향(domain bias) 문제가 흔히 발생한다[3,6].
그럼에도 불구하고 흉부 CT로 진단할 수 있는 많은 폐질환 중 폐암 검진 저선량 흉부 CT에서 폐 결절을 검출하고, 크기와 양(volume)을 측정하는 AI를 현재 임상적으로 많이 이용하고 있고, 현재 폐암 검진에서 폐암 조기 진단에 매우 중요한 역할을 하고 있다(Figure 5) [1–3,6–9]. 폐암 검진할 때 저선량 흉부 CT를 이용한 선별검사에서 AI는 다양한 알고리즘을 이용해서 방사선량을 감소시키면서도 최적의 영상 품질을 유지할 수 있도록 하고, 발견된 폐암의 위험도 분류를 함으로써 개인 맞춤형 선별검사를 할 수 있다. AI 내에 컴퓨터 보조 검출(computer-aided detection, CAD) 시스템은 저선량 흉부 CT에서 폐 결절 검출에 민감도로 높이고, 영상 판독 시간을 줄이는 데 도움을 준다. 뿐만 아니라 AI는 폐 결절이 양성인지 악성인지 판별하는 데에도 도움을 준다[1,9,24,25]. 그러나 폐 결절의 검출과 발견된 결절의 양성과 악성에 대한 진단 정확도(0.81–0.98), 민감도(0.88–0.99), 특이도(0.82–0.93)는 연구자마다 사용한 AI와 데이터에 따라 차이가 있다[1–3,7,24,26]. Geppert 등[25]이 2012년부터 2023년까지 흉부 CT를 이용한 폐암 검진 스크리닝에서 AI의 유용성에 대한 연구에 대해서 조사를 했을 때 세계적으로 현재 6개의 회사의 AI가 19,770명의 환자에 적용이 되었다고 보고하였다(Table 2). 흉부 CT AI에 대한 연구들의 결과를 정리해보면 공통적으로 흉부 CT를 판독할 때 AI를 보조 판독으로 이용하는 것이 AI 보조 없이 판독하는 것보다 판독 시간을 20% 정도 줄이고[26], 폐 결절 검출과 악성 폐 결절 진단에 대한 민감도를 향상시켰다(6 mm 이상 결절 검출/분류, 5–20%; 악성 결절 검출/분류, 3–15%). 그러나 폐 결절의 검출 및 진단에 흉부 CT AI 보조 판독을 할 경우 판독의들은 폐 결절을 더 높은 위험 범주(high-risk group)로 분류하는 단점도 있다(Figure 6) [24,26–30].

Low-dose chest computed tomography (CT) scan illustrating a mixed ground-glass nodule (GGN) in the right middle lobe. (A) Low-dose chest CT performed as part of the National Lung Cancer Screening program reveals a mixed GGN (black arrow) with a spiculated margin in the right middle lobe. (B) The artificial intelligence software detects the mixed GGN in the right middle lobe, automatically measuring its size (total diameter, 11.4 mm; central solid portion, 2.9 mm), categorizing it as Lung CT Screening Reporting and Data System category 3. The author provided the CT image after obtaining informed consent from the patient.

Low-dose chest computed tomography (CT) scan illustrating a solid pulmonary nodule in the left lower lobe. (A) Low-dose chest CT performed as part of the National Lung Cancer Screening program reveals a solid nodule (white arrow) with a smooth margin in the left lower lobe. (B) Artificial intelligence (AI) software automatically detects and measures the solid nodule in the left lower lobe (6.2 mm), categorizing it as Lung CT Screening Reporting and Data System (Lung-RADS) category 3. However, the AI overestimates the nodule's size. (C) Upon manual correction, the nodule size is accurately measured at 4.1 mm, downgrading the Lung-RADS category from 3 to 2. The author provided the CT image after obtaining informed consent from the patient.
아직 연구 단계이기는 하지만 폐암 위험을 예측할 수 있는 흉부 CT AI 모델도 개발이 되었다. Ardila 등[31]은 폐암 발생 위험 예측 AI를 개발하였으며, 국가폐암선별검사시험(National Lung Cancer Screening Trial, NLST) 6,716명과 독립적인 임상 검증 세트 1,139명에서 area under the curve (AUC) 0.944의 성능을 보였다고 하였다. 특히, 발견된 폐 결절을 비교할만한 이전 흉부 CT 영상이 없는 경우에 이 모델은 영상의학과 전문의보다 더 뛰어난 폐암 진단 성능을 보였으며, 위양성(false positive)을 11%, 위음성(false negative)을 5%를 감소시켰다. 또한 Adams 등[32]은 3,197명의 초기 폐암 선별검사 CT를 가지고 AI 악성 결절 위험 점수와 여섯 명의 영상의학과 전문의가 평가한 Lung CT Screening Reporting and Data System 분류로 구성된 데이터 세트를 결합한 모델을 개발하였다. 이 AI 모델은 41건(0.2%)의 카테고리 1 또는 2 분류가 카테고리 3으로 상향 조정되었고, 5,750건(30%)의 카테고리 3 이상 분류가 카테고리 2로 하향 조정되었다. 결론적으로 이런 모델을 이용하여 폐 결절을 관리하면 폐암 검진 시 불필요한 추적검사 횟수를 줄일 수 있다고 보고하였다. Mikhael 등[33]은 NLST의 저선량 흉부 CT 데이터를 활용하여 Sybil이라는 모델을 개발하였는데, 이 AI는 NLST 참가자의 저선량 흉부 CT 6,282건, MGH의 저선량 흉부 CT 8,821건, 그리고 다양한 흡연력을 가진 비흡연자를 포함한 창궁기념병원(Chang Gung Memorial Hospital)의 저선량 흉부 CT 12,280건을 이용하여 검증을 하였다. Sybil의 1년 이내 폐암 위험 예측 AUC는 0.86–0.94였고, 향후 6년 동안의 폐암 위험을 예측한 수신자 조작 특성 곡선 하의 면적(area under the receiver operating characteristics) 0.75–0.81이었으며, Sybil이 조기에 폐암을 예측할 수 있어 조기 폐암 진단과 맞춤형 환자 관리를 할 수 있다고 하였다.
이 외에도 CT 폐동맥조영술에서 폐 색전을 검출하는 AI, 흉부 CT에서 폐 섬유화 소견을 분류하는 AI, 흡기와 호기 흉부 CT를 이용하여 폐기종이나 소기도 질환을 진단하는 AI도 개발되어 연구 중이다. CT 폐동맥조영술에서 폐 색전을 검출하는 AI는 급성호흡곤란으로 폐 색전증이 의심되는 환자에서 이상 소견을 조기에 발견하고(Figure 7), 영상의학과 전문의가 판독을 해야 할 환자들 중 응급 폐 색전증 의심 환자의 CT 폐동맥조영술을 우선적으로 판독할 수 있도록 알려주는 판독 보조 시스템으로써 역할을 할 수 있다[34–36]. Rothenberg 등[34]은 폐 색전증 환자의 판독 평균 대기 시간이 AI를 사용하지 않은 경우 21.5분이었으나, AI를 사용한 경우 11.3분으로 단축되었다고 보고하였다(P<0.001). 또한 영상의학과 전문이의 폐 색전증 진단 정확도와 폐 색전증을 놓친 비율이 AI를 사용하지 않은 경우 각각 97.6%와 12.3%였다면 AI를 사용하는 경우 각각 98.6%와 6.1%로 판독에 도움을 주었으나, 통계적으로 유의하지 않았다(P=0.15 및 P=0.11).

Enhanced chest computed tomography (CT) illustrating acute pulmonary thromboembolism. (A) Enhanced chest CT shows a low-density thrombus (white arrow) in the right interlobar pulmonary artery. (B) Artificial intelligence software automatically detects the thrombus (white arrow) in the pulmonary artery, providing quantified thrombus burden (right pulmonary artery, 513 mm³; pulmonary arteries in the right lower lobe, 978 mm³; pulmonary arteries in the left lower lobe, 163 mm³) in both pulmonary arteries. The author provided the CT image after obtaining informed consent from the patient.
간질성 폐질환이나 만성폐쇄성폐질환(chronic obstructive pulmonary disease, COPD)에서 폐 손상이 있는 부위에 대한 정량적 분석은 폐질환의 임상 증상과 흉부 CT와의 연관성, 이런 질환의 예후를 흉부 CT로 예측할 수 있는 바이오마커를 개발할 수 있는 접근 방식으로 연구되고 있다[1–3,7,8,13–15,35]. 그러나 흉부 CT에서 폐 손상 부위 정량화는 수작업을 필요로 하는 시간 소모적인 특성 때문에 임상에서 이용하기에는 어려움이 있었다[6,7]. 이러한 문제들은 AI 기술의 발전으로 인해 흉부 CT 영상의 자동 분할과 폐 손상 부위의 정량화가 높은 정확도와 효율성으로 가능해졌다. Walsh 등[37]은 두 개의 기관에서 수집된 1,157개의 익명화된 고해상도 CT 데이터를 2011년 American Thoracic Society/European Respiratory Society/Japanese Respiratory Society/Latin American Thoracic Association (ATS/ERS/JRS/ALAT) 특발성 폐 섬유화증 진단 가이드라인과 Fleischner Society의 특발성 폐 섬유화증 진단 기준을 이용하여 알고리즘을 학습시킨 후 75개의 특발성 폐 섬유화 고해상도 CT로 AI와 4명의 흉부 영상 전문의의 판독 결과를 비교하여 성능을 평가하였다. CT 영상을 2011년 ATS/ERS/JRS/ALAT 특발성 폐 섬유증 진단 가이드라인을 기준으로 했을 때 흉부 영상 전문의들의 정확도는 70.7%, AI 정확도는 73.3%였다. 흉부 영상 전문의들 간의 일치도는 우수한 수준(0.67 [interquartile range, 0.58–0.72])이었고, AI와 흉부 영상 전문의간 일치도도 우수한 수준(0.69)이었다. 저자들은 AI를 활용한 고해상도 CT의 특발성 폐 섬유증 평가는 섬유화성 폐질환을 적은 비용으로 재현 가능하며, 흉부 영상의학 전문의 수준의 정확도를 제공할 가능성이 있고 하였으며, 개발된 통상형 간질성 폐렴 AI (Figure 8)가 흉부 영상 전문성이 부족한 의료 기관에 도움이 될 수 있다고 주장하였다. Chae 등[14]은 한국 국가폐암검진 대상자 3,118명의 저선량 흉부 CT에서 육안적으로 5% 이상의 간질성 폐이상(interstitial lung abnormality, ILA) 소견이 120명(4%)명에서 발견되었고, 이 대상자들의 저선량 흉부 CT에서 ILA를 AI를 이용하여 정량적 분석하였다. 육안적으로 ILA의 폐 영역 내 분포가 5% 이상인 경우에 ILA로 진단 기준을 제시했을 때 AI 모델에서는 ILA의 폐 영역 내 분포가 1.8% 이상이 진단 기준에 해당하였고, 이 때 ILA에 진단에 대한 AI의 민감도는 100%, 특이도는 99%를 보였다고 하였다. 결론적으로 저선량 흉부 CT에서 ILA를 진단할 때 AI가 영상의학과 전문의보다 ILA 진단에서 더 높은 민감도와 특이도를 보여주었다고 보고 하였다(Figure 9).

Chest computed tomography (CT) illustrating usual interstitial pneumonia. (A) The initial chest CT reveals mild honeycombing and predominantly reticular opacity (black arrow) in the posterobasal segments of both lower lobes. (B) Quantitative analysis using artificial intelligence (AI) shows reticular opacity (orange color) and honeycombing (red color) comprising 3% and 1%, respectively, of the lung volume on the initial chest CT. (C) Follow-up chest CT performed 3 years and 6 months later demonstrates progression of reticular opacity and honeycombing (black arrow) compared to the initial chest CT. (D) Quantitative analysis of the follow-up CT using AI indicates reticular opacity (orange color) and honeycombing (red color) comprising 4% and 3%, respectively. AI analysis reveals approximately a threefold increase in honeycombing. The author provided the CT image after obtaining informed consent from the patient.

Low-dose chest computed tomography (CT) illustrating an interstitial lung abnormality. (A) The initial low-dose chest CT reveals mild reticular opacity and predominantly ground-glass opacity (black arrow) in the posterobasal segments of both lower lobes. (B) Quantitative analysis using artificial intelligence demonstrates reticular opacity (orange color) comprising 1% of the lung volume on the low-dose chest CT. The author provided the CT image after obtaining informed consent from the patient.
COPD 중 흉부 CT에서 발견된 폐기종을 정량화하고, 정량화 후 얻어진 다양한 수치를 폐 기능 검사와 비교하여 임상적인 유용성을 찾는 연구들이 오랫동안 지속되어 왔지만, 여전히 임상적인 적용에는 제한점이 있다[1,3,6,7,13,38]. González 등[39]은 7,983명의 COPDGene 참가자, 1,000명의 중복되지 않은 COPDGene 참가자와 1,672명의 ECLIPSE 참가자를 학습하여 AI를 개발하였는데, 이 AI 모델의 COPD을 진단 정확도는 0.856를 보였다. COPDGene와 ECLIPSE 참가자의 51.1%와 29.4%에서 정확하게 병기(stage)별로 분류하였고, 74.9%와 74.6%에서는 한 단계 이내의 오차 범위 내에서 병기를 분류하였다. 또한 COPDGene와 ECLIPSE에서 급성 호흡기 악화 발생 예측 정확도는 각각 0.64와 0.55였다고 보고를 하였다. Yanagawa 등[3]은 COPDGene 참가자의 CT와 Fleischner Society에서 제시한 CT 근거 폐기종 분류를 이용해서 폐기종의 중증도를 분류할 수 있는 자동 AI 알고리즘을 개발한 후 COPDGene 참가자를 대상으로 유용성에 대해서 검증을 하였는데, 개발된 자동 AI 알고리즘이 시각 분류 방법보다 더 객관적으로 평가를 할 수 있었으며, 흔적(trace) 형태는 시각 분류 방법보다 더 잘 발견할 수 있다고 했다. Humphries 등[40]은 폐기종 진단 AI를 개발한 후 COPDGene 참가자(n=7,143)를 대상으로 유용성에 대해서 검증을 하였는데, 개발된 AI가 폐기종을 영상의학과 전문의에 의해 시각으로 분류하는 방법보다 더 객관적으로 평가를 할 수 있었으며, 특히 흔적 형태의 폐기종은 AI가 더 잘 발견할 수 있다고 했다. 그러나 폐기종 AI는 흉부 CT의 스캔 변수들(scan parameters), 재구성 알고리즘(reconstruction algorithm), 그리고 방사선 선량(radiation dose)에 많은 영향을 받기 때문에 임상적으로 적용하기에는 더 많은 연구가 필요하다[2,3,7,35,38].
결론
흉부 영상 분야에서 AI는 전통적인 머신러닝과 딥러닝 기법의 발전으로 점점 임상적인 활용도가 증가되고 있다. 최근 몇 년 동안 CXR AI는 이미 많은 병원에서 사용하고 있고, 국가폐암검진에서 저선량 흉부 CT를 판독할 때 AI 기반의 폐암 검출 및 폐 결절들의 특성 분석, 그리고 폐암 발생 위험도 예측에서는 우수한 결과를 보였다. 또한 흉부 CT에서 AI를 활용하면 영상 기반 바이오마커 탐색이나 폐 결절 확인과 같은 시간 소모적이고 반복적인 작업을 자동화할 수 있다. 이를 통해서 판독의 효율성을 높이고, 영상의학 의사들의 판독 패턴을 바꿈으로써 궁극적으로 임상의들의 치료 결과 개선에 영향을 줄 것으로 보인다. 특히 기흉이나 급성 폐 색전증 등 응급 환자에 대해 AI가 신속한 진단을 도와줌으로써 환자의 진료에 큰 영향을 줄 것으로 예상된다.
생성형 AI의 임상적 평가에 대한 연구는 이제 시작 단계이지만 텍스트 및 이미지를 생성하는 생성형 AI 기법은 CXR 영상을 해석한 판독 소견을 제공할 수 있다. 이 기법은 응급실처럼 급하게 CXR 판독 결과를 요하거나 CXR에 경험이 적은 의료인들이 근무하는 환경에서 새로운 의료 정보를 제공할 수 있다. 물론 임상에서 새로 개발된 AI를 완전히 구현하는 데에는 여전히 많은 도전 과제가 남아 있지만, 의료 분야에서 개발된 AI를 임상적으로 검증하고 활용하는 것은 어려우면서 매우 중요하다. 그 이유로는 현재 AI를 학습하고, 검증을 해야 할 영상 및 임상 데이터가 체계적으로 관리가 되지 않기 때문이다. 이러한 문제는 의료 분야의 AI 발전과 임상적인 활용을 위해서 반드시 해결을 해야만 하는 미래의 과제이다. 또한 미래에 AI가 임상에서 충분히 활용될 정도로 발전하게 되더라도, 개발된 AI의 지속적인 품질 보증, AI 도입에 필요한 재정 문제, 그리고 AI를 임상에 잘 활용할 수 있도록 의료인 교육과 같은 과제들도 해결되어야 한다.
Notes
Conflict of Interest
No potential conflict of interest relevant to this article was reported.
Funding
None.
References
Peer Reviewers’ Commentary
본 종설은 흉부 X선과 흉부 컴퓨터단층촬영(computed tomography, CT)에서의 인공지능(artificial intelligence, AI) 기술의 현재 활용 현황과 향후 전망을 폭넓게 다루었다. 저자는 기존의 판독 경험에 의존하던 진단 방식에서 벗어나, AI 도입이 영상의학적 진단의 정확도와 효율성을 높이는 중요한 전환점이 되고 있음을 다양한 문헌과 데이터를 통해 설득력 있게 제시했다. 특히, 흉부 X선 판독에서 AI의 성능이 영상의학과 전공의 수준과 비슷하거나 그 이상이라는 점, 생성형 AI가 자동 판독문까지 생성할 수 있는 단계로 발전하고 있다는 점은 주목할 만하다. 동시에, AI의 성능은 학습 데이터의 특성과 대상 환자군에 따라 달라질 수 있음을 강조하며, 그 한계와 주의점도 적절히 짚고 있다. 흉부 CT에서의 AI 활용은 현재 폐암 검진을 위한 저선량 CT에서 폐 결절을 검출하고, 크기와 부피를 정량화하는 데 중심적으로 사용되고 있으며, 조기 진단과 선별검사의 효율성 향상에 기여하고 있음을 기술했다. 이와 함께 방사선량 감소, 판독 시간 단축, 폐 결절 검출 민감도 향상 등 임상적 이점도 소개했으며, 폐암 외 다양한 폐질환으로의 AI 적용 범위 확대에 관한 연구 동향도 잘 정리했다. 이 종설은 흉부영상의학 분야에서 AI가 판독 체계의 구조적 변화를 이끌 수 있는 기술임을 보여주는 동시에, 향후 임상 적용 확대를 위해 해결해야 할 과제와 기술적 검증의 필요성도 균형 있게 제시하여, AI 기반 흉부영상의 미래를 준비하는 데 유용한 방향성을 제공했다.
[정리: 편집위원회]