국내 신의료기술평가 현황과 평가 결과에 연관성을 보이는 요인 연구
An investigation of the current status of the new Health Technology Assessment in Korea and factors influencing assessment results
Article information
Trans Abstract
Background
This study aims to evaluate factors influencing assessment results in the new Health Technology Assessment (nHTA) in Korea.
Methods
We analyzed publicly available nHTA reports obtained from the program’s website. A total of 258 reports, encompassing 305 technologies, were included. Reported details were categorized into three main areas: technical characteristics, evaluation methods, and publication types. To investigate differences in evidence level (high, medium, or low) and assessment results (pass or fail) according to these categories, we employed a chi-squared test. Univariate and multivariate logistic regression analyses were further conducted to identify factors associated with evidence level and assessment results.
Results
nHTA reports employing meta-analysis and included randomized trials for evidence synthesis exhibited a higher likelihood of achieving high evidence level (odds ratio [OR], 5.008; 95% confidence interval [CI], 1.265- 18.826 and OR, 27.052; 95% CI, 7.802-103.330, respectively). Increasing evidence level was significantly associated with a higher possibility of passing the assessment (OR 2.789; 95% CI, 1.284-6.057). However, in univariate analysis, neither performing meta-analysis nor including randomized trials, both of which were associated with evidence level, demonstrated a statistically significant association with assessment results.
Conclusion
This study represents the first systematic analysis of factors influencing nHTA assessment results in Korea. While increased evidence level was associated with positive assessment outcomes, factors affecting the evidence level itself did not directly influence assessment results. This suggests the need for further efforts to effectively integrate high-level evidence into assessment decisions within the nHTA program.
서론
우리나라에서는 ‘새로운 의료행위’의 ‘안전성 및 유효성’을 평가하기 위해 2007년 4월 28일 ‘신의료기술평가제도’를 도입하였으며[1], 기존 전문가 의견을 토대로 의사결정을 수행하던 방식에서 근거중심의학(evidence-based medicine)에 기초한 체계적 문헌고찰 기반의 연구방법론을 적용하고 있다[2]. ‘신의료기술평가’는 건강보험에 등재되지 않은 새로운 의료기술(의료행위)이 전 국민(건강보험 가입자)을 대상으로 사용될 만큼의 임상적 안전성·유효성을 갖추었는지를 평가하는 제도로 정의한다. 임상적 안전성·유효성은 관련 임상 문헌에서 보고된 의료결과 등의 과학적 근거(evidence)를 바탕으로 해당 분야 의료인들의 임상적 판단을 더하여 건강보험 의료행위 목록에 등재할 만큼의 가치(value)가 있는지를 판단하는 방법을 활용한다[3]. 특히 우리나라에서는 신의료기술평가 통과 여부에 따라 의료기술의 시장 진입이 결정되기 때문에[4], 의료계 및 산업계에서는 신의료기술평가 통과 여부에 지대한 관심을 쏟고 있다. 이에 신속한 시장진입 가능성 판단을 위한 제도개선이 이루어졌으며, 대표적으로 2016년 5월 체외진단검사, 유전자검사 등 검사 분야의 의료기술 발전 추이, 그간 신의료기술평가 경험을 통해 파악한 안전성·유효성 평가 필요성 등을 고려하여 검사 분야 중심의 신의료기술평가 심의기준을 재정비하였다. 심의기준 상근거의 수준이 높고 양이 많으며, 연구결과가 일관되게 긍정적으로 보고된 경우 안전성 및 유효성이 있는 기술로 인정될 수 있으며, 해당 기술과 관련한 문헌의 양이 적더라도 연구의 비뚤림 위험이 낮고, 충분한 대상자로 해당 검사의 유효성을 입증할 수 있는 경우에도 안전성 및 유효성이 있는 기술로 인정할 수 있다[5]. 다만 의료기술의 특성에 따라 평가 시 고려해야 하는 요소가 상이하여 정량적인 통과 기준은 별도로 제시되어 있지 않으나, 최근 일부 사례의 경우 문헌적 근거의 수준이 낮음에도 불구하고 신의료기술로 인정되어 근거중심의학에 대한 의문점 제기[6]와 더불어 평가 통과를 위한 정량적 기준 마련의 필요성을 언급한 바 있다.
국내 신의료기술평가 제도 도입 이후 평가 사례는 증가하는 추세이나, 검사 분야 심의기준 개편 이후 평가 대상이 되는 기술의 특성, 평가 방법 및 평가 결과에 연관성을 보이는 요인 연구는 국내에서 수행된 바 없다. 이 연구에서는 국내에서 수행된 신의료기술평가 사례를 정량적으로 분석하여 평가의 근거 수준과 평가 결과에 연관성을 보이는 요인을 확인하고자 하였다. 특히 평가 결과에 근거의 수준이 어떤 연관성을 보이는지를 확인하였다.
방법
1. 분석 자료 및 대상
분석 자료는 한국보건의료연구원 신의료기술평가사업본부 홈페이지에 공개된 신의료기술평가 보고서를 활용하였다. 2022년 12월 31일 기준 공개된 신의료기술 평가 보고서는 876편이었다. 이 중 신의료기술평가 심의기준이 재정비된 검사 분야 심의기준 개편(2016.5.31) 이후 2019년 12월 31일까지 신청된 의료기술을 토대로 총 258편의 신의료기술평가 보고서를 연구대상으로 선정하였으며, 코로나바이러스병-19 (코로나19) 유행 이후로는 비대면 평가를 병행하여 대면 평가로 이루어진 코로나19 유행 전 신청 건으로 제한하였다. 전체 연구대상은 258개 보고서에서 복수 적응증 등을 포함해 평가 결과가 제시된 총 305건의 의료기술을 추출하였다.
2. 결과 변수
결과 변수는 신의료기술평가 결과와 신의료기술평가 근거의 수준으로 하였다. 신의료기술평가 결과는 신의료기술과 연구단계기술로 나뉜다. 신의료기술은 임상적 안전성, 유효성이 확립된 기술로 건강보험 급여 또는 비급여 목록에 진입할 수 있는 자격이 부여된 기술이며, 연구단계기술은 임상적 평가 결과 임상적 안전성, 유효성이 확립되었다고 판단할 근거 등이 충분하지 않은 경우로 의료 현장에 도입될 수 없는 기술이다. 신의료기술평가 근거의 수준은 문헌고찰 수행 시 Scottish Intercollegiate Guideline Network (SIGN)의 질 평가 결과를 이용한다. SIGN의 질평가 결과는 A, B, C, D로 나뉘는데, A, B 등급을 받은 평가 결과의 수가 작아 두 군을 하나로 묶어 A, B를 높음으로 분류하고, C는 중간, D는 낮음으로 분류하였다. 신의료기술평가 근거의 수준은 종속변수로 사용됨과 동시에 신의료기술평가 결과에 연관성을 보이는 요인 중 하나로 포함되었다(Figure 1).
3. 결과 변수에 연관성을 보이는 요인
신의료기술평가 결과와 신의료기술평가 근거의 수준에 연관성을 보이는 요인은 기술적 특성, 평가 방법적 특성, 선택 문헌적 특성 세가지 범주로 구분하였다(Table 1).
1) 기술적 특성
의료 분야(의과, 치과, 한의과), 기술 분야(중재시술, 체외진단검사/유전자검사, 기타검사, 미분류), 침습도(낮음, 보통, 높음), 질병 분야(19가지)로 구분하였다. 기술 분야 중 기타검사는 심의기준에 따라 체외진단검사 및 유전자검사에 포함되지 않는 영상검사, 생체정보 측정검사 등으로 정의하였다. 기술의 침습도는 체외에서 수행되어 안전성이 확보된 체외진단검사 및 유전자 검사의 경우 비침습(low), 생체에 작은 바늘을 삽입해 자극을 주거나 체외에서 강한 에너지를 주입하는 방식의 경우 최소침습(medium), 절제 등을 수행하는 경우 침습(high) 행위로 구분하였다. 질병분야는 제 8차 한국표준질병사인분류표(2021.1.1 시행)를 기준으로 총 19가지 질병 특성으로 범주화하였다.
2) 방법적 특성
체계적 문헌고찰 수행 여부(체계적 문헌고찰 수행, 신속평가 수행), 근거중심의학 전문가 포함 여부(유, 무), 메타분석 수행 여부(유, 무)로 구분하였다.
3) 문헌적 특성
신의료기술평가에 포함된 문헌의 연구 유형에 따라 문헌 유형은 총 11가지로 구분하였으며, 체계적 문헌고찰(systematic review), 무작위 임상시험 연구(randomized controlled trials), 비무작위 임상시험 연구(non-randomized study), 코호트 연구(prospective cohort study, retrospective cohort study, unclassified), 진단법 평가 연구(classic cross-sectional diagnostic test accuracy design), 비교 연구(comparative study), 환자-대조군 연구(case-control study), 증례연구(case series), 증례보고(case reports), 전후 연구(before-and-after study), 기타(others)로 분류(유, 무)하였다. 다만, 동료심사가 이루어진 임상 논문은 아니지만 ‘신의료기술평가위원회 운영에 관한 규정’ 제5조 제2항(심의기준)에 따라 피평가자(신청자)가 제출한 식약처 임상시험자료 등도 평가에 포함된 사례가 일부 확인되어 해당 유형은 기타로 분류하였다. 국내에서 수행된 임상연구의 포함 여부(유, 무)는 실제 국내에서 수행되는 연구가 포함되는 경우가 통과 여부에 영향을 미치는지 확인하기 위해 변수로 선정하였다.
4. 분석 방법
첫 번째로 305건 의료기술을 대상으로 기술적, 방법적, 문헌적 특성에 따른 신의료기술평가 현황을 분석하기 위해 빈도분석을 실시하였다. 두 번째로 총 305건의 의료기술 중 평가 결과와 근거의 수준이 함께 제시된 243건을 대상으로 근거의 수준에 따른 평가 결과의 분포 차이를 확인하기 위해 카이제곱 분석을 실시하였다. 또한 기술적, 방법적, 문헌적 특성에 포함된 특성 각각이 근거의 수준 및 평가 결과에 연관성을 보이는 요인을 확인하기 위해 10개 특성 각각을 독립변수로, 근거의 수준(높음: SIGN 근거 등급 A, B; 낮음: SIGN 근거 등급 C, D) 및 평가 결과(신의료기술, 연구단계 기술)를 종속변수로 하여 단변량 로지스틱 회귀분석을 실시하였다. 단변량 로지스틱 회귀분석에서 P<0.05로 유의한 연관성을 보인 특성들로 다중 로지스틱 회귀분석을 수행하여 독립적으로 근거의 수준 및 평가 결과에 유의한 연관성을 보이는 요인의 특성을 확인하였다. 평가 결과에 연관성을 가지는 요인으로는 10개 특성에 더하여 근거의 수준을 고려하였다. 이 연구의 통계프로그램은 IBM SPSS Statistics ver. 29.0 (IBM Corp., Armonk, NY, USA)을 이용하여 분석하였고 통계적 유의수준은 95% 신뢰구간으로 설정하였다.
결과
1. 신의료기술평가 기술 동향
2016년 6월부터 2019년 12월 31일까지 신청된 기술 바탕으로 출판된 보고서 중 선정/제외 기준에 적합한 신의료기술평가 기술과 평가 특성은 다음과 같이 나타났다(Table 2). 의료기술 특성 상 처치 및 시술, 진단검사 등에 따라 평가에 포함되는 문헌의 특성이 상이할 것으로 판단하여 처치 및 시술, 진단검사, 기타검사(미분류 포함)를 나누어 선택 문헌의 유형과 양을 층화하여 분석한 결과는 Suppl. 1, 2에 제시하였다.
2. 근거의 수준과 평가 결과와의 연관성
근거의 수준과 평가 결과와의 연관성은 처치 및 시술, 진단검사, 기타검사로 구분하여 확인하였다. 3가지 기술분류 모두 근거의 수준이 높을수록 신의료기술로 통과될 가능성이 높게 확인되었다(P<0.05). 처치 및 시술에서는 근거의 수준이 높다고 평가된 보고서의(A, B)의 59.5% (22건), 중간으로 평가된 보고서의(C) 63.2% (12건), 낮음으로 평가된 보고서의(D) 28.9% (13건)가 신의료기술로 통과되었으며, 근거의 수준이 낮은(D) 경우에는 근거의 수준이 높거나 중간으로 평가된 경우에 비해 평가에 통과되는 비율은 더 낮은 것으로 확인되었다. 그러나 근거의 수준이 높다고 평가된 보고서와 중간으로 평가된 보고서의 신의료기술 통과정도의 차이는 크지 않았다. 근거의 수준이 낮은 경우에도 신의료기술로 통과되는 분율은 20-40% 정도였다 (Table 3).
3. 기술적, 방법적, 문헌적 특성에 따른 근거의 수준
3가지 분류에 따른 근거의 수준을 확인한 결과, 기술적 특성으로는 기술분류(P<0.001), 기술의 침습도(P<0.001), 방법적 특성에서는 메타분석 수행 여부(P<0.01), 선택 문헌별 특성으로는 무작위 임상시험 연구(P<0.001), 코호트 연구(P<0.001), 진단법 평가 연구(P<0.001), 증례연구(P<0.001), 증례보고(P<0.05)에서 유의한 차이가 있는 것으로 나타났다.
기술적 특성으로는 처치 및 시술의 경우 근거의 수준 높음(A, B)이 36.6% (37건)로, 진단검사 및 기타검사와 비교 시(2.2%, 2건; 3.8%, 2건) 많은 비율을 차지하였으며, 진단검사 및 기타검사에서는 근거의 수준 중간(C)이 가장 많은 비율을 차지하였다(60.0%, 54건) 55.8%, 29건). 침습도가 낮은 기술의 경우 근거의 수준 높음(A, B)의 비율이 14% (14건)로 가장 낮게 나타난 반면, 침습도가 높은 기술은 낮은 기술에 비해 근거의 수준 높음(A, B)이 37.9% (11건)로 많은 비율을 차지하였다.
평가 방법별 특성으로 메타분석 포함 여부는 메타분석을 수행하는 경우 근거의 수준 비율은 중간(54.5%), 높음(27.3%), 낮음(18.2%) 순으로 가장 났으며, 메타분석을 수행하지 않는 경우에는 근거의 수준 비율은 낮음(46.2%), 중간(39.2%), 높음(14.6%) 순으로 나타났다.
선택 문헌별 특성에서는 무작위 임상시험 연구가 포함된 경우 근거의 수준 높음(A, B)은 60.0% (36건)로 절반 이상을 차지하였으며, 이와 반대로 포함하지 않는 경우에는 근거의 수준 중간(C), 낮음(D)이 각각 48.6% (89건)로 기술의 대부분을 차지하였다. 이외에 코호트 연구, 진단법 평가연구가 포함된 경우 근거의 수준 중간(C)이 가장 많은 비율을 차지하였으며(53.0%, 44건; 67.0%, 73건), 포함하지 않는 경우에는 근거의 수준 낮음(D)이 절반 이상으로 나타났다(51.3%, 82건; 50.7%, 68건). 반면 증례연구, 증례보고에서는 해당 문헌 유형이 포함된 경우 근거의 수준 낮음(D)이 가장 많은 비율을 나타냈다(60.2%, 53건; 58.8%, 20건). 또한 국내에서 수행된 임상 문헌의 포함 여부는 통계적으로 유의한 수준을 나타내지 않았다(P=0.101) (Table 4). 기술 특성에 따른 근거의 수준과 평가 결과의 비율 차이를 파악하기 위해 처치 및 시술, 진단검사, 기타검사(미분류 포함)로 층화하여 분석한 결과는 Suppl. 3에 제시하였다.
4. 근거의 수준과 연관성을 보이는 요인
근거의 수준에 연관성을 보이는 요인을 파악하기 위해 단변량 로지스틱 회귀분석을 실시하고, 단변량 분석에서 유의한 결과를 보인(P<0.05) 요인을 이용하여 다변량 분석을 수행하였다. 다변량 분석 결과, 메타분석을 수행하는 경우에는 수행하지 않는 경우보다 근거의 수준이 높다고 평가될 오즈가 5배 높은 것으로 나타났으며(교차비, 5.008; 95% 신뢰구간, 1.265-18.826), 무작위 임상시험 연구가 평가에 포함되는 경우 포함되지 않는 경우보다 근거의 수준이 높다고 평가될 오즈가 약 27배 높은 것으로 나타났다(교차비, 27.052; 95% 신뢰구간, 7.082-103.330) (Table 5). 기술 분야, 침습도, 문헌유형에서 무작위 임상시험 연구, 비무작위 임상시험 연구, 코호트 연구, 진단법 평가연구가 평가에 포함되는 여부는 단변량 분석에서는 평가 결과와 유의한 연관성을 보였으나, 다변량 분석에서는 연관성을 보이지 않았다.
5. 평가 결과와 연관성을 보이는 요인
단변량 로지스틱 회귀분석 결과, 근거의 수준이 높은(A, B) 경우가 낮은(D) 경우보다 평가에 통과될 확률이 약 3.12배 높게 나타났으며(교차비, 3.128; 95% 신뢰구간, 1.473-6.643), 코호트 연구가 평가에 포함되는 경우 평가 통과 가능성은 약 1.99배 높게 나타났다(교차비, 1.988; 95% 신뢰구간, 1.165-3.427). 다만, 근거의 수준과 연관성을 보였던 메타분석 수행 여부, 무작위 임상시험 연구의 포함 여부는 단변량 분석에서도 평가 결과와 연관성을 보이지 않았다(Table 6). 위의 유의한 변수들을 토대로 다변량 로지스틱 회귀분석을 추가 실시한 결과, 근거의 수준이 높은(A, B) 경우, 근거의 수준이 낮은(D) 경우보다 평가 통과 비율이 2.7배 높았다(교차비, 2.789; 95% 신뢰구간, 1.284-6.057). 다른 요인들은 다변량 분석에서는 통계적으로 유의미한 결과를 나타내지 않았다.
고찰
이 연구는 신의료기술평가의 기술별, 방법별, 문헌별 특성에 따른 신의료기술평가 현황과 각 신의료기술 평가의 근거수준과 평가 결과에 연관성을 보이는 요인을 분석하였다. 그 결과 메타분석의 수행 여부와 무작위 임상시험 연구가 평가에 포함되는 것은 근거의 수준이 높다고 평가되는 것과 독립적인 연관성을 보였다. 평가 결과에 독립적으로 영향을 미치는 요인은 근거의 수준 단일로, 근거의 수준이 높은 경우, 근거의 수준이 낮은 경우보다 평가 통과 비율이 2.7배 높았다.
다변량 분석에서 유의한 연관성을 보이지는 않았으나, 단변량 분석 결과에서 코호트 연구 포함 여부가 통과에 연관성을 보이는 요인으로 나타났다. 높은 근거의 수준에 무작위 임상시험 연구와 메타분석 수행이 연관성을 보이는 요인임을 고려하였을 때, 신 의료기술평가에서는 단순 환자-대조군 연구, 증례연구 혹은 증례보고 수준의 임상 문헌만으로는 평가 통과가 어려우며, 최소 코호트 연구 이상의 근거가 포함되어야 하는 것을 시사한다.
근거의 수준에서는 무작위 임상시험 연구 포함 여부가 연관성을 보이는 요인이었으나, 평가 결과에서는 연관성을 보이는 요인으로 작용하지 않았다. 이는 근거중심의학에서는 이론적으로 무작위 임상시험 연구의 중요성을 강조하고 있으나[7-9], 실질적으로 국내 의료기술평가에서 무작위 임상시험 연구의 비중은 크지 않은 것으로 해석된다. 국내 문헌 혹은 근거의 대부분이 비무작위 임상시험 연구에 해당하며 해당 연구들의 질적 수준을 반영한 국내 연구결과를 임상에서 의사결정의 중요한 근거로 활용할 수 있도록 기본 여건을 마련해야 한다는 기존 연구 등이 확인된 바 있고[9], 이에 대한 질 평가 도구가 부재한 실정임을 감안할 때, 무작위 임상시험 연구뿐만 아니라 비무작위 임상시험 연구 근거들에 대해서도 우리나라 현실에 맞는 한국형 질 평가 도구를 발굴하여 적용 타당성에 대한 체계적 검토가 필요한 상황이라고 생각된다. 이에 연구디자인에 의해서만 근거의 수준이 결정되지 않는 The Grading of Recommendation, Assessment, Development and Evaluation (GRADE) 방법론 적용 등을 고려해볼 수 있으며, 향후 축적된 데이터 기반으로 해당 방법론을 활용한 다양한 요인들과의 연관성 분석 등 후속 연구도 가능할 것으로 사료된다.
추가적으로, 근거의 수준이 높음(A, B)에도 불구하고 탈락된 사례를 심층 분석한 결과, 처치 및 시술의 40.5% (15건), 진단검사의 50% (1건), 기타검사의 100% (2건)가 연구단계 기술로 확인되었다. 처치 및 시술(15건)에서는 체계적 문헌고찰 6편으로 평가한 1개 기술[10]을 제외한 나머지 기술(14개)의 경우[11-23], 기술 당 무작위 임상시험 연구는 최소 1편에서 최대 16편까지 포함되었으며, 평가에 선택된 총 문헌의 개수는 최소 2편에서 최대 22편으로 나타났다. 이 중 3개 기술은 메타분석을 수행하였으나, 대부분의 기술은 각 연구별 정량적 분석이 가능한 의료결과가 부족하여 수행하지 못한 것으로 나타났다. 해당 기술들의 경우 근거의 수준은 높게 나타났음에도 불구하고, 연구결과를 일관되게 긍정적으로 보고하지 않은 경우(3개), 중재군과 대조군 간의 유의한 차이가 없는 경우(4개), 임상적 유용성을 기대하기 어려운 경우(4개), 안전성이 입증되지 않은 경우(2개), 가이드라인에서 권고하지 않는 경우(1개) 등으로 탈락 사유가 확인되었으며, 안전성이 입증되지 않은 일부 사례에서는 오히려 전체 부작용 및 심각한 부작용이 중재군에서 더 높게 보고되었고, 시술 후 생존기간이 중재군에서 유의하게 짧게 보고되어 평가 결과에 영향을 미친 것으로 확인하였다. 이는 문헌적 근거의 수준이 높거나, 많은 양의 임상 문헌이 있더라도 연구 결과가 일관되게 긍정적으로 보고되지 않거나, 임상적 유용성 등이 입증되지 않은 경우 안전성 및 유효성이 있는 기술로 인정되기 어렵다는 심의기준과 연관지어 해석해볼 수 있다. 또한, 근거의 수준이 높음(A, B)에도 불구하고 진단검사에서 탈락한 1개 기술[24]은 2편의 가이드라인과 28편의 임상 문헌(코호트 연구 15편, 진단법 평가연구 13편)을 포함하였으나, 검사의 임계치가 확립되지 않고, 각 문헌에서 보고하고 있는 예측정확성의 범위가 넓어 유효성을 확인하기에는 문헌적 근거가 부족하다는 결론이었다. 뿐만 아니라 기타 검사에서도 근거의 수준이 높은(A, B) 기술 2건이 모두 연구 단계기술로 심의되었는데 각 기술별 평가에 선택된 문헌은 무작위 임상시험 연구 7편[25], 진단법 평가연구 13편이나[26], 중재법 및 중재검사의 표준화 여부가 불분명하고, 임계치가 상이하여 동일한 기준으로 결과를 합성하기 어려워 2건 모두 메타분석은 수행되지 않았다. 이 중 무작위 임상시험 연구 7편이 포함된 1개 기술[25]은 중재군과 비교군간 차이를 보고한 문헌이 적고 객관적인 지표를 활용한 의료결과에서는 유의한 결과가 보고되지 않았으며, 문헌별로 제시한 비교군이 다양하여 치료의 효과크기 편차가 커 중재군의 유효성을 판단하기는 어렵다는 결론이었고, 진단법 평가연구 13편이 포함된 나머지 1개 기술[26]은 검사의 임계치가 다양하게 보고되었으며, 진단정확성을 보고한 문헌에서 일관된 의료결과를 보이지 않아 동 기술의 임상적 유효성을 입증하기에는 문헌적 근거가 충분하지 않다는 의견이었다. 근거의 수준이 높음(A, B)에도 불구하고 탈락된 사례 분석 결과는 향후 연구결과의 이질성, 임계치 설정 상이 등을 변수로 활용하여 평가 결과의 연관성에 대한 후속 연구를 수행할 수 있는 근거가 될 수 있을 것으로 사료된다. 더불어 통과 건 중 유병률이 극히 낮은 질환의 사례를 심층 분석한 결과, 총 6건의 기술이 확인되었으며 진단검사가 83% (5건), 처치 및 시술이 17% (1건)을 차지하였다[27-32]. 유병률이 극히 낮은 질환의 사례는 질병관리청 희귀질환 헬프라인(helpline) 내 희귀질환정보에 포함되는 기준으로 추출하였으며, 유병률이 극히 낮은 질환이지만 평가에 포함된 문헌 수는 최소 7편에서 최대 25편까지 평가에 포함된 것으로 나타났다. 또한 4개 기술(67%)은 임상 문헌뿐만 아니라 가이드라인이 확인되어 임상적 유용성 등의 참고자료로 활용하였다. 다만, 해당 기술 중 무작위 임상시험 연구가 포함된 기술은 1편[28]에 불과하였으며, 나머지 5개 기술은 대다수 진단법 평가연구 혹은 증례연구, 증례보고 수준의 문헌을 포함하여 근거의 수준이 높은(A, B) 사례는 확인할 수 없었다. 통과 건 중 근거의 수준은 높음(A, B)이 아닌 중간(C)이 가장 많은 비중을 차지하였는데, 이는 통과된 기술의 절반 이상이 체외진단검사 혹은 기타검사 분야로 문헌적 근거 수준이 높은 무작위 임상시험 연구 혹은 코호트 연구가 아닌 진단법 평가연구 등의 연구 유형이 평가에 포함되어 근거의 수준에 연관성을 보이는 것으로 확인하였다. 이러한 결과는 임상연구 설계 시 기술의 특성이 반영된 것으로, 처치 및 시술의 경우 기본적으로 침습적 의료행위가 대다수 포함되어 진단검사보다 근거의 수준이 높은 무작위 임상시험 등의 연구가 평가에 포함되기 어렵다는 선행 연구 내용을 고려하였을 때[33], 비침습적인 진단검사의 경우 진단검사에 적절한 연구 디자인 등으로 인해 근거의 수준이 낮게 나타나는 현상과도 연관지어 해석해볼 수 있다.
또한 신의료기술평가는 국내외에서 출판된 모든 문헌을 활용하므로[34], 인종 특이성을 갖는 기술 혹은 국내 최초로 개발된 일부 기술을 제외하고는 국내 임상 문헌이 없어도 평가 결과에는 연관성을 보이지 않는 것으로 나타났다. 이에 국내 임상 문헌이 없어 미통과하는 사유는 극히 드물 것으로 해석되며, 이는 평가 시 국내에서 수행한 임상 문헌이 있어야만 통과될 수 있는지에 대한 의문을 해소할 수 있을 것으로 생각된다.
이 연구의 한계는 다음과 같다. 첫 번째로는 신의료기술평가 심의기준 개편 이후 사례에 대한 분석이므로, 심의기준 개편 전 사례는 분석에서 제외되었으며, 체계적 문헌고찰이 아닌 신속평가(교과서 및 가이드라인 검토 혹은 전문가 자문 등) 방법을 활용한 의료기술은 평가 시 별도 근거의 수준을 제시하지 않아 심층 분석에 포함하지 못한 제한점이 있다. 이에 의학교과서 및 가이드라인에서 안전성·유효성이 확립된 기술이지만 건강보험요양급여비용 목록에 별도 행위로 분류되어 있지 않은 경우에는 소위원회를 통한 심층평가를 거치지 않고 신속평가를 수행하므로 역사적으로 존재하던 행위의 평가 사례는 심층 분석에 포함하지 못한 한계점이 있다. 이에 표본 수가 크지 않으므로 향후 축적된 자료를 통해 추가 변수 등을 고려하여 대규모 분석이 필요할 것으로 사료된다. 두 번째로는 연구 모형 설계 시 관련 변수는 선행연구를 토대로 구성해야 하나, 유사 목적의 국내·외 선행연구가 확인되지 않아 변수 설정에 제한이 있었다. 이 점을 극복하기 위해, 의료기술평가 보고서 및 평가 기술을 연구대상으로 한 국내[35-38]·외[39-42] 선행문헌에서 활용하고 있는 변수를 참고하여 모형을 설정하였으며, 국내 신의료기술평가 세부 심의기준을 참고하여 평가 보고서에서 추출 가능한 변수를 추가적으로 고려하였다. 세 번째로는 의료기술 특성 상 처치 및 시술과 체외진단검사 혹은 유전자검사 등 기술특성에 따른 평가 선택 문헌이 상이하여 근거의 수준에 미치는 영향이 다를 것으로 판단되어 층화하여 분석하고자 하였으나, 적은 표본 수로 통계적 분석이 이루어지지 않은 한계점이 있다. 네 번째로는 다변량 분석 시 효과변경자를 다변량 분석에 포함하여 보정하는 경우 전체적인 값을 왜곡할 수 있어 분석모형에 기초하여 기술특성뿐만 아니라 각기 범주를 층화하여 분석을 시도하였으나, 마찬가지로 적은 표본 수로 통계적 분석이 이루어지지 않은 한계점이 있다. 이러한 한계점을 보완하기 위해 향후 축적된 자료를 통한 추가 분석이 필요할 것으로 사료된다.
이러한 한계점에도 불구하고 출판된 신의료기술평가 기준에 많은 변화가 있었던 검사 분야 심의기준 개편 이후(16.5.31), 신의료기술평가 보고서를 이용하여 최근 국내 의료기술평가 동향과 신의료기술평가 통과 여부에 연관성을 보이는 요인을 정량적으로 분석한 국내 최초 연구라는 점에 큰 의의가 있다. 의료기술평가 특성 상 평가 시 여러 요소들을 함께 고려해야 하므로 특정 임상 문헌의 포함 여부에 따라 이분법적으로 통과, 미통과를 결정할 수 있다는 연구결과는 아니지만, 신의료기술평가에서 적어도 단순 환자-대조군 연구, 증례연구 혹은 증례보고 수준의 임상 문헌만으로는 평과 통과가 어려울 것을 시사한다.
이 연구는 향후 새로운 의료기술 개발 시 연구 방향(임상 설계)에 대한 기초자료로 활용할 수 있으며, 임상 설계 전 연구자가 고려해야 할 사항을 제시할 수 있다. 또한 향후 연구자뿐만 아니라 의료기술 평가자에게도 평가 시 공정성과 일관성 제고 확립에 기여할 것으로 생각된다.
Notes
Conflict of Interest
No potential conflict of interest relevant to this article was reported.
Acknowledgements
This study was written based on a master’s degree thesis at Graduate School of Public Health, Hanyang University. This study is irrelevant to the perspective of the author’s affiliated institutions and reveals that it is the researcher’s personal opinion.
Supplementary Materials
Supplementary materials are available from https://doi.org/10.5124/jkma.2024.67.1.54.
References
Peer Reviewers’ Commentary
이 논문은 우리나라 신의료기술평가의 현황을 분석하고, 신의료기술평가 결과에 영향을 미치는 요인들을 분석한 연구논문이다. 우리나라 신의료기술평가는 제도 도입 이후 평가 사례가 증가하고 있으나, 평가 대상이 되는 기술의 특성, 평가 방법 및 평가 결과에 연관성을 보이는 요인에 대한 연구는 없는 실정이다. 이 논문은 국내에서 수행된 신의료기술평가 사례를 정량적으로 분석하여 평가의 근거 수준과 평가 결과에 연관성을 보이는 요인을 조사하여 분석하였고, 평가 결과에 근거의 수준이 어떤 연관성을 보이는지를 확인한 논문이다. 이 논문의 연구 결과는 향후 신의료기술 개발의 임상 설계 방향에 대한 기초자료를 제공하고, 임상 설계 전 연구자가 고려해야 할 사항을 제시해 줄 것으로 기대된다.
[정리: 편집위원회]