개발/DICOM 이야기

23. 의료 영상 데이터셋 소개 (NIH Chest X-ray, TCIA 등)

devbake 2025. 7. 30. 21:54

의료 영상 분석 AI 모델을 개발하려면, 대량의 고품질 영상 데이터와 정확한 라벨이 반드시 필요하다.
그러나 의료영상은 환자 개인정보와 밀접하게 연관되어 있어, 공공 데이터로 확보하기가 쉽지 않다.이런 이유로 글로벌 기관에서는 익명화된 오픈 의료 영상 데이터셋을 제공하고 있으며, 연구자와 개발자는 이를 기반으로 딥러닝 모델을 개발하거나 성능을 비교 평가할 수 있다. 이번 글에서는 대표적인 오픈 의료 영상 데이터셋인 NIH Chest X-ray, TCIA, RSNA, CheXpert, VinDr 등을 소개하고, 각 데이터셋의 다운로드 방식, 라벨 구조, DICOM 여부, 활용 시 주의점 등을 정리한다.
특히 AI 학습에 적합한 데이터셋을 고르는 기준과 주제별 분류도 함께 설명한다.

의료 영상 데이터셋 소개 (NIH Chest X-ray, TCIA 등)

 

1. NIH Chest X-ray14

개요

  • 제공 기관: 미국 국립보건원 (NIH)
  • 데이터 수: 약 112,000건
  • 환자 수: 약 30,000명
  • 장비: X-ray
  • 포맷: JPEG (DICOM → 변환)
  • 라벨: 14개 흉부 질환 (Multi-label classification)

특징

  • 라벨은 Radiology 보고서를 기반으로 NLP 자동 추출
  • DICOM이 아닌 JPEG 제공
  • 영상의 해상도는 비교적 낮음 (1024×1024 또는 512×512)

다운로드

 

2. TCIA (The Cancer Imaging Archive)

개요

  • 제공 기관: 미국 국립암연구소 (NCI)
  • 데이터 수: 수백 개의 컬렉션
  • 장비: CT, MRI, PET, Mammo 등
  • 포맷: DICOM
  • 라벨: 대부분 없음 (일부 segmentation 또는 diagnosis 포함)

특징

  • 다양한 암 관련 연구 데이터
  • DICOM 포맷 유지 → PACS 테스트 및 전처리에 적합
  • TCGA, RIDER, LIDC-IDRI 등 유명 컬렉션 포함
  • 연구 논문과 함께 제공되는 경우 많음

다운로드

 

3. RSNA Pneumonia Detection Challenge

개요

  • 주최: RSNA + Kaggle
  • 데이터 수: 약 30,000건
  • 장비: X-ray
  • 포맷: DICOM
  • 라벨: Pneumonia (Bounding box)

특징

  • 폐렴 병변에 대한 Localization 라벨 포함 (좌표 기반)
  • DICOM → PNG 변환 후도 사용 가능
  • AI Object Detection 문제로 적합

다운로드

 

4. CheXpert

개요

  • 제공 기관: Stanford University
  • 데이터 수: 224,000건 이상
  • 환자 수: 약 65,000명
  • 포맷: JPEG
  • 라벨: 14개 흉부 질환 + 불확실성 태그

특징

  • NIH Chest X-ray14의 대안으로 더 정제된 품질 제공
  • 라벨에 “확실”, “불확실”, “부재” 세 가지 클래스 존재
  • Clinical NLP 기반 라벨링 → 라벨 신뢰도 높음

다운로드

 

5. VinDr Chest X-ray, VinDr-CXR

개요

  • 제공 기관: VinBigData (베트남)
  • 데이터 수: 15,000+
  • 포맷: DICOM
  • 라벨: Bounding Box + 질환 라벨

특징

  • 전문가 수작업 라벨링 (Bounding Box 기반)
  • 폐 이상 소견에 대해 정밀하게 라벨링
  • 의료영상 Object Detection 연구에 적합

다운로드

 

6. 데이터셋 선택 시 고려 사항

고려 항목 설명
파일 포맷 DICOM vs JPEG → 전처리/시각화 난이도 차이
라벨 유형 Classification / Detection / Segmentation
라벨 신뢰도 전문가 수작업 vs NLP 자동 생성
해상도 AI 학습 목적에 따라 적절한 해상도 필요
환자 수 모델 일반화 능력 확보 위해 다양성 확보
개인정보 익명화 여부 확인 필수 (TCIA는 완전 익명화)

 

 

7. 실무 활용 팁

  • DICOM 기반 AI 모델 개발 시에는 TCIA나 VinDr를 추천
  • 간단한 Classification 실습에는 NIH, CheXpert가 적합
  • Object Detection 또는 Segmentation 학습에는 RSNA 또는 VinDr 사용
  • 모델 검증용으로는 다양한 출처의 데이터셋을 혼합 사용하는 것이 일반적
  • 대부분의 데이터셋은 라이선스를 확인해야 상업적 활용 가능 여부 판단 가능

 


결론

의료 영상 AI 개발에 있어 데이터셋 선택은 모델 성능과 직접적으로 연결된다.
DICOM 포맷 유지 여부, 라벨링의 정밀도, 질병 범주, 환자 수 등의 조건을 고려해 목적에 맞는 데이터셋을 선택하는 것이 중요하다.
공공 데이터셋은 연구와 학습에 매우 유용하며, 추후 병원 내 실 데이터 적용을 위한 실험 기반으로도 활용 가능하다.
다음 글에서는 AI 의료 분석을 위한 DICOM 데이터 준비 요령을 다룰 예정이다.