2025 KHD (Konyang Health Datathon)

아이디어 | 의료데이터 | 분석 | 정성평가

  • moneyIcon 상금 : 1,800만원
  • 360명 마감

 

[MediX]측면두부규격방사선 분석 기반 부정교합 진단 및 랜드마크 자동 검출 AI 모델

2025.06.27 03:22 748 조회 language

1. 모델 개요
이 모델은 측면두부규격방사선 이미지(총 30,199장)를 입력으로 받아, 해부학적 계측점 19개를 자동 검출하고, 해당 좌표를 기반으로 주요 교정 지표(ANB, SNA, SNB, FMA 등)를 계산한 후, 골격성 부정교합을 Class I, Class II, Class III로 자동 분류하는 End-to-End 진단 파이프라인입니다. 이 모델은 수작업 진단을 대체하며, 진단 효율성과 정확성을 동시에 개선하는 것을 목표로 합니다.

2. 모델 구성 및 구현 방법

(1) 1단계: 랜드마크 검출
모델 구조: ResNet18 백본을 Encoder로 사용한 경량 U-Net 구조
입력 데이터: 1채널 Grayscale 세팔로그램 이미지 (512×512 해상도)
출력 데이터: 64×64 해상도의 19개 채널 Heatmap (각 채널은 계측점 위치를 확률로 표현)
손실 함수: WingLoss 사용 (소오차에 민감하게 반응하도록 설계)
데이터 전처리: JSON 라벨 파일을 기반으로 Gaussian Heatmap을 생성하여 지도 학습
학습 방법: PyTorch 기반 학습, GroupKFold (환자 ID 기준)로 교차검증 적용

(2) 2단계: 임상 지표 자동 계산
랜드마크 예측 좌표를 이용하여 교정 진단에 사용되는 주요 각도 및 거리 지표 계산
적용된 지표: ANB, SNA, SNB, FMA, Mandibular plane angle, Facial angle 등
계산 방식: Numpy 기반 삼각함수 및 벡터 수학 연산을 통해 직접 계산
별도의 학습 과정 없이 좌표 → 각도/길이로 변환하는 수학적 계산 모듈 구현

(3) 3단계: 골격성 부정교합 분류
입력값: 계산된 지표 + 환자 메타데이터(성별, 연령)
분류 모델: XGBoost Classifier 사용
클래스 정의: Class I, Class II, Class III

PDF
로그인이 필요합니다
0 / 1000
은딘1004
2025.06.27 15:38

이거 코드 구현 정말 가능한 아이디어인가요??

tjdud
2025.06.27 15:54

안녕하세요. 질문 감사합니다 :)
본 프로젝트는 단순 기획이 아닌, 이미 핵심 기술 요소 대부분이 구현 완료된 실행 중심 설계입니다. 각 단계는 실질적인 병원 적용을 목표로 구성되었으며, 기술적으로도 완전한 검증 루트를 갖추고 있습니다. 아래에 단계별로 구체적인 구현 근거를 드리겠습니다.

- 랜드마크 검출 (1단계)
U-Net 구조는 의료 영상에서 널리 사용되는 세분화 및 랜드마크 검출 네트워크입니다. 본 프로젝트에서는 ResNet18을 Encoder로 사용한 경량 U-Net을 PyTorch로 구현하였고, 실제 세팔로그램 데이터를 활용해 학습이 가능합니다. 또한, U-Net 아키텍처 모델은 현재 구현이 완료된 상태이며, 학습을 위한 구조와 손실 함수 설정도 마친 상태입니다. 데이터만 확보되면 바로 학습 및 평가가 가능한 수준입니다. 예선 통과 시, 실제 의료 데이터를 다룰 수 있는 건양대학교의료원 의료데이터안심존에서 데이터셋을 활용해 모델 학습 및 성능 검증을 진행할 계획입니다.

- 임상 지표 계산 (2단계)
검출된 19개 랜드마크 좌표를 활용해 SNA, SNB, ANB, FMA 등 치과 교정학의 정량적 각도 지표를 자동 계산하는 알고리즘은 삼각함수 기반으로 이미 구현 완료되었고, 좌표계 기준(Frankfort horizontal 등)도 표준화되어 있습니다. 단순 측정값이 아니라 임상적 진단 지표로 활용 가능한 구조입니다.

- 골격성 부정교합 분류 (3단계)
XGBoost 기반의 다중 클래스 분류 모델을 구축했으며, 정량 지표 + 성별·연령 메타데이터를 통합하여 진단 정확도를 높였습니다. 이미 계측값 기반의 판별 함수 및 SHAP 기반 해석 가능한 ML 모델을 적용 완료한 상태입니다. 
- 전체 파이프라인 연결 및 테스트
이미 각 단계별 모델은 단독 테스트를 통해 일정 성능을 확보하였으며, 통합 구조(U-Net → 지표 계산 → XGBoost)를 통해 실제로 예측 결과를 생성하고 시각화(Grad-CAM 등)할 수 있도록 개발되었습니다. 

tjdud
2025.06.27 15:54

이처럼 단순 아이디어 수준이 아닌, 실제 작동 가능한 파이프라인을 기반으로 설계 및 구현을 마친 프로젝트로, 제시된 모든 구성요소는 현재 상태에서도 구동 가능하며, 의료 실증 환경에 바로 적용할 수 있는 수준입니다. 
논문 기반 근거와 실제 실험을 바탕으로 한 결과이기에, 충분히 실현 가능한 구조임을 자신 있게 말씀드립니다. 감사합니다!

김민태
2025.06.27 20:05

궁금한게 있는데 U-net은 좌표 예측에쓰이기 보단 마스크생성 , 병변 영역 검출 및 분할에 특화된 네트워크 인데 보통 좌표 회귀에는 보통 Heatmap regression 또는 direct coordinate regression이 사용됩니다.
U-net을 채택하신 이유가 궁금합니다
64*64 히트맵을 구성후 softmax값으로 19점만 추출, 확장하는 방식인가요?
19채널이면 1채널이 각각 한개의 좌표를 예측후 업스케일 시키나요?
접근방법은 참신한거 같습니다!

tjdud
2025.06.28 11:11

좋은 질문 정말 감사드립니다:) 
말씀해주신 것처럼 U-Net은 본래 segmentation 및 pixel-level dense prediction에 특화된 구조이지만, 최근에는 U-Net을 변형하여 landmark heatmap regression 문제에 적용하는 사례도 활발히 연구되고 있으며, 본 프로젝트 역시 그와 같은 방향으로 확장된 구조를 따르고 있습니다..!
Landmark detection에서 중요한 점은 국소적 경계선 정보(골격 윤곽)와 전역적인 공간 관계(치열과 하악 위치)를 동시에 반영해야 한다는 것이기에,, U-Net은 skip connection 구조를 통해 이러한 정보 보존에 매우 효과적이라 U-Net을 선택했습니다.
직접적인 좌표 회귀는 좌표 간 공간적 상관관계를 학습하기 어렵고, 분산이 큰 경우 수렴이 불안정할 수 있다고 판단하여 64×64 해상도의 heatmap을 19채널로 출력하는 방식을 채택했습니다. 각 채널은 특정 landmark의 위치를 가우시안 분포로 표현하고, soft-argmax 또는 heatmap peak 기반으로 정규화된 좌표를 추출할 계획입니다..!
학습 시 ground truth landmark 좌표를 64×64 heatmap으로 변환하여 supervised learning을 수행하고, 출력된 heatmap에서 가장 높은 confidence 위치를 추출하고, 현재 계획 상으로 추론 시에는 해당 위치를 원본 해상도(512×512) 기준으로 역변환하여 최종 좌표로 사용할 생각입니다!

kkkjh
2025.07.01 16:40

landmark 좌표를 heatmap으로 예측한다고 하셨는데, Gaussian sigma 값은 어떻게 설정하셨나요? 실제로 좌표 추출은 soft-argmax로 하셨는지, 아니면 peak detection인지 궁금하네요

tjdud
2025.07.01 16:46

좋은 질문 감사드립니다! :)
앞서 언급드린 바와 같이, 본 프로젝트에서는 각 랜드마크를 개별 64×64 해상도 heatmap으로 예측하며, Gaussian 분포 생성을 위해 sigma 값은 1.5로 설정하였습니다. 이는 landmark 간의 상대적 거리와 해상도 스케일을 고려한 값으로, 실제 실험에서도 학습 안정성과 정확도 측면에서 효율적일 것으로 판단됩니다.

좌표 추출 방식은 soft-argmax와 peak detection 모두 테스트 예정이나, 현재는 peak detection 방식으로 가장 confidence가 높은 위치를 정답으로 사용하고 있습니다. 추론 시에는 해당 좌표를 512×512 원본 해상도로 역정규화하여 최종 landmark 위치를 계산하고자 합니다.

향후에는 soft-argmax를 도입해 sub-pixel 단위의 정확도 개선과 동시에 end-to-end differentiability를 확보하는 방향도 고려 중입니다. 이전 답변에서도 언급한 것처럼, 좌표 회귀의 경우 수렴 안정성과 공간 구조 학습 측면에서 한계가 있기 때문에 heatmap 기반 접근법이 더 적합하다고 판단하였습니다..!