분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
ICTC 2025 논문 포스터발표자료 공유(마네키네코, Updated 25.10.14)
안녕하세요, 한양대학교 경영컨설팅학과 박사과정 박준호입니다.
저는 스마트 기기의 라이프로그 데이터로 수면 상태에 영향을 미치는 다양한 요인들을 머신러닝으로 분석한 연구를 발표할 예정입니다.
발표 자료는 내용의 이해를 돕기 위해 상세히 작성하였으나, 시간 제약으로 인해 발표 시에는 핵심 내용만 간략히 전달할 예정입니다.
아울러, 저의 발표자료를 이해하시는 데 도움을 드리고자 발표 스크립트를 댓글란에 기재하였습니다.
감사합니다.
박준호 드림
Deleted Comment
Deleted Comment
고생많으셨습니다!
감사합니다^^
#발표 스크립트
#Slide 1: Title
영어: Good afternoon. I'm Junho Park from Hanyang University, and today I'll be presenting our research on analyzing sleep determinants using lifelog data and machine learning.
한글: 안녕하십니까. 한양대학교 박준호입니다. 오늘 라이프로그 데이터와 머신러닝을 활용한 수면 지표 및 결정요인 분석 연구에 대해 발표하겠습니다.
#Slide 2: Research Background & Objectives
영어: Poor sleep is a major health issue, yet past studies with single sensors overlooked key digital and environmental factors. So, we analyze multi-sensor lifelog data to identify key sleep determinants, providing a scientific basis for personalized sleep healthcare.
한글: 수면은 중요한 문제지만, 과거 단일센서 연구는 핵심 디지털·환경 요인을 간과했습니다. 그래서 우리는 다중 센서 데이터를 분석하여 핵심 수면 결정요인을 규명하고, 이를 통해 개인맞춤형 수면 헬스케어의 과학적 근거를 제공하고자 합니다.
#Slide 4: Data Preprocessing: 4-Stage Process [1/2]
영어: Making sense of this raw data required a rigorous, four-stage preprocessing workflow. In the first stage, we transformed raw sensor data into meaningful metrics. For example, activities were converted to METs, noise categories to decibels, and GPS data to VSD. We also merged light data from both devices into a single, unified stream. Then, we extracted features from various time windows, calculating statistics like the mean and standard deviation for each.
한글: 이 원시 데이터를 의미있게 만들기 위해, 4단계의 정교한 전처리 과정을 거쳤습니다. 첫 단계로, 원시 센서 데이터를 의미 있는 지표로 변환했습니다. 예를 들어, 활동은 METs로, 소음 유형은 데시벨로, GPS 데이터는 VSD로 변환했습니다. 또한, 두 기기의 조도 데이터를 단일화된 스트림으로 통합했습니다. 그다음, 다양한 시간대에서 특징들을 추출하여 각 시간대의 평균이나 표준편차 같은 통계치를 계산했습니다.
#Slide 5: Data Preprocessing: 4-Stage Process [2/2]
영어: Next, we enriched the data with external context like weather and holidays. Finally, we merged and cleaned the dataset, ensuring a high-quality foundation for analysis.
한글: 다음으로, 날씨나 공휴일 같은 외부 맥락 정보로 데이터를 보강했습니다. 마지막으로, 데이터셋을 병합하고 정제하여 분석을 위한 고품질 기반을 확보했습니다.
#Slide 6: Hypothesis Framework
영어: With our data ready, we formulated thirty hypotheses to test the link between five factors and six sleep indicators. The null hypothesis, HO, states that a factor does not impact a sleep indicator, while the alternative, Hone, states that it does.
한글: 데이터 준비 후, 5개 요인과 6개 수면 지표 간의 연관성을 검증하기 위해 30개의 가설을 수립했습니다. 귀무가설(H0)은 '요인이 수면 지표에 영향을 미치지 않는다'이며, 대립가설(H1)은 '영향을 미친다'는 것입니다.
#Slide 7: Modeling & Statistical Verification
영어: First, we built our final, optimized model after selecting key features with an initial model, reducing the feature set by nearly fifty-percent. We then rigorously validated this model's significance by running permutation importance thirty times per factor and conducting a t-test. The null hypothesis was rejected if the p-value was less than point-zero-five, and the confidence interval's lower bound was above zero.
한글: 먼저 초기 모델로 핵심 특징을 선별하여 특징 수를 약 50% 줄인 뒤, 최종 최적화 모델을 구축했습니다. 이후 이 모델의 유의성을 엄격히 검증하고자, 요인별 순열 중요도를 30회 반복 측정하고 t-검정을 수행했습니다. 귀무가설은 p-값이 0.05 미만이고, 신뢰구간의 하한값이 0보다 클 경우에 기각했습니다.
#Slide 8: Key Findings & Implications
영어: So, what was our most critical finding? That digital factors — our smartphone use — were uniquely significant across all six sleep indicators. This shows modern sleep is profoundly shaped by our digital behavior, potentially even more so than by traditional biosignals. Our work calls for a new focus on digital and environmental health for truly personalized sleep care. Thank you for your attention. I'd be happy to take any questions.
한글: 그렇다면, 가장 중요한 발견은 무엇이었을까요? 디지털 요인, 즉 스마트폰 사용이 6개 모든 수면 지표에 걸쳐 유일하게 유의미했습니다. 이는 현대인의 수면이 디지털 행동에 의해 깊게 좌우되며, 전통적 생체신호보다 더 큰 영향을 받을 수 있음을 보여줍니다. 저희 연구는 진정한 개인 맞춤형 수면 관리를 위해 디지털 및 환경적 건강에 새로운 초점을 요구합니다. 경청해 주셔서 감사합니다. 이제 질문 받겠습니다.
#[REF] Model Performance
영어: This table summarizes the Macro F1 scores for each sleep target. Top result appears in S3 — sleep onset latency, reaching around zero point six five. Q1–Q3 and S2 show stable performance in the low to mid zero-six range. S1 — total sleep time — is relatively lower, due to three-class labels and inter-class ambiguity. We evaluated with repeated stratified two-fold CV, five repetitions, Random OverSampling for class imbalance correction, and Macro F1 as the metric.
한글: 이 표는 각 수면 지표별 Macro F1 성능을 요약해 보여줍니다. 최고 성능은 수면잠복기(S3)에서 약 0.65로 나타납니다. 주관 지표(Q1–Q3)와 수면효율(S2)은 0.61–0.63대의 안정적 성능을 보였습니다. 총수면시간(S1)은 3분류 구조와 경계 모호성 때문에 상대적으로 낮습니다(≈0.47). 검증은 반복 층화 2-폴드(×5회), 클래스 불균형 보정을 위한 Random OverSampling, 그리고 Macro F1 지표로 수행했습니다.
#[REF] Research Hypothesis Framework
영어: This framework is a five-by-six matrix that links five factor groups to six sleep outcomes, forming thirty testable hypotheses. The rows represent five factor groups: Physiological, Behavioral, Digital, Environmental, and Social-Calendar. The columns list six sleep outcomes: Subjective quality, pre-bed fatigue and stress, total sleep time, efficiency, and onset latency. How to read it: Choose a row and a column. The cell states the hypothesis: this factor impacts this outcome.
한글: 이 프레임워크는 5개의 요인군과 6개의 수면 결과 지표를 연결하는 5x6 매트릭스로, 총 30개의 검증 가능한 가설을 제시합니다. 행(F1-F5)은 생리적, 행동적, 디지털, 환경적, 그리고 사회/달력의 다섯 가지 요인군을 나타냅니다. 열(Q1-S3)은 주관적 수면의 질, 취침 전 피로/스트레스, 총 수면 시간, 수면 효율, 입면 소요 시간의 여섯 가지 결과 지표를 의미합니다. 읽는 법은 간단합니다. 행과 열을 선택하면, 교차하는 셀이 ‘해당 요인이 해당 결과에 영향을 미친다’는 하나의 가설이 됩니다.
#[REF] Data Preprocessing & Variable Generation Procedure
영어: Our data pipeline combines smartphone/watch sensor data with weather records. In a four-step process, we first parse and normalize raw JSON logs into meaningful metrics like METs for activity and decibels for noise. Second, we create temporal features by summarizing these metrics over various time windows (30-180 min) using statistical aggregation. Third, we enrich the data with calendar and weather context. Finally, we merge all features and clean the dataset, resulting in a model-ready table that integrates physiological, behavioral, environmental, and other signals.
한글: 스마트폰·워치 센서와 기상 데이터를 결합하여 4단계의 전처리 과정을 거칩니다. 먼저 원시 데이터(JSON)를 정규화하고 활동량(MET), 소음(dB) 등 유의미한 지표로 변환합니다. 다음으로, 다양한 시간 창(30~180분)을 적용해 통계적으로 요약된 시간적 특징을 생성합니다. 여기에 달력, 날씨 등 외부 정보를 추가로 결합한 뒤, 마지막으로 모든 특징을 통합하고 데이터를 정제하여 생리·행동·환경 등 여러 요인을 포함하는 최종 분석용 테이블을 완성합니다.
#[REF] Repeated Stratified 2-Fold Cross-Validation Procedure
영어: To ensure reliable evaluation and prevent overfitting, we use a repeated (5 times) stratified 2-fold cross-validation. This process is first applied iteratively to find optimal model parameters, with stratification ensuring balanced class proportions in each split and preventing data leakage. Once the best parameters are identified, the final model is trained on the entire dataset. The model's performance is reported as the average score obtained from the repeated validation loops.
한글: 과적합을 방지하고 신뢰도 높은 평가를 위해, 5회 반복되는 계층 2-폴드 교차검증을 사용했습니다. 이 절차는 먼저 최적의 파라미터를 찾는 반복 과정에 사용되며, 각 데이터 분할에서 클래스 비율을 동일하게 유지하여(계층화) 데이터 유출을 막습니다. 최적의 구성이 결정되면, 전체 데이터로 최종 모델을 학습시키고, 교차검증 과정에서 얻은 평균 성능 점수를 최종 결과로 보고합니다.
#[REF] Data Processing and Dataset Construction
영어: This section illustrates key data transformations used to create the final analysis table. It shows how raw sensor data—such as complex noise lists, numeric activity codes, and separate light sensor streams from smartphones and smartwatches—are converted into standardized, usable metrics. Examples include mapping noise to a single decibel (dB) value, activity to a Metabolic Equivalent (MET) value, and merging light data into a unified stream. This process results in a structured table organized by subject and date, containing these newly engineered features.
한글: 이 자료는 원시 데이터를 분석 가능한 형태로 변환하는 주요 전처리 예시를 보여줍니다. 예를 들어, 복잡한 소음 데이터는 단일 데시벨(dB) 값으로, 활동 코드는 표준화된 대사당량(MET) 값으로 변환됩니다. 또한 스마트폰과 워치의 조도 데이터는 하나의 통합된 값으로 결합됩니다. 이 과정을 통해 피험자와 날짜별로 정리된 최종 분석 테이블이 생성되며, 여기에는 이렇게 가공된 새로운 변수들이 포함됩니다.
#[REF] SUMMARY OF ENGINEERED FEATURES
영어: We integrate various signals from smartphones and smartwatches, aggregating them over multiple time windows (30-180 min). We then generate key features by statistically summarizing data like light (unified into a single stream), noise (dB), activity (MET), and mobility (GPS). Finally, we enrich this with device usage context (screen/app stats) and external data (weather, calendar flags) to complete the analysis dataset.
한글: 스마트폰과 워치의 여러 신호를 통합하고, 다양한 시간창(30~180분)으로 집계합니다. 조도(단일 신호 통합), 소음(dB), 활동(MET), 이동성(GPS) 등의 데이터를 통계적으로 요약해 주요 변수를 생성합니다. 여기에 화면 사용량, 앱 통계 등 기기 사용 정보와 날씨, 요일/공휴일 같은 외부 맥락 정보를 더해 분석 데이터를 완성합니다.
#[REF] SENSOR DATA CONFIGURATION
영어: This slide shows where our data comes from: the smartphone and the smartwatch. From the phone, we capture usage and environmental signals that summarize the day's context. From the watch, we track movement and physiological patterns that reflect the body's state day and night. Together, these two sources provide behavioral, environmental, and physiological cues that link to sleep quality.
한글: 이 슬라이드는 데이터의 출처—스마트폰과 스마트워치—를 보여줍니다. 스마트폰에서는 사용 행태와 주변 환경 신호를 수집해 하루의 맥락을 요약합니다. 스마트워치에서는 움직임과 생리 패턴을 추적해 낮과 밤의 신체 상태를 파악합니다. 두 기기 신호를 결합해 행동·환경·생리 단서를 동시에 확보하고, 수면의 질과 연결합니다.
#[REF] SLEEP-RELATED DEPENDENT VARIABLES
영어: This slide summarizes the six sleep metrics used as dependent variables. We group them into two types: subjective states Q1–Q3 and objective indicators S1–S3. Labels categorize each metric by recommended ranges and serve as targets for our models. For example: if S1 is recommended but Q1 is below average, it may indicate adequate duration with poorer perceived quality.
한글: 이 슬라이드는 종속 변수로 사용한 여섯 가지 수면 지표를 요약합니다. 이는 주관적 상태 Q1–Q3와 객관적 지표 S1–S3로 구분됩니다. 각 지표는 권장 범위를 기준으로 라벨링되며 모델의 목표 변수로 사용됩니다. 예를 들어 S1이 권장 수준이지만 Q1이 평균 이하라면, 수면 시간은 충분하지만 주관적 질은 낮음을 시사합니다.
#[REF] MAPPING mActivity TO MET
영어: This slide summarizes how we convert mActivity codes into MET values to quantify physical activities on an objective and consistent basis. Using this standardized value allows for clear comparison and analysis of energy expenditure levels, regardless of the activity type or individual. The table shows the project-defined mapping; we assign the MET per record using mActivity.
한글: 이 슬라이드는 mActivity 코드를 MET 값으로 변환해, 다양한 신체 활동을 객관적이고 일관된 기준으로 정량화하는 방식을 요약합니다. 이렇게 표준화된 값을 사용하면 활동 유형이나 개인에 관계없이 에너지 소모 수준을 명확하게 비교하고 분석할 수 있습니다. 테이블에는 프로젝트에서 정의한 매핑이 제시되어 있으며, 저희는 mActivity를 사용해 각 레코드에 MET 값을 할당합니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
Deleted Comment