데이터에 관련한 데이콘의 오해
- day2020.10.28 22:05
- views922 views
- writer
by 시은
안녕하세요, 저는 심리학 박사 수료자입니다.
데이터에 관한 오해가 있는 듯 하여 몇 자 남겨 봅니다.
1. 시간 데이터
보통 이 시간 데이터는 밀리초 단위입니다. 상대 단위가 아닙니다. 실험심리학 전공자면 너무 기초 상식입니다.
2. TPTI 데이터
TPTI 데이터는 1점부터 7점으로 구성돼 있고 0이 결측이어야만 합니다. 왜냐하면, 성격 5요인 구조를 단 10문항으로 옮겼기에 평가 불능이면 0점으로 채점하여 합산했을 때 결측치 영향이 상쇄돼야 하기 때문입니다. 그런데 데이콘 배포 데이터는 7이 결측이라 하니, 이건 뭔가 잘못됐습니다.
3. MACH-4 척도
MACH-4 척도는 경진대회를 하기에 썩 좋은 데이터가 아닙니다. 응답자의 Response Avoidance 문제 때문에 진짜 MACH 성향이 높은 사람은 높은 점수를 응답을 안 하는 이상 상황이 생깁니다. 이걸 ML 모델이나 신경망 모델만으로 해결할 수 있느냐? 그렇진 못합니다. 분명 시도는 좋지만, 100회씩이나 반복해도 AUC가 1위부터 100위까지 소수점 두 자리 수 반올림으로 .78이 나오는 현 상태는 뭔가 이상하지요.
심리측정을 연구하는 연구자로서, 이런 대회가 있단 거를 듣고 적어 봤습니다.
댓글 8개