데이터에 관련한 데이콘의 오해

월간 데이콘 심리 성향 예측 AI 경진대회

데이터에 관련한 데이콘의 오해

시은

2020.10.28 22:05 7,367 조회

안녕하세요, 저는 심리학 박사 수료자입니다.

데이터에 관한 오해가 있는 듯 하여 몇 자 남겨 봅니다.

1. 시간 데이터

보통 이 시간 데이터는 밀리초 단위입니다. 상대 단위가 아닙니다. 실험심리학 전공자면 너무 기초 상식입니다.

2. TPTI 데이터

TPTI 데이터는 1점부터 7점으로 구성돼 있고 0이 결측이어야만 합니다. 왜냐하면, 성격 5요인 구조를 단 10문항으로 옮겼기에 평가 불능이면 0점으로 채점하여 합산했을 때 결측치 영향이 상쇄돼야 하기 때문입니다. 그런데 데이콘 배포 데이터는 7이 결측이라 하니, 이건 뭔가 잘못됐습니다.

3. MACH-4 척도

MACH-4 척도는 경진대회를 하기에 썩 좋은 데이터가 아닙니다. 응답자의 Response Avoidance 문제 때문에 진짜 MACH 성향이 높은 사람은 높은 점수를 응답을 안 하는 이상 상황이 생깁니다. 이걸 ML 모델이나 신경망 모델만으로 해결할 수 있느냐? 그렇진 못합니다. 분명 시도는 좋지만, 100회씩이나 반복해도 AUC가 1위부터 100위까지 소수점 두 자리 수 반올림으로 .78이 나오는 현 상태는 뭔가 이상하지요.

심리측정을 연구하는 연구자로서, 이런 대회가 있단 거를 듣고 적어 봤습니다.

댓글 8개

로그인이 필요합니다

comment

0 / 1000

당쇠

2020.10.29 00:11

시은님 전문가의 발전적 비판에 감사드립니다.

DACON.ZERO

2020.10.29 11:18

안녕하세요 데이콘입니다. 먼저 시은님의 건설적인 말씀에 감사드립니다.

말씀해주신 1,2번에 관해선

공개된 데이터로 치팅하는 행위를 방지하는 비식별화를 하는 과정에서 데이터의 척도가 변경되었기 때문에 오해가 발생한 것 같습니다.

저희가 문제를 제작하는 과정에서 척도를 일부 변경했음을 말씀드립니다.

3번의 경우 해당 데이터는 mach데이터만 사용하지 않고 다른 데이터가 결합되어 있음을 말씀드립니다.

이번 월간 데이콘 대회의 경우

어렵지 않은 정형 데이터를 머신러닝으로 분석해보자는 교육적 취지로 제작되었습니다.

전문적인 의견을 남겨주셔서 감사합니다.

시은

2020.10.29 19:54

이 데이터, 어차피 치팅이 안 됩니다. 심리학 전공자인 제가 옛날 옛날에 포기한 데이터인데 뭐가 치팅이 가능합니까. 데이터 속성을 그렇게 마음대로 바꾸어 버리면, 심리측정 데이터는 속성을 잃어버립니다. 무결성이 성립하지 않기에 저는 진지하게 명명 반응 모형 (nominal response model)로 이 데이터를 분석해야 하는가 고민하는 지경에 이르렀습니다. 그런데 이런 사안에 관련한 공지는 존재하지도 않는군요. 응답 시간 데이터도 밀리초가 아니거나 임의로 수정을 가했다면 데이터 스크리닝을 할 수 없습니다.

시은

2020.10.29 11:59

삭제된 댓글입니다

물린다

2020.10.31 08:29

심리학을 전공하신 분도 해결하기 힘든 데이터이기 때문에 이 대회가 더 의미있지 않을까요? 혹 모르는 결과가 있을지도 모르니.. ^^

시은

2020.10.31 09:54

저는 이 대회에서 신경망 모델 없이, 10회 이하 제출로 최고 성능을 증명해 보이려 합니다. 절대로 ML 모델에만 의존할 게 아니란 걸 증명하기 위해서입니다.

물린다

2020.10.31 15:23

저도 응원하겠습니다. 꼭 머신러닝이나 딥러닝이 아니어도 된다는 것을 증명해 주세요. ^^