월간 데이콘 심리 성향 예측 AI 경진대회

데이터 변수 설명

2020.09.28 09:07 14,439 조회
  • index
  • Q_A / Q_E (a~t) 비식별화를 위해 일부 질문은 Secret 처리
  • Qa : Secret
  • Qb : The biggest difference between most criminals and other people is that the criminals are stupid enough to get caught.
  • Qc : Anyone who completely trusts anyone else is asking for trouble.
  • Qd : Secret
  • Qe : P.T. Barnum was wrong when he said that there's a sucker born every minute.
  • Qf : There is no excuse for lying to someone else.
  • Qg : Secret
  • Qh : Most people forget more easily the death of their parents than the loss of their property.
  • Qi : Secret
  • Qj : It is safest to assume that all people have a vicious streak and it will come out when they are given a chance.
  • Qk : All in all, it is better to be humble and honest than to be important and dishonest.
  • Ql : Secret
  • Qm : It is hard to get ahead without cutting corners here and there.
  • Qn : Secret
  • Qo : The best way to handle people is to tell them what they want to hear.
  • Qp : Secret
  • Qq : Most people are basically good and kind.
  • Qr : One should take action only when sure it is morally right.
  • Qs : It is wise to flatter important people.
  • Qt : Secret


1=Disagree, 2=Slightly disagree, 3=Neutral, 4=Slightly agree, 5=Agree.


  • Q_E(a~t) : 질문을 답할 때까지의 시간


  • age_group : 연령


  • education : 교육 수준
  • 1=Less than high school, 2=High school, 3=University degree, 4=Graduate degree, 0=무응답


  • engnat : 모국어가 영어
  • 1=Yes, 2=No, 0=무응답


  • familysize : 형제자매 수


  • gender : 성별
  • Male, Female


  • hand : 필기하는 손
  • 1=Right, 2=Left, 3=Both, 0=무응답


  • married : 혼인 상태
  • 1=Never married, 2=Currently married, 3=Previously married, 0=Other


  • race : 인종
  • Asian, Arab, Black, Indigenous Australian, Native American, White, Other


  • religion : 종교
  • Agnostic, Atheist, Buddhist, Christian_Catholic, Christian_Mormon, Christian_Protestant, Christian_Other, Hindu, Jewish, Muslim, Sikh, Other


  • tp__(01~07) : items were rated "I see myself as:" _____ such that
  • tp01 : Extraverted, enthusiastic.
  • tp02 : Critical, quarrelsome.
  • tp03 : Dependable, self-disciplined.
  • tp04 : Anxious, easily upset.
  • tp05 : Open to new experiences, complex.
  • tp06 : Reserved, quiet.
  • tp07 : Sympathetic, warm.
  • tp08 : Disorganized, careless.
  • tp09 : Calm, emotionally stable.
  • tp10 : Conventional, uncreative.

순서형 변수


  • urban : 유년기의 거주 구역
  • 1=Rural (country side), 2=Suburban, 3=Urban (town, city), 0=무응답



  • wr_(01~13) : 실존하는 해당 단어의 정의을 앎
  • 1=Yes, 0=No
  • wf_(01~03) : 허구인 단어의 정의를 앎
  • 1=Yes, 0=No


  • voted (타겟): 지난 해 국가 선거 투표 여부
  • 1=Yes, 2=No








오랜만에 돌아온 정형데이터 대회입니다.


심리 성향 테스트를 활용해 설문자의 국가 선거 투표 여부를 맞추는 알고리즘을 만들어주세요!!





로그인이 필요합니다
0 / 1000
SDSTony
2020.09.28 14:39

안녕하세요 고생많으십니다. 

1. wr_ 와 wf_ 같은 경우 1과 0으로 인코딩 되어 있는 것 같은데 한 번 확인 부탁드립니다.

2. engnat에 1,2값외에 0도 기록되어 있으며, 해당 부분은 어떤 뜻인지 궁금합니다. 

DACON.ZERO
2020.09.28 16:23

안녕하세요 문의 주신 부분에 대해 수정했습니다.

변수 설명에 없는 숫자는 결측치라 생각하시면 될 것 같습니다. 감사합니다.

Jamm
2020.09.28 16:57

삭제된 댓글입니다

Jamm
2020.09.28 16:16

삭제된 댓글입니다

Kosney
2020.10.02 22:45

질문을 답할 때까지 시간의 기준은 초 단위인가요?

DACON.ZERO
2020.10.03 17:00

아닙니다. 시간 변수는 상대적인 변수로 판단하시면 됩니다

brainstormot
2020.10.10 22:51

QaE부터 QtE 까지의  단위는 동일하다고 봐도 될까요?

DACON.ZERO
2020.10.15 11:11

예 그렇습니다

DACON.ZERO
2020.10.15 11:11

삭제된 댓글입니다

jyeon6313
2020.10.16 15:04

안녕하세요 !
tp__(01~10) 의 답변 데이터 분포가 0부터 7까지 되어있던데  각 답변의 의미가 무엇인지 알 수있을까요?

DACON.ZERO
2020.10.17 11:58

변수에 대한 설명 추가했습니다.

순서형 변수로 생각하시면 됩니다.

1에 가까울 수록 본인이 생각하는 정도가 강한 것입니다.

감사합니다.

INEEDCOFFEE
2020.10.18 00:01

데이터가 1~7 이 아닌 0~7 의 스케일로 구성되어 있던데 0 은 무응답으로 보는 것이 맞나요?

DACON.ZERO
2020.10.21 14:15

삭제된 댓글입니다

nohhh
2020.10.19 14:25

5만개의 데이터 (train+test) 중 무응답을 포함한 데이터의 수가 4만개 이상인것 같은데 혹시 0~6의 값이 정상데이터고 7이 무응답인건 혹시 아닌가요??

DACON.ZERO
2020.10.21 14:15

안녕하세요. 데이콘입니다.

nohhh님 말대로 7이 무응답이고 0~6이 정상데이터입니다 

혼란을 드려 죄송합니다.

jyeon6313
2020.10.26 17:02

삭제된 댓글입니다

시은
2020.10.27 22:13

아닙니다. TPTI는 애초에 1부터 7까지로 만들어져 있으며, 코드북에도 1부터 7까지만 정의해 뒀습니다. 만약 이걸 임의로 수정했다면 데이콘에서 배포한 문제가 있는 거죠.

jyeon6313
2020.10.29 10:11

삭제된 댓글입니다

nohhh
2020.10.29 11:10

데이콘 관계자님 답변해주셔서 감사합니다. 7 무응답으로 하니까 데이터 분포가 잘 보이네요 ^^

비회원
2020.11.04 13:25

삭제된 댓글입니다

DACON.ZERO
2020.10.21 14:42

데이콘입니다.

1=Disagree, 2=Slightly disagree, 3=Neutral, 4=Slightly agree, 5=Agree.입니다

감사합니다.

pkw.may
2020.10.26 15:28

wr_(01~13) : 실존하는 해당 단어의 정의을 앎
wf_(01~03) : 허구인 단어의 정의를 앎

위 두 컬럼은 마키아벨리즘 테스트지와는 별개로 진행된 질문지일까요? 해당 컬럼의 정확한 영문명이나 질문지 등 자세한 정보를 확인할 수  있는지 궁금합니다.

DACON.ZERO
2020.10.26 16:10

동시에 진행된 질문지입니다.

데이터 출처페이지 openpsychometrics.org에서 기존 데이터의 자세한 컬럼 설명을 확인할 수 있습니다.

데이콘에서 제작해서 제공한 데이터는 해당 데이터를 문제화 한 것으로 기존의 데이터와 다릅니다.

감사합니다.

jyeon6313
2020.10.26 17:01

그럼 tp 변수 0 = 전혀 그렇지 않다, 1 = 어드 정도 않다면, 2 = 약간된다,
 3 = 그럴수도 아닐 수도있다, 4 = 약가 그렇다, 5 = 어느정도 그렇다, 6 = 완전 그렇다, 7 = 무응답으로 보는게 맞는건가요?? 

maxha97
2020.10.27 14:13

저도 궁금합니다

DACON.ZERO
2020.10.29 14:41

기존 데이터는 1~7이며
 1 = Disagree strongly

 2 = Disagree moderately

 3 = Disagree a little

4 = Neither agree nor disagree

5 = Agree a little

6 = Agree moderately

7 = Agree strongly

저희가  전처리를 7-기존 응답값으로 제작했습니다.

즉 0이  Agree strongly 라고 생각하시면 됩니다.

답변이 늦어 죄송합니다.

YoohwaCha
2020.11.10 09:39

삭제된 댓글입니다

문성민
2020.10.28 23:18

저는 7이 없던데요..!! train.voted.value_counts() 했을 때 1과 2밖에 없네요 
1 : 20634
2 : 24898

DACON.ZERO
2020.10.29 14:42

안녕하세요 데이콘입니다.

저희 측에서도 train voted 변수에서 7을 발견하지 못했습니다.

해당 문제 사항이 있으시다면 캡처해서 토론 글에 올려주실 수 있으실까요?

감사합니다.

김정빈
2020.10.30 21:14

결혼여부에서
1:결혼을 하지 않음
2:결혼했음
3:이전에 결혼했음(이혼?..사별?...)
인데 0(OTHER)은 어떤 경우인가요?

DACON.ZERO
2020.11.04 12:01

안녕하세요 정빈님

0(OTHER)은 결측치 등을 의미합니다.

감사합니다.

데이콘 팀 드림

yo
2021.02.05 16:28

안녕하세요. 본 대회의 데이터를 석사 과정중에 연구하는데 사용할 수 있을까요?
더 다양한 실험을 통해 좋은 성능을 내게 된다면 논문으로 작성할 때 데이콘의 출처만 밝히면 별다른 문제가 발생하지 않는지도 궁금합니다.
좋은 데이터 올려주셔서 감사합니다.