원자력발전소 상태 판단 경진대회

알고리즘 | 정형 | 회귀 | 산업 | Log Loss

  • moneyIcon 상금 : 1,000만원
  • 1,398명 마감

 

[DACON 답변 요청] train의 224번 데이터에 'V0019' 컬럼

2020.01.17 10:34 2,416 조회

train의 모든 데이터는 숫자로 변환된것으로 아는데 224번 'V0019' 의 데이터에 'Equip Fail' 데이터들이 쭈욱 들어가있네요.


확인 부탁드립니다.

로그인이 필요합니다
0 / 1000
최정명
2020.01.17 10:44

몇몇 데이터들이 문자열이 포함되어 있네요 !
알아서 처리해야 하는것들인가요?

DACON.kn
2020.01.17 10:48

네. 전처리를 통해 문자열 데이터 및 결측치를 다루는 것도 이번 경진대회의 과제 입니다.

DACON.kn
2020.01.17 10:50

최정명님 안녕하세요. 
모사 데이터는 모든 데이터가 숫자로 이루어져 있지만 실제 데이터에는 Bad, CLOSE, Equip Fail, No Data, Normal, OFF, ON, OPEN, System.Char[] 등 문자열 데이터를 포함하고 있습니다. 또한, 훈련 데이터는 모사 데이터와 실제 데이터를 포함합니다.
자세한 내용은 데이터 > A. 데이터 설명을 참고해주시기 바랍니다.
참고로 224.csv 의 'V0019' 컬럼은 모두 숫자로 되어있음을 확인했습니다.
감사합니다:)

최정명
2020.01.17 11:24

답변 감사합니다.
지금 보니 224.csv가 아니라 30.csv로 확인하였습니다.
모사 데이터가 실제 데이터를 숫자 데이터로 변경한것을 의미하는것이 맞나요 ? 

Team
2020.01.17 11:25

저도 224.csv는 숫자로 되어있지만, train에서 30.csv는 additional 데이터와 같은 형태로 되어있음을 확인했습니다.
ON, No Data 와 같은식으로 값들이 채워져 있네요.

또한 580개의 row만 존재합니다.

최정명
2020.01.17 11:37

네네 맞아요 224.csv 가 나온건 ... 폴더에서 파일을 불러오는 과정에 파일명 sort 기준이 달랐어서 그랬던것 같습니다.
224번째 index 로 들어온 파일 명 확인을 해보니 30.csv 네요.
그런데 문자열 데이터를 전처리를 각자 해야 하겠지만 이 데이터만 문자열만 끼어 있어서 궁금해서 질문하였습니다.
그리고 다른 데이터와 다르게 580개의 데이터만 있는것도 약간 오류이지 않나 싶습니다.

DACON.kn
2020.01.17 11:48

안녕하세요. 
row 개수의 경우 대부분 파일이 600개 이지만 몇몇 파일은 이보다 적을 수 있습니다.
30.csv 파일의 row 수가 580인 것은 오류가 아님을 안내드립니다.

대회 규칙에 따라 대회 운영 및 데이터 이상에 관련된 질문 외에는 답변 드릴 수 없는 점 양해해 주시기 바랍니다.
감사합니다:)

최정명
2020.01.17 13:29

답변감사합니다.