분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
월간 데이콘 코드 유사성 판단 AI 경진대회
데이터 이상치
별로 중요하지는 않습니다만 데이터 셋중에는 굉장히 이상한 데이터 또한 포함되어 있다는 것을 알려드리고자 합니다.
기본적인 EDA를 위해서 각 문제번호에 해당하는 토큰들의 평균 길이를 출력해보았을 때 이상치 하나가 끼어져있다는 것을 쉽게 발견할 수 있는데, 다른 데이터셋들은 평균 길이가 대부분 400이하인 반면 하나는 평균 토큰 길이가 1200개 이상인 것을 확인할 수 있습니다.
problem094_70.py 가 이러한 현상의 원인인데 혼자 대략 100000개의 토큰을 만들어냅니다.
확인해보시면 어떤 코드(실행파일)를 인코딩한 다음 다시 디코드해서 실행시키는 형태로 인코딩된 텍스트가 코드내에 그대로 들어가 이렇게 된 것이지요.
아마 인코딩한 파일은 C로 생각되는데 확실하지는 않습니다.
어쨌든 한 파일이 100000개의 토큰을 만들어 내는 이상치 또한 존재한다는 것을 공유하고 싶었습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved