월간 데이콘 코드 유사성 판단 AI 경진대회

데이터 이상치

2022.05.16 23:06 2,102 조회

별로 중요하지는 않습니다만 데이터 셋중에는 굉장히 이상한 데이터 또한 포함되어 있다는 것을 알려드리고자 합니다.

기본적인 EDA를 위해서 각 문제번호에 해당하는 토큰들의 평균 길이를 출력해보았을 때 이상치 하나가 끼어져있다는 것을 쉽게 발견할 수 있는데, 다른 데이터셋들은 평균 길이가 대부분 400이하인 반면 하나는 평균 토큰 길이가 1200개 이상인 것을 확인할 수 있습니다.

problem094_70.py 가 이러한 현상의 원인인데 혼자 대략 100000개의 토큰을 만들어냅니다.

확인해보시면 어떤 코드(실행파일)를 인코딩한 다음 다시 디코드해서 실행시키는 형태로 인코딩된 텍스트가 코드내에 그대로 들어가 이렇게 된 것이지요.

아마 인코딩한 파일은 C로 생각되는데 확실하지는 않습니다.


어쨌든 한 파일이 100000개의 토큰을 만들어 내는 이상치 또한 존재한다는 것을 공유하고 싶었습니다.