스마트 공장 제품 품질 상태 분류 AI 온라인 해커톤

쉐도우 EDA

2023.02.03 12:39 3,073 조회

안녕하세요, LG Aimers에 참가할 자격이 없는 지나가던 아저씨입니다.

그리고 비교적 참여 조건이 느슨했던 지난 LG Aimers 대회 1등 수상팀 팀원이기도 합니다.


아무나 볼 수 있는 Train 데이터 10행을 보고, 제가 참여했다면 어떤 순서로 EDA, 데이터 탐색을 했을지 이야기를 풀어 보겠습니다.



1. Y_Quality와 Y_Class

공장에서 제품을 만든 다음에는 항상 잘 만들어졌는지 품질 검사를 합니다.

예를 들어 0.5mm 두께의 물건을 만드는데 정확하게 0.5mm가 아니라 조금 얇게 나올 수도 있고 조금 두껍게 나올 수 있습니다.

너무 얇거나 두꺼우면 안되니까, 실제 활용을 염두에 두고 허용 가능한 범위를 두는데, 보통 기준 스펙(spec)이라고 부르죠.


이 대회에서는 Y_Class를 예측하는 것이 목표인데요, Y_Quality와 Y_Class의 관계(설정된 Spec)를 확인한 다음 여러가지 전략을 세울 수 있습니다.


A. Y_Quality 무시하고 그냥 Y_Class 예측 모형 만들기

B. Y_Quality를 예측하고 Spec 범위를 활용해서 Y_Class를 생성하기

C. A.와 B.를 모두 활용하기



2. LINE과 PRODUCT_CODE

6개의 LINE과 3개의 PRODUCT_CODE가 있네요. 위에서 말한 SPEC이 LINE, PRODUCT_CODE에 따라 어떻게 다른지 확인합니다.


LINE의 이름에서 010, 050,100과 같은 나름의 규칙을 찾아 볼 수도 있겠네요.


Train 데이터를 보면 8분 간격으로 PRODUCT_CODE가 반복이 되고 있는데요, 어떤 규칙이 있는지 살펴볼 수는 있겠지만

Test 데이터에서는 8분 전 PRODUCT_CODE를 확인하지 못하는 건들이 많기 때문에 점수에 큰 영향은 없을 것 같네요.


LINE과 PRODUCT_CODE에 따라 X 데이터 조합이 다릅니다.

쉽게 생각해보면, LINE과 PRODUCT_CODE별로 수집되는 정보가 다른데 대회를 위해서 하나의 데이터로 합친 것 같네요. 물론 겹치는 정보들도 있습니다.


역시 아래처럼 두가지 전략을 세워볼 수 있습니다.


A. 각 LINE, PRODUCT_CODE별로 데이터를 분할하고 따로 모형 적합하기

  • 필요한 변수만 활용하기 때문에 메모리/연산 효율적
  • 각 LINE, PRODUCT_CODE별 모형 최적화 가능


B. 한번에 모형 적합하기

  • 단일 모형이라 관리하고 활용하기 편함
  • 여러 LINE이 공유하는 X_246과 같은 변수의 역할 기대



3.  X들

수백개의 수치형 변수를 보면 흥분해서 상관계수 행렬을 구하는 사람이 많습니다.

물론 Phase3에서 발표자료를 만들면서 시도해 볼 수 있긴 하겠지만, 제대로 의미를 해석하지 못하면서 기계적으로 그래프 하나 넣는 경우가 많더라구요.

X는 개수도 많고 관계도 복잡하기 때문에 미리 살펴보는 것은 비효율적입니다.


일단 모형을 적합한 이후에 여러분이 배우셨을 Explainable ML의 관점에서 접근해서 설명하는 것이 훨씬 현명한 방법입니다.




4. 팀 구성 추천

저는 일을 하고 있는 사람이라 시간을 맞추기 어려워서 보통 혼자 대회에 참여하는데요, 지난번 대회에서 팀으로 해보니 참 좋았습니다.

특히 Phase3에서는 시간도 짧고(1박 2일) 할 일도 많기 때문에 한 두 명으로는 현실적으로 어렵습니다.

아직 초반이니까 서로 탐색도 많이 해보고 점수도 봐 가면서 괜찮은 팀을 구성하시면 열심히 하면 30등 정도는 충분히 가능해 보입니다. 전체 대회 참여자가 600명인데, 5명씩 30등이면 150명이니까요.



모두 나름의 좋은 결과 얻으시길 바라요:)




로그인이 필요합니다
0 / 1000
ever4red
2023.02.03 12:44

좋은 의견 감사합니다

broken
2023.02.03 13:51

많은 참고가 되었습니다 감사합니다

이세의인공지능
2023.02.04 01:45

경험에서 나온 논리적인 전략이 대단하게 느껴지네요!

DM_MSI
2023.02.04 03:09

많은 참고가 될 것 같아요~!! 정말 감사합니다.

ROKO
2023.02.05 13:22

좋은 분석 감사합니다!

리니삼춘
2023.02.06 14:26

좋은 글 감사합니다!

김애옹
2023.02.06 23:01

좋은 글 감사합니다

탄화수소
2023.02.15 22:13

많은 도움이 되었습니다. 감사합니다!

INDIGoooo
2023.02.16 15:38

좋은 정보 감사합니다. 궁금한게 있어 질문 하나 남깁니다ㅎㅎ 저번 phase3는 동일한 주제로 진행하셨었나요??

너도
2023.02.16 16:27

감사합니다!

있어보이는여자
2023.02.16 16:28

감사합니다!