월간 데이콘 반도체 박막 두께 분석 경진대회

알고리즘 | 정형 | 회귀 | 산업 | MAE

  • moneyIcon 상금 : 83만원
  • 1,555명 마감

 

[3등][제로콜라맛있다] NN-SWA-KFold

2020.02.04 11:17 8,869 조회 language

최종 제출 모델코드입니다.

코드
로그인이 필요합니다
0 / 1000
당쇠
2020.02.07 16:43

많은 고민과 노력에 감사드립니다. 

CHa
2020.02.10 20:29

잘 참고 하겠습니다. 감사합니다.

gunwoo1217
2020.02.12 11:19

혹시 cosine 스케줄러의 역할이 뭔지 알수있을까요?

제로콜라맛있다
2020.02.12 13:27

warm up 단계 이후에  lr을 max 와 min 값 사이에서 조절해주는 방식의 스케쥴러 입니다.(SGDR: Stochastic Gradient Descent with Warm Restarts 라는 논문에서 소개)

제로콜라맛있다
2020.02.12 13:28

SWA(Stochastic Weight Averaging)를 사용하기 위해서 추가한 방식인데요.
SWA는 이전 학습 N epoch의 파라미터 들을 이용해서 다음 파라미터를 업데이트 하게 됩니다. 이때 그냥 고정된 lr이나 reduce lr을 사용하게 되면 하나의 포인트 부근에서 수렴하게 되므로, local minima 포인트를 여러 개 찾아서 업데이트 하기 위해서 lr을 주기적으로 변화시켜서 여러 개의 포인트를 찾기 위해서 사용했습니다.

제로콜라맛있다
2020.02.12 13:29


자세한 내용은 논문을 보시는것을 추천합니다. 저도 완전히 읽어보고 사용하기 보다는 아이디어를 보고 조금 더 높은 성능을 얻기위해서 사용한 정도입니다. 
https://arxiv.org/pdf/1803.05407.pdf

사실 SGD를 사용해야하는데 실제로 SGD사용시 학습이 너무 느려져서 Adam을 사용하긴 했습니다. ㅠㅠ

gunwoo1217
2020.02.18 19:48

답변 정말 감사드립니다. epoch 1회 당 lr 이 일정하게 변화하는거 맞나요?

hngvvu
2020.06.01 22:59

혹시 이메일 주소 알려주실 수 있나요?

제로콜라맛있다
2020.06.02 14:51

lively93@naver.com 입니다

Saturday.K
2023.02.24 01:43

안녕하세요? 데이크루 4기 반박자팀입니다. 프로젝트 기반 학습자료를 제작하면서 본 코드를 링크하였습니다. 감사합니다.

https://dacon.io/competitions/official/236047/codeshare/7689