월간 데이콘 반도체 박막 두께 분석 경진대회

알고리즘 | 정형 | 회귀 | 산업 | MAE

상금 : 83만원
1,560명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[3등][제로콜라맛있다] NN-SWA-KFold

제로콜라맛있다

2020.02.04 11:17 8,945 조회 language

최종 제출 모델코드입니다.

코드

댓글 10개

로그인이 필요합니다

comment

0 / 1000

당쇠

2020.02.07 16:43

많은 고민과 노력에 감사드립니다.

CHa

2020.02.10 20:29

잘 참고 하겠습니다. 감사합니다.

gunwoo1217

2020.02.12 11:19

혹시 cosine 스케줄러의 역할이 뭔지 알수있을까요?

제로콜라맛있다

2020.02.12 13:27

warm up 단계 이후에 lr을 max 와 min 값 사이에서 조절해주는 방식의 스케쥴러 입니다.(SGDR: Stochastic Gradient Descent with Warm Restarts 라는 논문에서 소개)

제로콜라맛있다

2020.02.12 13:28

SWA(Stochastic Weight Averaging)를 사용하기 위해서 추가한 방식인데요.
SWA는 이전 학습 N epoch의 파라미터 들을 이용해서 다음 파라미터를 업데이트 하게 됩니다. 이때 그냥 고정된 lr이나 reduce lr을 사용하게 되면 하나의 포인트 부근에서 수렴하게 되므로, local minima 포인트를 여러 개 찾아서 업데이트 하기 위해서 lr을 주기적으로 변화시켜서 여러 개의 포인트를 찾기 위해서 사용했습니다.

제로콜라맛있다

2020.02.12 13:29

자세한 내용은 논문을 보시는것을 추천합니다. 저도 완전히 읽어보고 사용하기 보다는 아이디어를 보고 조금 더 높은 성능을 얻기위해서 사용한 정도입니다.
https://arxiv.org/pdf/1803.05407.pdf

사실 SGD를 사용해야하는데 실제로 SGD사용시 학습이 너무 느려져서 Adam을 사용하긴 했습니다. ㅠㅠ

gunwoo1217

2020.02.18 19:48

답변 정말 감사드립니다. epoch 1회 당 lr 이 일정하게 변화하는거 맞나요?

hngvvu

2020.06.01 22:59

혹시 이메일 주소 알려주실 수 있나요?

제로콜라맛있다

2020.06.02 14:51

lively93@naver.com 입니다