분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
잘 참고 하겠습니다. 감사합니다.
혹시 cosine 스케줄러의 역할이 뭔지 알수있을까요?
warm up 단계 이후에 lr을 max 와 min 값 사이에서 조절해주는 방식의 스케쥴러 입니다.(SGDR: Stochastic Gradient Descent with Warm Restarts 라는 논문에서 소개)
SWA(Stochastic Weight Averaging)를 사용하기 위해서 추가한 방식인데요.
SWA는 이전 학습 N epoch의 파라미터 들을 이용해서 다음 파라미터를 업데이트 하게 됩니다. 이때 그냥 고정된 lr이나 reduce lr을 사용하게 되면 하나의 포인트 부근에서 수렴하게 되므로, local minima 포인트를 여러 개 찾아서 업데이트 하기 위해서 lr을 주기적으로 변화시켜서 여러 개의 포인트를 찾기 위해서 사용했습니다.
자세한 내용은 논문을 보시는것을 추천합니다. 저도 완전히 읽어보고 사용하기 보다는 아이디어를 보고 조금 더 높은 성능을 얻기위해서 사용한 정도입니다.
https://arxiv.org/pdf/1803.05407.pdf
사실 SGD를 사용해야하는데 실제로 SGD사용시 학습이 너무 느려져서 Adam을 사용하긴 했습니다. ㅠㅠ
답변 정말 감사드립니다. epoch 1회 당 lr 이 일정하게 변화하는거 맞나요?
혹시 이메일 주소 알려주실 수 있나요?
lively93@naver.com 입니다
안녕하세요? 데이크루 4기 반박자팀입니다. 프로젝트 기반 학습자료를 제작하면서 본 코드를 링크하였습니다. 감사합니다.
https://dacon.io/competitions/official/236047/codeshare/7689
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
많은 고민과 노력에 감사드립니다.