블럭 장난감 제조 공정 최적화 AI경진대회

알고리즘 | 정형 | 강화 학습 | 제조

  • moneyIcon 상금 : 총 600만원
  • 873명 마감

 

PPO를 활용한 베이스라인

2020.06.15 22:10 8,956 조회 language


discrete action space ppo 모델 두개를 사용하는 방법입니다.

수렴 가능성은 그다지 높진 않다고 생각됩니다. 참고용으로 봐주시면 감사하겠습니다.

저는 이 코드를 활용해서 87점까지 학습이 가능했습니다. 아마 더 좋은 방법도 있을거라 생각됩니다.


다른 문제가 발생하거나 궁금한점이 있으시면 댓글 남겨주시길 바랍니다.


2020 06 16 수정 : 시뮬레이터에서 적합도 함수를 조금 변경해주셔야 합니다. 부족분도 반영하도록 아래 다른 글과 같이 변경해주시면 됩니다.
2020 06 26 수정 : 제출물 마지막 check부분에 대한 오류 수정 및 train중 csv 저장 하지 않도록 변경

코드
로그인이 필요합니다
0 / 1000
도비콘
2020.06.15 23:01

감사합니다.

우리집전자렌지골드스타
2020.06.16 11:32

공유 감사합니다. 공부해 보겠습니다. ㅎㅎ

모모는바보
2020.06.24 15:14

삭제된 댓글입니다

나단단단단단단단단단단단단단단단단단단단
2020.06.26 11:10

수정사항이 적용되었습니다. 제보해주신분들께 감사드립니다.

조예성
2022.06.03 19:32

감사합니다!