월간 데이콘 생체 광학 데이터 분석 AI 경진대회

알고리즘 | 정형 | 회귀 | 바이오 | MAE

  • moneyIcon 상금 : 총 360만원
  • 961명 마감

 

public, private 2등 코드

2020.07.04 11:22 7,267 조회 language

안녕하세요. 생체광학 대회 참여하시느라 다들 고생 많으셨습니다!
팀원의 코드를 각각 합쳐서 서브미션 파일을 앙상블 하다보니 코드가 꽤 길어졌네요.
전체적인 흐름은 저희 토론글을 확인하셔도 되겠지만 다시 정리해보자면 (https://dacon.io/competitions/official/235608/talkboard/401049?page=1&dtype=recent&ptype=pub)

* 피쳐
피쳐는 투과도, 흡광도, rho를 나눈 농도와 비례하는 피쳐를 만들었습니다.( src/ dst  ,  log(src/dst) ,  log(src/dst)/rho )
그리고 노이즈를 줄여주기위해 binning, rolling등도 수행하였고요.
가장 성능을 다이나믹하게 올려준건 파장끼리 나눠준 피쳐입니다.(이 피쳐 만으로 lb 0.8X 대 도달가능)

* 학습
1) 위의 피쳐들이 너무 많이 생성되기에 permutation 진행 후 제거된 피쳐만으로 모델 1학습 ( dart lgbm 진행시  lb : 0.79X 도달)
2) 모델 1로 네개의 y값들을 예측한 후 y값들을 피쳐에 추가하고, y끼리 서로 나눈값 또한 추가(나이브 하게 y들의 상관관계를 넣어주기 위해 비율의 피쳐만 추가해줬는데, 이부분을 더 다양하게 접근해보지 못해 아쉽네요. (모델 1에 이 피쳐를 추가하여 학습할 경우 lb : 0.77x 도달)
3) 팀원끼리의 서브미션과 단순 평균내서 앙상블 진행(lb 0.76 도달)

코드
로그인이 필요합니다
0 / 1000
Team
2020.07.04 11:29

혹시 궁금하신점은 편하게 댓글 남겨주세요!

코드 유목민
2020.07.04 12:04

고생하셨습니다

DACONIO
2020.07.04 12:39

수고하셨습니다~ 화이팅 입니다.

Universe
2020.07.04 14:37

고생하셨습니다.

처음해봐요
2020.07.04 17:40

고생하셨습니다~ 잘 보고 배우도록 하겠습니다.

임하식
2022.02.10 17:16

binning을 해서 노이즈가 어떻게 줄었는지와  근적외선 분광법을 이용한 폐플라스틱 논문에서 어떤 모티브를 가져왔는지가 궁금해요~! 

Team
2022.02.11 14:29

binning은 오버피팅을 피하기 위해서 했다고 봐도 될거같습니다.
예를들어, 과거의 signal을 보고 미래의 signal 추세를 예측한다고 했을 때, second마다 생성된 피쳐를 사용하게되면 피쳐가 너무 많아지기도 하고 초단위로 생성되는 노이즈에 영향을 많이 받는다고 생각되어  minute or hour로 묶어서 새로운 피쳐를 생성 했다고 생각하시면 될듯합니다

임하식
2022.02.17 10:16

피쳐는 투과도, 흡광도, rho를 나눈 농도와 비례하는 피쳐를 만들었습니다.( src/ dst  ,  log(src/dst) ,  log(src/dst)/rho )가 궁금합니다

Team
2022.02.11 14:16

음 오래된 대회라 기억이 잘나지는 않는데, lgbm 모델 학습 과정 자체가 feature에 -가 붙나 안붙나 크게 상관이 없다고 생각했고, 제 기억에 - 붙인게 cv자체가 더 좋아서 저렇게 진행했을 거에요

임하식
2022.02.11 14:25

답글 해주셔서 감사합니다