건설공사 사고 예방 및 대응책 생성 : 한솔데코 시즌3 생성 AI 경진대회

데이터 품질에 다소 아쉬움이 느껴지는데 여러분의 생각은 어떠신지요?

2025.03.09 08:15 1,296 조회

안녕하세요.

"재발방지대책 및 향후조치계획"과 "사고원인" 간의 인과관계가 명확하지 않다고 느끼고 있습니다.


데이터를 육안으로 분석해도 "재발방지대책 및 향후조치계획"와 다른 데이터 간의 관계를 파악하기 어려운 경우가 많습니다.

특히, "재발방지대책 및 향후조치계획"이 "사고원인"에 특화되어 있기보다 범용적인 문장으로 구성되어 있다고 생각합니다.

그 근거로, 모든 예측값을 "작업전 안전교육 실시와 안전관리자 안전점검 실시를 통한 재발 방지 대책 및 향후 조치 계획."로 채워도 스코어가 0.5 이상 나옵니다.

아울러 데이터 품질(특히 인과관계)에 문제가 있는 경우, 어떤 전략을 취하는 것이 좋을지 의견을 구합니다.


감사합니다.

로그인이 필요합니다
0 / 1000
제출수늘려주세요
2025.03.09 10:56

저도 같은 의견입니다 ..ㅎㅎ
주최측맘이겠구나 하고있어요

마네키네코
2025.03.09 11:04

염려스러운 점은 한솔데코의 의도와는 달리 높은 점수를 얻기 위해 오버피팅된 산출물이 나올 가능성이 있다는 것입니다. 제가 이 대회를 위해 전공이나 경력과는 다른 건설 안전관리 분야를 조금이나마 공부하여 모델링에 반영해보았으나, 오히려 점수가 더 하락하는 결과를 얻었습니다. ㅠㅠ 물론 이는 제 부족함 때문일 것입니다. 답변 감사드립니다.

ingbeeeded
2025.03.09 12:00

저는 아직 안해봤는데 RAG가 의미가 있긴한가요?
대충 train만 봐도, pdf가 의미가 있는지가 잘 안느껴지네요

마네키네코
2025.03.09 12:27

대회에서 보다는 한솔데코에서 목표로 하고 있는 시스템에서는 RAG가 의미가 있을 것이라고 생각합니다. 그리고 사실 저도 PDF를 어떻게 사용해야 할지 고민중입니다.^^ 답변 감사드립니다.

snaiws
2025.03.09 17:46

저희 팀 첫회의에서도 이 얘기 나왔었습니다. 저도 점수보단 general한 모델을 목표로 하는 중입니다. 데이콘도 private score 있지 않을까 해서요.

마네키네코
2025.03.09 18:01

저도 순위보다는 현장에 도움이 되는 모델을 만들고 싶은 마음입니다. 다만, 해외여행을 가고싶은데 지금 받는 용돈으로는 힘들어서...ㅠㅠ

zzuniie
2025.03.09 17:57

저는 데이터셋이 일정한 규칙을 가지고 만들어졌다기 보단 
약간 사고 원인을 바탕으로 포괄적인 대책이 레이블링 되어 있다고 생각했습니다

마네키네코
2025.03.09 18:03

저도 같은 생각입니다. 그리고 아마도 최종 순위는 정성적 평가에서 갈릴 것 같다는 생각도 듭니다.

LEXXSH
2025.03.09 19:17

동의합니다.. ㅎㅎ
저도 PDF에 대한 내용이나 다른 추가적인 데이터셋을 확보하여 학습을 하면 할수록 점수가 떨어지는 모습을 보이더군요...
단순 일관적인 데이터처리만으로 현재는 높은 점수이나, 최종 제출에는 다양한 기법을 활용한 범용적인 모델을 제출할것 같습니다.
말씀하신대로 2차평가에서 제대로된 평가가 이루어질거같은데,,, 1차로 리더보드 상위를 달성하여야 이 기회를 얻을 수 있어서,, 어떻게해야하나 고민중입니다..

마네키네코
2025.03.09 19:22

저도 같은 입장입니다.ㅎㅎ 일단 Top10에 들어가야 기회를 얻을 수 있기 때문에 일단은 높은 점수를 얻는 방향으로 진행하고 있습니다. 이러면 안된다는 걸 알면서도 마음이 따라주지 않네요...

Jacksian
2025.03.10 09:26

모두들 비슷한 마음이시군요. 예선 통과하려면 오버 피팅은 필요하고, 그러자니 본선에서 어필할 부분이 없고.

마네키네코
2025.03.10 21:12

완전 제 상항입니다.ㅎㅎㅎ Top10안에 들어도 걱정될 것 같아요. 본선에서 보여줄게 없어서...ㅋㅋㅋ

이전 글
베이스라인 코드 설명에 label과 length가 바뀐거같습니다.
대회 - 악성 URL 분류 AI 경진대회
좋아요 5
조회 550
댓글 1
4달 전
현재 글
데이터 품질에 다소 아쉬움이 느껴지는데 여러분의 생각은 어떠신지요?
대회 - 건설공사 사고 예방 및 대응책 생성 : 한솔데코 시즌3 생성 AI 경진대회
좋아요 18
조회 1,296
댓글 12
5달 전
다음 글
Inference 소요시간
대회 - 건설공사 사고 예방 및 대응책 생성 : 한솔데코 시즌3 생성 AI 경진대회
좋아요 6
조회 986
댓글 5
5달 전