데이스쿨! 가을맞이 특별할인
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
악성 URL 분류 AI 경진대회
간단하게 추가해볼만한 URL특성(피쳐) 2개 공유
베이스라인 코드에서 활용하는 3개의 피쳐에 더하여
간단하게 2개의 피쳐를 추가하여 Public 스코어 0.867 -> 0.894를 달성하였습니다.
추가한 2개의 피쳐는 다음과 같습니다.
# URL 경로의 깊이 train_df['path_depth'] = train_df['URL'].str.count('/') test_df['path_depth'] = test_df['URL'].str.count('/') # 연속된 숫자의 길이 train_df['max_numeric_sequence'] = train_df['URL'].apply(lambda x: max([len(seq) for seq in re.findall(r'\d+', x)] or [0])) test_df['max_numeric_sequence'] = test_df['URL'].apply(lambda x: max([len(seq) for seq in re.findall(r'\d+', x)] or [0]))
이번 대회는 URL에서 어떠한 피쳐들을 추출하느냐가 중요해보이는데요
고수분들은 이미 많이 치고 나가셨겠지만 혹여나 방향성을 잡거나 감이 안잡히시는 분들을 위해 공유드려봅니다~
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
감사합니다! 많은 도움이 될 것 같습니다~!