DASCHOOL! Fall Special Discount
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
악성 URL 분류 AI 경진대회
간단하게 추가해볼만한 URL특성(피쳐) 2개 공유
베이스라인 코드에서 활용하는 3개의 피쳐에 더하여
간단하게 2개의 피쳐를 추가하여 Public 스코어 0.867 -> 0.894를 달성하였습니다.
추가한 2개의 피쳐는 다음과 같습니다.
# URL 경로의 깊이 train_df['path_depth'] = train_df['URL'].str.count('/') test_df['path_depth'] = test_df['URL'].str.count('/') # 연속된 숫자의 길이 train_df['max_numeric_sequence'] = train_df['URL'].apply(lambda x: max([len(seq) for seq in re.findall(r'\d+', x)] or [0])) test_df['max_numeric_sequence'] = test_df['URL'].apply(lambda x: max([len(seq) for seq in re.findall(r'\d+', x)] or [0]))
이번 대회는 URL에서 어떠한 피쳐들을 추출하느냐가 중요해보이는데요
고수분들은 이미 많이 치고 나가셨겠지만 혹여나 방향성을 잡거나 감이 안잡히시는 분들을 위해 공유드려봅니다~
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
감사합니다! 많은 도움이 될 것 같습니다~!