악성 URL 분류 AI 경진대회

간단하게 추가해볼만한 URL특성(피쳐) 2개 공유

2025.02.06 16:47 1,023 조회

베이스라인 코드에서 활용하는 3개의 피쳐에 더하여

간단하게 2개의 피쳐를 추가하여 Public 스코어 0.867 -> 0.894를 달성하였습니다.


추가한 2개의 피쳐는 다음과 같습니다.

# URL 경로의 깊이
train_df['path_depth'] = train_df['URL'].str.count('/')
test_df['path_depth'] = test_df['URL'].str.count('/')


# 연속된 숫자의 길이
train_df['max_numeric_sequence'] = train_df['URL'].apply(lambda x: max([len(seq) for seq in re.findall(r'\d+', x)] or [0]))
test_df['max_numeric_sequence'] = test_df['URL'].apply(lambda x: max([len(seq) for seq in re.findall(r'\d+', x)] or [0]))

이번 대회는 URL에서 어떠한 피쳐들을 추출하느냐가 중요해보이는데요

고수분들은 이미 많이 치고 나가셨겠지만 혹여나 방향성을 잡거나 감이 안잡히시는 분들을 위해 공유드려봅니다~

로그인이 필요합니다
0 / 1000
기미양
2025.02.07 12:16

감사합니다! 많은 도움이 될 것 같습니다~!