분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
라벨인코딩 중 겹치는 이름에 대하여..
안녕하세요.
feature를 라벨링 하던 중 겹치는 이름에 관하여 궁금한게 있어
여러분은 어떻게 처리하셨는 지 의견 나눠봅니다.
feature중 first_parthy와 second_party는 각각 사건의 당사자들 이름인데요.
동명의 이름이 있습니다.(약 128명)
이는 같은 사람으로 봐야할까요. 아니면 다른 사람으로 봐야 할 까요.
**코드 공유해드립니다.
#######################################################
# 라벨인코딩
first_party_labels = train['first_party'].unique()
second_party_labels = train['second_party'].unique()
print("겹치는 라벨이 있는지 확인:")
print("first_party와 second_party의 라벨 개수:", len(first_party_labels), len(second_party_labels))
intersection = set(first_party_labels) & set(second_party_labels)
if len(intersection) > 0:
print("겹치는 라벨이 있습니다:", intersection)
print("겹치는 라벨의 갯수는:", len(intersection))
else:
print("겹치는 라벨이 없습니다.")
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
글쎄요 ... 개인적으로 사실 여러가지 해보고 잘나오는 방식을 취하는게 맞을 것 같습니다..