분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
월간 데이콘 법원 판결 예측 AI 경진대회
라벨인코딩 중 겹치는 이름에 대하여..
안녕하세요.
feature를 라벨링 하던 중 겹치는 이름에 관하여 궁금한게 있어
여러분은 어떻게 처리하셨는 지 의견 나눠봅니다.
feature중 first_parthy와 second_party는 각각 사건의 당사자들 이름인데요.
동명의 이름이 있습니다.(약 128명)
이는 같은 사람으로 봐야할까요. 아니면 다른 사람으로 봐야 할 까요.
**코드 공유해드립니다.
#######################################################
# 라벨인코딩
first_party_labels = train['first_party'].unique()
second_party_labels = train['second_party'].unique()
print("겹치는 라벨이 있는지 확인:")
print("first_party와 second_party의 라벨 개수:", len(first_party_labels), len(second_party_labels))
intersection = set(first_party_labels) & set(second_party_labels)
if len(intersection) > 0:
print("겹치는 라벨이 있습니다:", intersection)
print("겹치는 라벨의 갯수는:", len(intersection))
else:
print("겹치는 라벨이 없습니다.")
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
글쎄요 ... 개인적으로 사실 여러가지 해보고 잘나오는 방식을 취하는게 맞을 것 같습니다..