월간 데이콘 법원 판결 예측 AI 경진대회

라벨인코딩 중 겹치는 이름에 대하여..

2023.06.19 01:25 1,002 조회

안녕하세요.


feature를 라벨링 하던 중 겹치는 이름에 관하여 궁금한게 있어

여러분은 어떻게 처리하셨는 지 의견 나눠봅니다.


feature중 first_parthy와 second_party는 각각 사건의 당사자들 이름인데요.

동명의 이름이 있습니다.(약 128명)


이는 같은 사람으로 봐야할까요. 아니면 다른 사람으로 봐야 할 까요.



**코드 공유해드립니다.

#######################################################

# 라벨인코딩

first_party_labels = train['first_party'].unique()

second_party_labels = train['second_party'].unique()


print("겹치는 라벨이 있는지 확인:")

print("first_party와 second_party의 라벨 개수:", len(first_party_labels), len(second_party_labels))


intersection = set(first_party_labels) & set(second_party_labels)

if len(intersection) > 0:

    print("겹치는 라벨이 있습니다:", intersection)

    print("겹치는 라벨의 갯수는:", len(intersection))

else:

    print("겹치는 라벨이 없습니다.")

로그인이 필요합니다
0 / 1000
제출수늘려주세요
2023.06.19 09:06

글쎄요 ... 개인적으로 사실 여러가지 해보고 잘나오는 방식을 취하는게 맞을 것 같습니다..