도배 하자 유형 분류 AI 경진대회

csv파일 0점 문제 질문드립니다.

2023.05.16 20:40 1,732 Views
05_17.csv

안녕하세요. 한글 문제 때문에 csv파일이 계속 0점이 나오는데

혹시 인코딩 부분을 뭐라고 작성해야하는지 알 수 있을까요?

아마도 pandas에서 한글 encoding 문제가 있는 것 같은데 확인 부탁드립니다.

utf-8로도 해보고 그냥도 해봤는데 안 됩니다.

바꿀 때는 다음과 같이 pandas를 이용했습니다.


감사합니다.

로그인이 필요합니다
0 / 1000
느아
2023.05.17 09:54

살려주세요...ㅠㅠㅠ

다냐니라
2023.05.17 10:43

제출하는 submit의 label을 한번 살펴보세요..
예를들어, '가구수정' 이라고 눈으로는 보이지만.. 한글자씩 찍어보면.. ㄱㅏㄱㅜㅅㅜㅈㅓㅇ 이런식으로 되어있더라구요.
올바른 점수가 나오려면,, 가 구 수 정 이렇게 출력이 되어야 맞습니다.

느아
2023.05.17 11:23

한글자씩 찍어보라는게 for 문으로 넣어서 돌려보라는 건가요?

다냐니라
2023.05.17 12:39

submit 파일의 "label" 에 저장된 string을 한글자씩 찍어보세요. 
예를들어 A = "가구수정" 이렇게 되어있는 경우 ( A는 "label" 에 저장된 값)
A[0]을 해봤을때 "ㄱ"이 나오면 안되고, "가"가 나오도록 해야합니다.
A[0] 하나만 해보시고 "가"와 같이 한글자가 온전히 나오는지 확인해보세요.

니닌
2023.05.17 13:40

'감사합니다'

니닌
2023.05.17 13:42

그렇네요. 해보니까 'ㄱ'이라고 나오는군요..ㅠ 감사합니다.

Dovahkiin
2023.05.18 16:08

utf 8 sig로 인코딩 해보세요. 코드 공유에 인코딩 관련글 있습니다.

Dovahkiin
2023.05.18 16:09

아 아예 깨지는게 아니라 자모분리면 인코딩이 아니라 타입 문제에요. 그것도 내용에 포함되어 있으니 보시면 해결될 것 같습니다..

Mark2do
2023.05.24 14:22

모자분리의 경우, 아래와 같은 코드로 해결이 되더라구요.

import unicodedata

string = submit['label']
for i in range(string.shape[0]):
  uni1 = unicodedata.normalize('NFD',(string[i]))

  uni2 = unicodedata.normalize('NFC',uni1)
  print(uni2)
  submit['label'][i]=uni2

text121
2023.05.24 15:54

unicodedata 사용해서하면 자음모음 분리 안되고 나와서  제대로 인식 되는거같은데요 그거안하면 자,모음 분리되서 나와서 그런거같은데요