분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
도배 하자 유형 분류 AI 경진대회
csv파일 0점 문제 질문드립니다.
안녕하세요. 한글 문제 때문에 csv파일이 계속 0점이 나오는데
혹시 인코딩 부분을 뭐라고 작성해야하는지 알 수 있을까요?
아마도 pandas에서 한글 encoding 문제가 있는 것 같은데 확인 부탁드립니다.
utf-8로도 해보고 그냥도 해봤는데 안 됩니다.
바꿀 때는 다음과 같이 pandas를 이용했습니다.
감사합니다.
제출하는 submit의 label을 한번 살펴보세요..
예를들어, '가구수정' 이라고 눈으로는 보이지만.. 한글자씩 찍어보면.. ㄱㅏㄱㅜㅅㅜㅈㅓㅇ 이런식으로 되어있더라구요.
올바른 점수가 나오려면,, 가 구 수 정 이렇게 출력이 되어야 맞습니다.
한글자씩 찍어보라는게 for 문으로 넣어서 돌려보라는 건가요?
submit 파일의 "label" 에 저장된 string을 한글자씩 찍어보세요.
예를들어 A = "가구수정" 이렇게 되어있는 경우 ( A는 "label" 에 저장된 값)
A[0]을 해봤을때 "ㄱ"이 나오면 안되고, "가"가 나오도록 해야합니다.
A[0] 하나만 해보시고 "가"와 같이 한글자가 온전히 나오는지 확인해보세요.
'감사합니다'
그렇네요. 해보니까 'ㄱ'이라고 나오는군요..ㅠ 감사합니다.
utf 8 sig로 인코딩 해보세요. 코드 공유에 인코딩 관련글 있습니다.
아 아예 깨지는게 아니라 자모분리면 인코딩이 아니라 타입 문제에요. 그것도 내용에 포함되어 있으니 보시면 해결될 것 같습니다..
모자분리의 경우, 아래와 같은 코드로 해결이 되더라구요.
import unicodedata
string = submit['label']
for i in range(string.shape[0]):
uni1 = unicodedata.normalize('NFD',(string[i]))
uni2 = unicodedata.normalize('NFC',uni1)
print(uni2)
submit['label'][i]=uni2
unicodedata 사용해서하면 자음모음 분리 안되고 나와서 제대로 인식 되는거같은데요 그거안하면 자,모음 분리되서 나와서 그런거같은데요
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
살려주세요...ㅠㅠㅠ