분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
피싱체커(PhishingChecker)
이 서비스는 AI 기반 피싱/스미싱 탐지 시스템으로, 의심스러운 문자 메시지를 분석하여 피싱 여부를 판단합니다.
[핵심 구조]
1. 3단계 분석 파이프라인
규칙 엔진 → 벡터 검색 (RAG) → LLM 분석 → 최종 점수 계산
2. 주요 컴포넌트
RuleEngine (규칙 기반 검사)
300+ 피싱 키워드 패턴 매칭
문맥 기반 점수 조정 (예: "카카오" + "인증번호" = 고위험)
일상 표현 감점 (예: "ㅋㅋ", "고마워" = 정상 가능성 높음)
Embedder (벡터 임베딩 생성)
OpenAI text-embedding-3-small 사용
텍스트 → 1536차원 벡터 변환
vector_search (RAG 검색)
7,137개 실제 피싱 사례에서 유사 사례 검색
Supabase pgvector + HNSW 인덱스 활용
코사인 유사도 기반
LLMAnalyzer (GPT 분석)
GPT-4o-mini로 문맥 이해 및 피싱 판단
11가지 피싱 유형 분류
오탐 방지 가이드 포함
3. 최종 판단 로직
최종 점수 = 규칙 점수 + 벡터 점수 + LLM 점수위험도 수준 = high(70~) / medium(50~) / low(30~) / safe(~30)
LLM이 "정상"으로 판단 시 점수 감소 (확신도에 따라 30-70%)
[성능]
정확도: ~85%
응답 시간: 2-4초
오탐율: ~10%
데이터: 7,137개 실제 피싱 사례
[특징]
네이버/구글/Reddit 뉴스 + Google Images OCR 데이터 활용
규칙/AI/빅데이터 조합으로 높은 정확도
실시간 처리 가능 (FastAPI 백엔드)
안녕하세요, 제안서 잘 읽었습니다! 특히 단순히 모델을 돌리는 것에 그치지 않고, GitHub Actions를 활용해 매일 5개 소스에서 병렬 크롤링을 수행하며 7,000건 이상의 최신 DB를 유지하는 파이프라인이 정말 압권이네요. 데이터의 선순환 구조를 설계하신 부분에서 많은 걸 배웠습니다.
저희 팀도 모바일 네이티브 환경에서 OS 통합 시뮬레이션을 진행하며 '최신 피싱 패턴의 실시간 반영'이 가장 큰 숙제였는데, 피싱체커의 RAG와 LLM의 하이브리드 구조가 그 해답을 명확히 제시해 주는 것 같습니다. 혹시 HNSW 인덱스를 활용한 검색 최적화 과정에서 임베딩 모델의 차원 수 대비 검색 속도를 2~4초 내로 끊기 위해 별도의 튜닝을 하셨는지도 궁금합니다. 좋은 자극 받고 갑니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
웹 앱 링크 잘 못 올려져서 다시 올립니다.
https://phishing-checker-one.vercel.app 여기로 들어가시면 웹앱으로도 직접 사용해보실 수 있습니다.