Skip to content

hskhyl/News_Topic_Classification

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

sesac_team_project_dl

[SeSAC x Saltlux]LLM 활용 인공지능 서비스 개발자 양성과정에서 진행한 mini-project

프로젝트 소개


[주제 : 뉴스 기사 자동 분류]

  • 세부 내용 : 뉴스 기사를 입력으로 넣어주면 정치, 경제, 사회, 국제 4가지의 column중에서 기사가 해당하는 컬럼이 무엇인지 알고 모델별 성능 비교와 확인
  • 작업 기간 : 2024.03.22 ~ 2024.03.27

[프로젝트 목적]

  • 기본적인 NLP에 대한 내용을 학습 후 학습한 내용의 실습
  • Text classification을 할 수 있는 모델 파이프라인을 구축 후 성능 비교 및 평가

PPT LINK

절차 및 결과


[데이터 크롤링 및 전처리]

  • 중앙일보, 동아일보, 한겨레, 한국일보 23년 분기별 - 정치, 경제, 사회, 국제 4가지 column에 대해 150개씩 추출
  • 이메일 주소, url, 이모티콘, 한자, 특수문자, 괄호, 일본어 등 제거

[모델 개발 및 성능 비교]

Model Accuracy
KoBERT 94.17%
Roberta 77.08%
KoELECTRA 91.66%
BERT 90.28%

[Gradio를 통한 확인] image

팀원 소개


  • 서준호
  • 정승용
  • 홍성균
  • 김도현

About

NLP_project_classification

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 100.0%