Lv.1 NLP 기초 프로젝트 : 문장 간 유사도 측정(STS)

프로젝트 개요

진행 기간: 24년 9월 10일 ~ 24년 9월 26일

데이터셋:

학습 데이터셋 9,324개

검증 데이터셋 550개

평가 데이터는 1,100개

평가 데이터의 50%는 Public 점수 계산에 활용되어 실시간 리더보드에 표기가 되고, 남은 50%는 Private 결과 계산에 활용되었습니다.

부스트캠프AI Tech 7기의 Level1 과정으로 NLP 기초 대회입니다. 주제는 ‘문장 간 유사도 측정’으로, 두 문장이 얼마나 유사한지를 수치화하는 자연어처리 N21 태스크인 의미 유사도 판별(Semantic Text Similarity, 이하 STS)을 진행했습니다. 학습 데이터에 주어진 문장 두 개와 유사도 점수를 기반으로 평가 데이터의 두 문장 간의 유사도를 0과 5 사이의 값으로 예측하는 모델을 구축하였습니다.

프로젝트 구조

📦project1
 ┣ 📂config
 ┃ ┗ 📜config.yaml
 ┣ 📂data
 ┣ 📂model
 ┃ ┗ 📜model.py
 ┣ 📂output
 ┣ 📂tb_logs
 ┣ 📂utils
 ┃ ┣ 📂ensemble
 ┃ ┣ 📂preprocess
 ┣ 📜README.md
 ┣ 📜inference.py
 ┣ 📜requirements.txt
 ┗ 📜train.py

Contributors

역할분담

이름	역할
김민서	베이스라인 코드 구현, 텐서보드 기능 구현, 허깅페이스 내 모델 Search, 모델링 및 튜닝(`klue/roberta-large`, `klue/roberta-base`, `team-lucid/deberta-v3-base-korean`, `deliciouscat/kf-deberta-base-cross-sts`, `upskyy/kf-deberta-multitask`, `kakaobank/kf-deberta-base`, `klue/bert-base`), 앙상블(`soft voting`, `weighted voting`)
김수진	Task에 적합한 모델 Search, 데이터 증강(`swap`), 데이터 분할, 모델링 및 튜닝(`snunlp/KR-ELECTRA-discriminator`), 앙상블(`weighted voting`)
양가연	데이터 전처리(`hanspell`, `soynlp`), 데이터 증강(`copied_sentence`, `swap`, `synonym replacement`, `undersampling`, `masking`), 모델링 및 튜닝(`kykim/electra-kor-base`, `snunlp/KR-ELECTRA-discriminator`, `klue/roberta-large`, `WandB`), 앙상블(`weighted voting`)
이예서	EDA(`Label 분포`, `Source 분포`, `Sentence length 분석`), 데이터 전처리(`특수문자 제거`, `초성 대체`, `띄어쓰기/맞춤법 교정`), 데이터 증강(`sentence swap`, `sentence copy`, `korEDA(SR, RI, RS)`, `K-TACC(BERT_RMR, ADVERB)`), 앙상블(`weighted voting`)
홍성민	모델링 및 튜닝(`kykim/KR-ELECTRA-Base`), 앙상블(`weighted voting`), 베이스라인 코드 수정과 기능 추가
홍성재	하이퍼 파라미터 튜닝(`BS`, `Epoch`, `LR`), 모델 최적화 및 앙상블(`Koelectra-base-v3-discriminator`, `roberta-small`, `bert-base-multilingual-cased` / `Soft voting`)

Dependencies

torch==2.1.0
transformers==4.35.2
pytorch-lightning==2.1.2

Usage

Setting

$ pip install -r requirements.txt

Training

$ python3 train.py

Inference

$ python3 inference.py

프로젝트 타임라인

프로젝트 수행결과

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Lv.1 NLP 기초 프로젝트 : 문장 간 유사도 측정(STS)

프로젝트 개요

프로젝트 구조

Contributors

역할분담

Dependencies

Usage

프로젝트 타임라인

프로젝트 수행결과

리더보드 결과

About

Releases

Packages

Contributors 5

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
.github		.github
checkpoint		checkpoint
config		config
data		data
model		model
output		output
tb_logs		tb_logs
utils		utils
.gitignore		.gitignore
README.md		README.md
banner.png		banner.png
inference.py		inference.py
requirements.txt		requirements.txt
train.py		train.py

boostcampaitech7/level1-semantictextsimilarity-nlp-04

Folders and files

Latest commit

History

Repository files navigation

Lv.1 NLP 기초 프로젝트 : 문장 간 유사도 측정(STS)

프로젝트 개요

프로젝트 구조

Contributors

역할분담

Dependencies

Usage

프로젝트 타임라인

프로젝트 수행결과

리더보드 결과

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 5

Languages

Packages