학위논문 (석사) -- 서울대학교 대학원 : 인문대학 언어학과, 2021. 2. 신효필.본 연구에서는 BERT 모델에 품사라는 언어학적 정보를 결합하여 모델의 성능을 높이고 이를 언어학적으로 분석하고자 하였다. BERT는 그 자체로 강력한 성능을 내는 모델이지만 모델에 명시적으로 언어학적 정보를 결합하여 주입했을 때 그 성능이 더욱 올라갈 수 있는 여지가 있다는 연구가 이루어지고 있다. 또한 최근 언어 모델이 어떠한 언어학적 지식을 학습했는지 분석하는 연구가 활발하게 이루어지고 있으나 한국어를 대상으로는 사전학습된 모델의 언어학적 표상을 해석하는 분류기(probing classifier) 연구가 아직 미비한 상황이다. 실험을 위해 본 연구에서는 사전학습 단계에서 다양한 방법으로 기존 BERT 모델의 입력 임베딩에 품사 임베딩 정보를 추가하였다. 이에는 (1) 품사 임베딩을 더하는 방법(addPOS), (2) 품사 임베딩을 곱하고 더하는 방법(multiaddPOS), 그리고 (3) 품사 임베딩을 마스킹하는 방법(maskPOS)이 사용되었다. 사전학습 말뭉치로는 한국어 위키피디아와 뉴스기사가 사용되었고 이때 품사는 MeCab 형태소 분석기를 이용하여 태깅되었으며 이는 모델이 말뭉치를 토큰화하는 토큰의 단위로 사용되기도 했다. 이후 학습된 모델을 이용하여 5개의 한국어 하위 실험(downstream task)을 진행하였다(NSMC, NER, KorQuaD, KorNLI, KorSTS). 실험 결과 품사를 명시적으로 결합한 모...