전체 글 56

[ML-01 논문 정리] Deep Learning Based Semantic Similarity for Korean Legal Field

논문 출처 : https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002816363 딥러닝을 이용한 법률 분야 한국어 의미 유사판단에 관한 연구 기존의 데이터 검색 방법으로는 키워드 중심의 검색 방법이 주로 사용되나, 이는 전문적인 용어가 많이 쓰이는 법률 분야의 검색 방법으로는적합하지 않다. 이에 대해 본 논문에서는 법률 분야 www.kci.go.kr 주요 키워드 : 자연어처리, 리걸테크, Semantic Similarity, BERT, 법률 0. 요약 1. 서론 전문 용어에 익숙하지 않은 일반인들에게는 적합하지 않은 문제 1. 리걸 테크 : 법률 도메인 문장에 자연어 ..

Paper Review 2023.05.11

[R] theeuh 패키지를 이용한 한국어 띄어쓰기 (KoSpacing x)

한국어 Text mining을 하는 경우, 간혹 띄어쓰기가 되어 있지 않은 텍스트를 직면할 때가 있다. 이런 경우, 명사나 형용사 등 형태소를 제대로 추출할 수 없게 된다. 따라서 이번에 소개할 패키지는 한국어 텍스트의 띄어쓰기를 반영하는 유용한 패키지이다. 우선, KoSpacing은 한국어를 띄어쓰기 해주는 딥러닝 모델 패키지를 우선 적으로 찾았고, 해당 패키지를 설치하려고 수많은 삽질(reticulate version error, hashmap error 등등) 직면하다가.. 몇번의 검색을 해보니 해당 패키지가 작동하지 않는다고 한다 ㅠ.. https://github.com/forkonlp/KoSpacing GitHub - forkonlp/KoSpacing: Automatic Korean word s..