Language(R, Python, SQL)/R

[R] theeuh 패키지를 이용한 한국어 띄어쓰기 (KoSpacing x)

dtstory 2023. 4. 18. 20:00

한국어 Text mining을 하는 경우, 간혹 띄어쓰기가 되어 있지 않은 텍스트를 직면할 때가 있다. 이런 경우, 명사나 형용사 등 형태소를 제대로 추출할 수 없게 된다. 따라서 이번에 소개할 패키지는 한국어 텍스트의 띄어쓰기를 반영하는 유용한 패키지이다.

 

우선, KoSpacing은 한국어를 띄어쓰기 해주는 딥러닝 모델 패키지를 우선 적으로 찾았고, 해당 패키지를 설치하려고 수많은 삽질(reticulate version error, hashmap error 등등) 직면하다가.. 몇번의 검색을 해보니 해당 패키지가 작동하지 않는다고 한다 ㅠ..

https://github.com/forkonlp/KoSpacing

 

GitHub - forkonlp/KoSpacing: Automatic Korean word spacing with R

Automatic Korean word spacing with R. Contribute to forkonlp/KoSpacing development by creating an account on GitHub.

github.com

그래도 단서를 찾았다! theeuh 라는 한국어 띄어쓰기를 위한 패키지를 불러오도록 하자.

 

딥러닝 모델이 어떻게 구현되었는 지에 대한 이론적인 부분보다, 가이드대로 한번 따라해보자.

 

 

1. 패키지 설치하기

install.packages('theeuh', repos = "https://mrchypark.r-universe.dev")

 

 

2. miniconda 설치하기

 

reticulate::install_miniconda()

 

 

3.라이브러리 로드 및 가상환경 설정

library("theeuh")
install_onnxruntime(envname = "r-theeuh")

 

4. Test

 

install_onnxruntime(envname = "r-theeuh")
theeuh::space("동해물과백두산이마르고닳도록")


 

KoSpacing 을 설치하려고 뻘짓을 했던 것에 비해, 너무나도 수월하게 설치된 theeuh 패키지..

물론, 모든 한국어에 100% 보정되는 것은 아니지만, 유용하게 사용할 수 있을 것 같다!

 

 

728x90