Language(R, Python, SQL)/R 9

[R] theeuh 패키지를 이용한 한국어 띄어쓰기 (KoSpacing x)

한국어 Text mining을 하는 경우, 간혹 띄어쓰기가 되어 있지 않은 텍스트를 직면할 때가 있다. 이런 경우, 명사나 형용사 등 형태소를 제대로 추출할 수 없게 된다. 따라서 이번에 소개할 패키지는 한국어 텍스트의 띄어쓰기를 반영하는 유용한 패키지이다. 우선, KoSpacing은 한국어를 띄어쓰기 해주는 딥러닝 모델 패키지를 우선 적으로 찾았고, 해당 패키지를 설치하려고 수많은 삽질(reticulate version error, hashmap error 등등) 직면하다가.. 몇번의 검색을 해보니 해당 패키지가 작동하지 않는다고 한다 ㅠ.. https://github.com/forkonlp/KoSpacing GitHub - forkonlp/KoSpacing: Automatic Korean word s..

[R] Progress Bar 로 반복문 진척률 및 완료시간 구현

R에서 반복문을 이용해서, 작업 수행을 할 때, 아래와 같이 print(i) 를 이용해서, 현재 진척률을 보고는 할 것이다. 이 방법으로 하게 되었을 땐, 몇번 째 i 가 수행되고 있는지는 확인할 수 있지만, 몇% 정도 진척이 되었는지, 작업 수행시간이 몇 시간이 남았는지 확인하는 것은 불가능하다.( 대충 감으로, 어느정도 됐겠거니.. 라고 생각할 수 있을 뿐이다. ) for(i in 1:10000) { print(i) } 아래의 이미지 처럼, 현재 진행률(Progress) 과 예상 완료시간(Estimated Completion time) 을 확인하고 싶지 않은가? 그렇다면, progress 라는 라이브러리를 이용해서, 반복문이 돌아갈 때, 진척률과 완료시간을 표현할 수 있다. 1. 라이브러리 로드 li..

[R] 중국 주소를 통한 지도 시각화

영문 주소를 geocoding을 통해 위,경도 변환 후 지도 시각화하는 것은 일전에 경험해 본 바가 있다. 문득 중국주소 역시 위,경도 변환을 잘 하고, 지도에 뿌릴 수 있는 지 궁금해졌다. 아래의 예시를 통해, 제대로 출력을 하는 지 확인해보겠다. 폭스콘 주소 : 236新北市土城區自由街2號 베이징대학교 주소 : 北京市海淀区学院路38号 1. 우선, 위,경도 변환(Geocoding), 지도 시각화(mapview) 를 위한 라이브러리를 로딩해보자. library(ggmap) library(mapview) (우선, 라이브러리가 설치되어 있지 않다면, install.package 를 통해 install 하도록 한다.) 2. 예시 데이터 프레임을 생성 해보자. addr

[R] Error: package or namespace load failed for ‘ggplot2’ in loadNamespace 해결

library(ggplot2) 또는 library(caret) 실행 시 아래와 같은 에러가 발생하는 경우를 직면하게 될 때가 있다. Error: package or namespace load failed for ‘ggplot2’ in loadNamespace(i, c(lib.loc, .libPaths()), versionCheck = vI[[i]]): 네임스페이스 ‘vctrs’ 0.4.1는 로드되었으나 >= 0.5.0가 필요합니다 In addition: Warning message: 패키지 ‘ggplot2’는 R 버전 4.2.2에서 작성되었습니다 어떠한 충돌로 인해, 해당 에러가 발생했는 지를 정확히 알아봐야 겠지만, 이에 대한 해결법은 의외로 간단하다. 해당 명령을 실행해보자. install.packa..

[R] Windows 환경 R 크롤러(Selenium) 만들기 + RPA

R 크롤러를 만들기 위해, 필요한 도구들을 우선 설치해보자. 설치에 앞서, C드라이브에 selenium 이라는 폴더를 만들어주자 ( C:\selenium ) 1. Selenium Standalone Server 설치 http://selenium-release.storage.googleapis.com/index.html http://selenium-release.storage.googleapis.com/index.html selenium-release.storage.googleapis.com 해당 링크에 접속하고, 아래쪽으로 스크롤하다보면, 4.0 폴더가 있을 것이다. 해당 폴더내에, "selenium-server-standalone-4.0.0-alpha-1.jar" 파일을 설치하고, 처음에 만들었던 C:..

[R] R 로 Mircrosort Teams 봇 생성 및 메시지 보내기

Airflow 를 이용해서, Workflow를 관리하면서 느낀 점은, 작업 수행이 완료(성공, 혹은 실패) 되었을 경우 해당 작업완료 알림을 받을 수 있으면 좋겠다는 생각을 하게 되었다. Airflow 메일링 기능이 있지만, 메일로 받는 것 보단 메신저로 받는게 편할거라는 생각에, Teams 메시지로 받는 방법을 검색해보았다. 역시나.. 내가 생각하는 기능들은 모듈형태로 제공되고 있었다. 오늘은 Teams 메시지 bot을 만들고 R코드를 사용해서 메시지를 Send 하는 기능의 코드를 포스팅해보겠다. 1. teams 내의 team '채널추가' 를 한다. 2. 우측상단의 점 3개 클릭 후, '커넥터'를 선택한다 3. webhook 을 찾아, '구성' 을 클릭 후, 생성된 url 을 copy 한다 4. 아래의..

[R] 리눅스환경에서 R 패키지 설치시, linux ssl 관련 에러 해결

R을 windows 환경에서 개발 및 분석하다가, 부득이하게 linux 환경으로 갈아타야되는 경우가 종종 있을 것이다. 그때, 기존에 사용하던 version 의 R package를 설치할 때 linux ssl lazy loading ... error를 직면하게 될 것이다. 그렇다면, 아래의 명령을 실행해보고, package install을 다시 해보도록 하자. 정상적으로 package 설치가 완료될 것이다. apt-get install libcurl4-openssl-dev r-base -y apt-get install libxml2-dev apt-get install libssl-dev apt-get install -y libmysqlclient-dev apt-get install libcurl4-ope..

[R] Rstudio에서 GCP 빅쿼리 쓰고 읽기(GCP 빅쿼리 + R)

R로 빅쿼리를 읽는 레퍼런스는 참 많았지만, 이것을 빅쿼리에 적재하는 소스는 찾기가 힘들었다. 그런데, 방법이 의외로 간단했다. MariaDB에 연결해서, DB에 데이터를 쌓는 느낌으로 하면 되는 것이었다. 백문이 불여일견이라고.. 무작정 한번 진행해보자. # 1. Authentication GCP 서비스계정의 JSON키를 service_key라는 변수에 할당한 후, bq_auth를 통해 빅쿼리 권한 인증을 진행하자. service_key = dir("../../config/serviceAccountKey/")[1] bq_auth(path = paste0("../../config/serviceAccountKey/",service_key)) # 2. GCP 콘솔 프로젝트명과 데이터셋명, billing 주소..