신조어와 전문용어 포함해 총 93만 단어 수록

빅데이터 분석을 위한 형태소 사전·분석기 적용 개념도. 사진=한국정보화진흥원 제공
[데일리한국 고은결 기자] 한국정보화진흥원(NIA)은 텍스트 분석 및 활용을 촉진하고 빅데이터 관련 서비스 개발을 지원하기 위해 '형태소 사전'을 제작해 개방한다고 22일 밝혔다.

국립국어원의 우리말 샘 사전을 바탕으로 제작된 형태소 사전(NIADic)은 기존의 세종Dic(9만 단어) 외에 신조어와 법률, 의료 등 6대 분야별 전문단어를 추가했다.

현재까지는 오픈소스 기반인 KoNLP의 세종사전(세종Dic)을 통해 텍스트 분석을 수행해왔지만 단어 수와 신조어가 부족해 새로운 형태소 사전 제작에 대한 요구가 이어져왔다.

NIA는 형태소사전을 빅데이터센터를 통해 공개하고 누구나 쉽게 활용할 수 있도록 오픈소스 빅데이터 분석도구인 R의 한글분석 패키지 KoNLP의 기초사전으로 제공한다.

이를 통해 한글 빅데이터 분석의 정확성과 신뢰도를 높이고 중복개발의 비용 절감과 신규 서비스 개발 주기도 단축할 수 있을 것으로 예상된다. 또한 음성인식 기반의 다양한 사물인터넷(IoT) 분야 서비스 개발 시 한글인식 성능 개선에도 기여할 것으로 보인다.

권영일 빅데이터센터장은 이번 한글 형태소 사전 공개가 "향후 중소기업, 스타트업 등 다양한 분야의 한글 빅데이터 분석에 활용될 것"이라고 말했다.

NIADic은 향후 공개소프트웨어 커뮤니티에 오픈소스로 개방돼 통계분석도구 및 분석기 사용자들이 자율적으로 업데이트해 활용할 수 있다. 저작자와 출처 등을 표시하면 상업적 활용도 가능해 한글 빅데이터 분석 분야 연구도 더 활발해질 것으로 전망된다.

저작권자 © 데일리한국 무단전재 및 재배포 금지