![이경우 어문팀장](https://img.seoul.co.kr/img/upload/2017/11/30/SSI_20171130154710_O2.jpg)
![이경우 어문팀장](https://img.seoul.co.kr//img/upload/2017/11/30/SSI_20171130154710.jpg)
이경우 어문팀장
‘말뭉치’는 본래 우리말 어휘 속에 들어 있던 말은 아니다. 영어 ‘코퍼스’(corpus)를 우리말로 옮기는 과정에서 생겨난 말이다. 조금은 어림잡을 수 있는 형태로 만들어졌다. 많은 전문용어들이 외국어 그대로이거나 어려운 말들로 이뤄진 것과 비교된다.
언어학에서 ‘말뭉치’는 ‘컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료’를 뜻한다. 즉 언어 자료를 전산화한 것이 ‘말뭉치’다. 크기는 ‘어절’로 나타낸다. ‘어절’은 문장을 구성하는 각각의 마디다. 우리말에서 띄어쓰기를 하는 단위와 일치한다. ‘나는 슬퍼서 울었다’는 3어절로 이루어진 문장이다.
인공지능의 시대에 접어들면서 말뭉치는 더욱 중요해졌다. 인공지능의 바탕에 언어가 있기 때문이다. 말뭉치는 컴퓨터가 언어를 이해하는 핵심이기도 하다.
우리나라는 ‘21세기 세종계획’이란 이름으로 1998년부터 10년간 말뭉치 구축 사업을 벌였다. 이때 2억 어절의 말뭉치를 구축했다. 이 분야에서 선발 주자였다. 이후 중단됐다가 2018년부터 5년간 155억 어절의 말뭉치를 다시 구축한다. 우리가 중단했던 사이 미국은 200억, 일본은 100억 어절을 구축했다.
wlee@seoul.co.kr
2017-11-16 29면
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지