부모님 안부 묻지마라, AI로 욕설 96% 잡아낸다
2018.04.24 18:18 게임메카 김헌상 기자
채팅은 온라인게임에서 빼놓을 수 없는 요소다. 유저 간 커뮤니케이션을 돕는 순기능도 있지만, 혐오표현이나 욕설 등 악용 사례도 적지 않다. 이를 방지하기 위해 게임사는 욕설 필터링이나 신고 제도 등 다양한 방지책을 도입했지만, 완벽한 욕설 근절로 이어지지는 못했던 것이 현실이다.
그렇다면 AI(인공지능)의 힘을 빌려보는 것은 어떨까? 실제로 넥슨 코리아 인텔리전스랩에서는 딥 러닝을 통한 욕설 탐지 기술을 개발하고 있다. 과연 AI는 지긋지긋한 욕설 문제의 해방구가 될 수 있을까? 이 해답이 24일 열린 넥슨 개발자 컨퍼런스(NDC)에서 제시됐다.
▲ 강연을 맡은 넥슨 코리아 인텔리전스랩 어뷰징방지팀 조용래 연구원 (사진: 게임메카 촬영)
힘들었던 욕설 탐지, 딥 러닝으로 해보면?
금칙어를 정해놓고, 해당 단어를 막는 기존의 욕설 방지책은 한계가 명확했다. 모음 ‘ㅣ’ 대신에 숫자 ‘1’을 사용한 욕설이나, 흔히 ‘어머니 안부를 묻는다’고 말하는 것처럼 욕설을 사용하지 않는 공격적인 표현은 탐지하는 것이 어려웠다. 그렇다고 금칙어 기준을 강화하자니 ‘18채널’ 같은 평범한 말도 욕설로 제재되는 현상이 발생했다. 결국 운영자가 신고가 들어온 채팅 내역을 일일이 확인해야 하기 때문에 부담이 큰 방식이었다.
이에 넥슨이 주목한 것이 바로 ‘딥 러닝’이다. 딥 러닝이란 컴퓨터에 학습 모델을 제공하고, 이에 기반해 데이터를 분류하도록 만드는 기술의 일부다. 일반적인 머신 러닝과 달리 사람이 데이터를 일일히 분류하지 않아도 된다는 점이 특징이다. 조용래 연구원은 “’딥 러닝으로 언어를 이해하고 욕설 탐지를 할 수 있지 않을까’라고 생각했다”며, “번역에서 미리 한 번 초벌 번역을 하듯이, 욕설을 1차 분류하는 욕설 탐지기를 만들었다”고 설명했다.
▲ 금칙어 방식은 효율이 낮았다 (사진: 게임메카 촬영)
욕설 탐지기를 만들기 위한 첫 번째 단계는 데이터를 수집하는 것이다. 욕설인 것이 확실한 문장, 즉 ‘라벨링 데이터’를 수집해 욕설 탐지기에 학습시켜야 하는 것. 조용래 연구원은 “가장 간단한 방법은 소위 ‘노가다’”라며, “크롤링과 함께 10여 명의 사우와 함께 온갖 창의적인 욕을 생각하며 데이터를 수집했다. 남들이 하는 욕을 보면서 나도 욕이 늘어난 것 같다”고 말했다.
이렇게 데이터를 확보했다면 실제 딥 러닝 모델을 구축해야 한다. 욕설 탐지기에 사용된 것은 이미지 분류에 자주 사용되는 CNN(Convolutional Neural Network)이다. CNN은 필터를 통해 지역적인 특성을 추출하고, 다른 이미지에 같은 특성이 존재하는지를 파악해 분류하는 것을 말한다. 예를 들어 고양이를 분류한다면 귀와 수염, 입 모양 등을 특성으로 추출하고, 수많은 이미지 중에서 같은 특성을 가지고 있는지를 파악해 고양이 사진을 골라내는 셈이다. 특히 욕설 탐지기는 단어를 자모로 나눠 동일성 여부를 체크했다.
▲ 특성을 추출해 이미지나 자연어를 분류하는 CNN (사진: 게임메카 촬영)
▲ 단어별로 욕설일 확률을 계산 (사진: 게임메카 촬영)
▲ 문맥에 따른 차이도 인식한다 (사진: 게임메카 촬영)
이렇게 구현된 욕설 탐지기 프로토타입은 변형된 욕설은 물론, 단어를 조합하는 방식이나 문맥에 따라 욕설이 되는 일반 단어까지도 구분할 수 있었다. 종래의 금칙어 기반 욕설 탐지 확률이 56%라면, 딥 러닝을 사용한 욕설 탐지 정확도는 88%까지 올라갔다. 이후로도 데이터를 빠르게 수집하도록 돕는 ‘액티브 러닝’, CNN 모델에서 정확도를 개선한 ‘VDCNN’ 도입, 여러 문장을 동시에 탐지 및 해석할 수 있는 ‘어텐션’ 등을 도입하며 욕설 탐지기를 더욱 고도화했다. 이를 통해 욕설 탐지기의 탐지율은 90%까지 상승했다.
▲ 고도화를 거친 모델의 정확도는 90% (사진: 게임메카 촬영)
딥 러닝 욕설 탐지기, 업무 효율 높인다
이렇게 완성된 욕설 탐지기는 넥슨이 서비스하는 FPS ‘서든어택’에서 테스트를 거쳤다. 기존 ‘서든어택’은 게임 내 욕설 신고가 들어오면 운영자가 수동으로 검토해 제재를 내리는 방식이었다.
욕설 탐지기는 신고가 들어온 채팅 내역을 1차적으로 분류하는 역할을 맡았다. 먼저 신고된 내용 중에서 욕설 부분을 추출하고, 제재 확률이 높은 것부터 확인할 수 있도록 정렬했다. 운영자들은 정렬된 결과를 눈으로 확인하고 제재를 내리거나, 잘못 탐지된 결과를 누락시키는 역할을 맡았다.
▲ 실제 '서든어택'에서 사용된 욕설 탐지기 (사진: 게임메카 촬영)
그 결과는 성공적이었다. 욕설 신고 제재 대상자를 보다 쉽고 빠르게 찾아낼 수 있던 것이다. 기존 방식으로는 1분당 23건의 모니터링이 가능했지만, 욕설 탐지기를 사용하면 총 35건으로, 처리 속도가 52% 가량 증가했다. 제재 대상 비율도 큰 폭으로 올랐다. 기존에는 23건 모니터링 중 41%가 제제 대상이었지만, 욕설 탐지기를 사용하자 35건 중 96%가 제제 대상이었던 것이다. 즉, 보다 빠르고 확실하게 제재 대상을 검출할 수 있었다. 욕설 탐지기 테스트는 10회 가량 진행되었고, 매번 기존 방식보다 훨씬 나은 결과를 도출해냈다.
▲ 수동으로 찾는 것보다 훨씬 효율적인 분류가 가능 (사진: 게임메카 촬영)
욕설 탐지기는 향후 더욱 발전 예정이다. 데이터가 쌓이면 새롭게 생성되는 욕설은 물론 차별적인 단어나 혐오 단어, 심지어 외국어까지 탐지할 수 있다는 것이다. 아직까지는 테스트 단계지만, 향후 실제로 게임 서비스에 도움을 줄 수 있는 셈이다.
다만, 조용래 연구원은 인공지능은 어디까지나 사람을 보조하는 역할이라고 강조했다. 정확도가 99.9%라도 한 명의 무고한 피해자가 발생하면 안된다는 이유다. 조용래 연구원은 “인공지능은 ‘아이언맨’의 인공지능 비서 ‘자비스’ 같은 존재다. 사람을 돕고 업무를 효율적으로 할 수 있도록 만든다”고 설명했다.