개인회원 메뉴

개인회원 정보

이력서 사진
이력서 사진 없음
로그인 링크
로그인
회원가입 링크
아직 회원이 아니세요?

개인회원 서비스

JOBKOREA

직무인터뷰

직무인터뷰 상세

IT/SW/인터넷

‘가상음성’ 분야의 기술을 연구하고 콘텐츠를 만드는 연구원

소속
자이냅스 Speech Synthesis팀 김기완 선임연구원
등록일자
2020.03.19
조회수
1,817

가상의 음성을 통해 다양한 콘텐츠를 생성하는 AI 전문 기업 자이냅스. 음성의 특징을 추출 후 딥러닝을 활용해 원하는 음성으로 합성이 가능한 기술을 보유해 눈길을 끌고 있다. 자이냅스 음성합성팀 김기완 선임연구원을 만나 자이냅스의 기술력에 대해 이야기를 나눴다.

XINAPSE

Speech Synthesis팀
김기완 선임연구원

 

 

안녕하세요. 자기소개 부탁드려요.

안녕하세요. 자이냅스 음성합성(Speech Synthesis)팀에서 근무하는 김기완입니다.

 

Speech Synthesis팀은 어떤 업무를 수행하는 부서인가요?

최근 떠오르고 있는 분야 중 하나는 AI 기술을 이용한 ‘Deep Fake’인데요. 유튜브에서 트럼프, 오바마 대통령이 하지 않은 이야기를 마치 이야기하는 것처럼 올린 가짜 동영상을 본 사람도 있을 거예요. 이처럼 자이냅스 Speech Synthesis팀은 음성데이터를 기반으로 가상음성 분야의 기술을 연구하고 콘텐츠를 생성한답니다. 예전에 서울 박원순 시장이 기업 시찰 시 자이냅스를 방문한 적이 있는데요. 가상음성을 직접 시연해 좋은 평가를 받았고 얼마 전에는 박원순 시장이 에릭 슈미츠 구글 전 회장을 만날 때 자이냅스가 만든 가상음성 프레젠테이션을 시연하기도 했죠.

Interview 01

새로운 음성을 발견하다



 

선임님이 담당하는 업무에 대해 구체적으로 설명해주세요.

텍스트 음성 변환 프로그램인 TTS(Text to Speech) 모델의 학습을 위한 데이터 준비 작업을 담당하고 있어요. 해당 모델을 학습하기 위해 녹음된 음성 파일을 문장이나 길이를 기준으로 개별 음성 파일로 분할하죠. 개별 음성과 일치하는 텍스트도 준비하고요. 이후 검수와 전처리 작업을 거쳐 모델 학습을 위한 준비를 마무리해요. 음성을 텍스트로 변환하는 STT(Speech to Text) 모델을 학습하는 작업도 진행해요. 앞서 언급한 TTS의 인풋과 아웃풋이 바뀐 모델을 학습하는 업무를 수행하고 있어요.

 

인상 깊었던 프로젝트가 있다면 말씀해주세요.

음성모델 학습 업무에 참여하면서 처음으로 생성한 음성을 듣는 순간이 인상 깊었어요. 여태 한 번도 접하지 못했던 경험이었고 모델이 생성한 음성과 실제 화자 음성을 구분하기 어려워 기억에 남네요.

 

SW 개발은 어떤 프로세스로 이뤄지나요?

우선 모델을 학습하기 위한 데이터가 필요한데요. 데이터가 준비되면 전처리 작업을 거쳐 학습 준비 과정을 마쳐요. 모델에 데이터를 전달하면 모델의 출력과 정답을 비교하며 업데이트하는 과정도 필요하고요. 하지만 모델은 한 번도 보지 않은 데이터에 대해 올바른 출력을 내야 하기에 과정 중간, 모델의 일반화 성능을 계속 검사해야 하죠. 이러한 과정을 반복하면서 최초의 데이터에 대해 올바른 결과를 출력하는 모델을 만들어요.

Interview 02

인내와 기다림이 필요하다

(서울시 박원순 시장과 자이냅스 구성원들)​​

 

개발 시 반드시 유념해야 하는 점은 무엇인가요?

코딩 전 구현해야 하는 흐름을 잘 이해해야 한다고 생각해요. 이는 자칫 놓치기 쉽다고 생각하는데, 흐름을 올바르게 이해해야 코딩도 올바르게 진행할 수 있거든요. 첫 단추를 잘못 끼우면 처음부터 다시 끼워야 하는 것처럼 말이에요.

 

업무를 하면서 제일 뿌듯한 순간은 언제인가요?

TTS 모델 업무를 맡고 있는 만큼 음성이 실제 화자와 구별하기 어려울 정도로 잘 구현된 순간이 가장 뿌듯해요.

 

반대로 업무적 고충도 클 것 같은데요.

음성 생성에 문제가 있으면 수정을 하고 모델을 다시 학습해야 해요. 모델을 학습하면 짧은 시간 내에 결과를 알 수 없고 인내와 기다림이 필요하죠. 물론 중간에 모델의 학습 결과를 살펴보지만, 대부분의 학습이 하루 이상 소요되므로 업무에 다소 어려움을 겪을 때가 있어요.

 

선임님만의 업무 철학이 궁금해요.

특별한 업무 철학은 없지만, 무슨 일을 하든 어떤 태도를 가지고 업무를 하냐에 따라서 배울 수 있는 것들이 달라진다고 생각해요. 때문에 주어진 업무에 대해 최선을 다해 임하려고 노력하죠.

Interview 03

유연한 사고와 소통이 가능한 기업, 자이냅스


많은 IT 기업 중 자이냅스를 선택한 이유는 무엇인가요?

실무진과 CTO 면접을 진행하면서 자이냅스에는 유능한 사람이 많다고 느꼈어요. 만약 입사하게 된다면 재능있는 사람과 일하며 많은 걸 습득할 수 있다고 생각했죠. 그래서 고민하지 않고 바로 자이냅스를 선택했어요.(웃음)

 

개발자로서 앞으로 자이냅스에서 이루고 싶은 목표를 이야기해주세요.

지금보다 더 다양한 형태의 딥러닝 모델을 다뤄보고 싶어요.

 

자이냅스에 다녀서 좋은 점을 자랑해주세요.

Speech Synthesis팀에서는 딥러닝, 머신러닝과 관련해 모르는 게 있다면 언제든 자세하게 알 수 있어서 좋아요. 크게는 자이냅스 구성원들로부터 업무적인 조언이나 사소한 고민 등 유연한 소통이 가능하다는 점도 마음에 들고요.

 

해당 직무를 수행하는 데 요구되는 필수역량은 무엇인가요?

수학, 코딩, 영어 능력이 필요해요. 처음에 이 직무에 대해 관심을 가졌을 때는 단순히 컴퓨터공학의 연장선이라고 착각했는데요. 취업 준비를 할수록 수학 공부의 필요성을 정말 많이 느꼈죠. 업무 자체 베이스가 수학으로 이뤄져 있기에 수학을 모르면 이론적 배경을 이해하기 힘들 거예요. 코딩은 당연히 구현을 해야 하므로 중요한 역량이고요. 해당 분야와 관련된 새로운 소식이나 논문, 코드에 대한 설명이 대부분 영어라 한글로 번역된 글을 읽을 때면 많은 시간이 소요돼요.

Interview 04

마음을 움직이는 ‘직접 경험’

(2019 장관 표창을 받은 자이냅스 강진범 CTO)​​​

 

이 직무를 꿈꾸는 이들이 꼭 해보면 좋을 만한 경험을 추천해주세요.

언론에서 앞으로 AI 관련 직종이 유망하다는 이유로 이 직무를 선택하기보다는 스스로 경험했으면 좋겠어요. 요즘은 4차 산업혁명을 주제로 한 행사나 세미나가 많이 열려서 참여해보면 도움이 될 거예요. 눈으로 보고 피부로 느끼는 것과 단순히 듣는 것은 느끼는 게 다르니까요. 간접적 경험이 아니라 직접적 경험이 마음을 더 움직인다고 생각해요. 타 직무를 꿈꾸더라도 마찬가지죠.

 

비전공자도 자이냅스 Speech Synthesis팀에 입사할 수 있을까요? 입사 팁을 알려주세요.

직무를 수행하는 데 필요한 이론과 프로젝트 경험을 갖는 게 제일 중요해요. 저도 기계공학을 전공한 비전공자 출신인데요. 비전공자라 스스로 부족하다고 느끼지 말고 현재 준비한 것과 역량이 전공자에 비해 부족하지 않으며, 할 수 있단 자신감을 어필해보세요.

 

끝으로 SW개발자 꿈나무들을 위해 조언 한마디 부탁해요.

코딩을 최대한 많이 해보세요. 무엇을 만들지 얼마나 단순하지는 중요하지 않아요. 코딩하는 과정에서 생각하는 방법을 배울 수 있고 이 같은 경험이 모여 나중에 실무를 접했을 때도 큰 도움이 될 거예요.

저작권은 잡코리아(유)에 있으며, 무단전재 및 재배포를 금지 합니다.

‘IT/SW/인터넷’ 다른 직무인터뷰