우아한형제들
전수현 / 데이터 사이언티스트
Interview 01
담당업무 소개
우아한형제들의 데이터 사이언티스트, 수현 님의 하루 일과를 소개해 주세요.
안녕하세요, 데이터서비스실 위험관리시스템팀의 전수현입니다. 우아한형제들의 서비스 생태계 전반의 신뢰도와 건전성을 유지하고 개선하기 위해 필요한 데이터를 분석하고, 다양한 목적을 반영한 머신러닝 모델을 개발하는 업무를 주로 맡고 있습니다.
저의 일과는 데일리 스크럼(Daily Scrum)으로 시작됩니다.
매일 오전 팀원분들과 전날 진행한 업무에 대한 리뷰와 오늘 진행할 업무에 대한 계획들을 공유하는 데일리 스크럼을 30분 정도 진행하고 있습니다. 데일리 업무로는 가급적 하나의 컨텍스트(Context)를 유지하여 업무를 진행하고자 노력합니다. 데이터 탐색이나 모델 개발 등을 진행하며, 시행착오를 겪은 과정이나 테스트 결과는 모두 사내 위키(Wiki)에 꼼꼼하게 기록해 두는데요. 그 과정에서 데이터 사이언티스트 동료분들과 리뷰를 주고받으며 자유롭게 서로의 의견을 교환하는 것을 선호하는 편입니다.
데이터를 살펴보다 보면 현 서비스 정책이나 운영 정책들에 대한 아이디어나 개선이 필요한 경우들이 있는데, 이러한 사항도 사내 위키에 논리적인 근거에 기반한 문서를 작성한 후, 관련 기획자분이나 운영 실무자분들과 논의하고 있습니다. 이 과정에서 모델 개발에 도움이 되는 아이디어를 얻기도 하며 각 도메인 전문가분들의 지식을 적극 활용하는 형태로 협력하고 있어요. 또한 시니어 데이터 사이언티스트분께 과제의 방향성이나 모델 아키텍처 구성, 적합한 알고리즘 선택이나 튜닝(Tuning) 방향 등을 피드백 받으며 모델 개발 업무를 진행하고 있습니다.
저희 팀은 3주 단위의 스프린트(Sprint)를 하며 업무를 플래닝하는 훈련도 하고 있어요.
이번 스프린트에서는 1) 허위 리뷰 탐지 모델 운영 배포 2) 배민상회 수요예측 모델 자동화 코드 개발 및 베타 배포 3) 허위 리뷰 조작 업체 탐지 모델 고도화를 위한 킥오프 및 EDA 등의 업무를 진행할 예정인데요. 이처럼 하나의 스프린트 내에서 협의체와 컨텍스트(Context)가 다른 업무들을 병렬로 플래닝하는 경우도 있고, 한 가지 분석 과제에만 집중해서 업무를 하는 경우도 있습니다.
Interview 02
과제 수행 과정
우아한형제들에서 데이터 사이언티스트는 어떠한 과제들을 수행하나요?
우아한형제들은 데이터서비스실이라는 전사 데이터를 다루는 중앙 집중형 데이터 조직을 운영 중입니다. 현재 데이터서비스실은 목적 중심의 6개 팀으로 나뉘어 있고, 팀별로 데이터 사이언티스트, 데이터 분석가, 데이터 엔지니어, 프론트 개발자, 서버 개발자, 기획자 등 다양한 직군의 구성원들이 함께 일하고 있습니다.
사실, 기존에는 기능 조직으로 데이터 사이언티스트 직군들만 모여있는 데이터사이언스팀 소속이었는데요.
최근 다루는 데이터 도메인과 개발 모델의 성격에 맞춰 조직 개편이 되었답니다. 여러 모델을 직접 서비스하고 운영하는데 좀 더 집중할 수 있는 환경이 되지 않을까 기대하고 있어요.
우아한형제들의 데이터 조직은 시기마다 적절한 조직 구성과 형태를 계속 고민하며 변화해나가고 있고, 업무를 하는 형태나 방식, 역할 등도 조금씩 바뀌어왔던 것 같습니다.
현재 제가 맡고 있는 과제도 소개해 드리면, 배민 앱 내에서 발생하는 여러 이상 신호들을 사전에 탐지하고 조치하기 위한 업무에 집중하고 있고, 대표적으로 허위 리뷰 목적의 주문이나 리뷰를 탐지하는 모델을 개발 및 운영 중입니다. 이외에도 배달 비품/식재료 전문 쇼핑몰인 배민상회의 수요를 예측하여, 품절률을 개선하고 재고 관리를 효율화하기 위해 배민상회 운영팀, MD팀과 함께 협업하며 수요 예측을 위한 외부 요인들도 모델에 반영하기 위해 노력하고 있습니다.
데이터 사이언티스트 직군에선 여러 추천 모델, 배달 예상 시간 예측 모델, 라이더 배차 최적화 모델 등 다양하고 재미있는 주제의 문제를 다루고 있습니다. 또한 자연어 처리나 이미지 처리 등 하나의 기술적인 분야에 보다 집중해서 전문성을 가지신 분들도 계신답니다.
Interview 03
성취의 순간과 과정
수현 님께서 가장 기억에 남는 성취의 순간과 그 과정을 이야기해 주세요.
작년에 진행한 Fraud 가게 탐지 모델을 개발한 과정이 가장 기억에 남습니다. 그동안 Fraud 관련 운영 부서에서 쌓아오신 여러 케이스들과 경험치들을 잘 공유해 주셔서 이를 탐지 모델에 잘 녹여낼 수 있었던 과제인데요. 이 프로젝트는 비즈니스 문제 정의, 가설 검증 및 EDA, 모델 개발과 결과 검증, 운영 배포, 결과 대시보드 전달까지의 전체 과정을 단기간에 몰입도 있게 진행해 더욱 기억에 남아요.
여러 유관부서와 협업을 하는 과정에서도 배운 점이 많았던 프로젝트였고, 시니어 데이터 사이언티스트의 가이드를 바탕으로 일하는 방식과 절차에 대해서도 배우고 성장할 수 있었던 기회였습니다.
먼저 이 프로젝트를 시작하면서부터 Fraud 관련 운영 부서 동료분들과 밀접한 협업을 하였는데요. 개발자, 기획자 등 항상 협업하는 프로덕트 개발 분야의 동료가 아닌 전혀
새로운 분야의 동료분들과 협업하는 과정에서 서로 이해하는 용어와 맥락의 차이를 맞춰가는 과정이 필요했습니다.
이를 위해 재택 기간이었지만 행아웃을 통한 가벼운 티타임도 자주 하며, 현 진행 상황 및 결과에 대해 자세하고 쉽게 설명드리려 노력했습니다. 또한, 분석 모델 개발의 전체 과정을 함께 맞춰나갈 수 있도록 차후 진행 예정인 부분을 미리 말씀드리며 협조를 구하기도 했습니다. 이 과정에서 운영 부서 동료분들이 그동안 쌓아오신 노하우와 여러 실제 케이스들도 잘 전수받을 수 있었고, 여러 Fraud 케이스 간 우선순위를 설정하고 이를 바탕으로 한 적절한 탐지 모델을 개발할 수 있었습니다.
협업 과정에서 서로 신뢰가 형성되었기에 모델의 결과를 검증하고 결정하는 과정에서도 의미 있는 피드백을 주고받으며 모델의 성능을 향상시킬 수 있었습니다. 또한 운영 배포 과정에서도 주피터 노트북(Jupyter Notebook)으로 작성한 파이썬 코드를 airflow 배포를 위한 파이썬.py 파일로 변경 및 배포, 모델 결과 저장 및 전체 아키텍처를 설계하는 것이 필요했습니다. 이러한 과정은 데이터서비스실 내의 데이터 엔지니어분과 협업하였고,
당시 저희 실에서는 airflow를 이제 막 도입하는 시기였기에 해당 프로젝트를 하는 과정에서 데이터 엔지니어분께서는 ML Batch Job에 대한 코드 템플릿을 개발하기도 하였습니다. 그리고 최종 개발된 모델의 탐지 결과를 한눈에 보고 이해하기 쉽도록 BI 툴을 활용하여 여러 비교 지표들과 함께 통계 요약값, 시각화 그래프 등이 포함된 대시보드를 개발했습니다. 이 대시보드는 최대한 의도를 명확하게 파악할 수 있는 형태로 구성하여 누구나 직관적으로 탐지 모델의 결과를 받아들일 수 있도록 하는 것에 중점을 두었습니다.
이처럼 운영 부서와의 원활한 커뮤니케이션과 데이터 엔지니어와의 협업으로 해당 팀에서 잘 활용될 수 있는 탐지 모델이 개발 및 운영되고 있고, 이 모델은 현재까지도 지속적인 성과를 유지하고 있는데요.
해당 모델의 탐지 결과를 토대로 여러 방면의 운영 리스크들을 점검하고 개선해 나가며 배민 앱의 생태계 신뢰도를 공고히 하고 있다는 점에서 매우 뿌듯하게 생각하고 있습니다.
또한 최근에는 해당 모델들을 디벨롭(Develop)하기 위해 아키텍처나 성능 이슈 등을 검토하여 지난 1년 동안 쌓아온 도메인 경험치를 좀 더 녹여낼 수 있겠다는 기대를 하고 있습니다.
개인적으로는 이러한 과정을 통해 하나의 도메인을 꾸준히 파고들어가며 해당 도메인 안에서 여러 기술들을 적용하고 성장하는 경험도 굉장히 즐겁고 의미 있다는 것을 배울 수 있었습니다.
Interview 04
역량에 관한 생각
역량을 강화하기 위해 어떠한 노력들을 기울이셨는지 궁금합니다.
의 역량 강화 노하우 두 가지를 소개 드릴게요.
먼저는 관심 있는 업무 분야에 끊임없는 호기심을 가지고, 맡은 모든 업무에 집중해 직무 전문성과 인사이트를 확장해 나가려는 자세입니다.
데이터 사이언스는 워낙 다양한 분야와 영역을 아우르는 직군이다 보니, 개인마다 흥미 있는 분야도 다양할 수밖에 없는데요. 저는 현실 세계의 비즈니스 문제를 데이터로 해결하는 일에 관심이 있습니다. 그래서 저는 데이터 사이언티스트의 역할과 업무범위에 대한 정의를 머신러닝 모델을 설계하고 개발하는 것 외에도 데이터 분석이나 시각화를 통해 문제를 발굴하고 정의하는 것으로 확장해서 생각하는 편입니다.
저는 문제를 정의하고 데이터를 적절하게 잘 활용하여 논리적인 접근을 하는 것도 중요하게 생각하고 업무를 하는 편인데요. 이를 위해서는 여러 다양한 상황에서 어떤 방향과 방식으로 데이터를 다루는지에 대한 아이디어를 많이 가지고 있는 것이 도움이 된다고 생각해요. 그렇기 때문에 다양한 분야의 데이터 분석 및 모델링 기본서로 이러한 부분들을 계속 채워가려고 노력하는 편이고, 미디엄이나 캐글에서 잘 작성된 문서와 코드들을 자주 살펴보곤 합니다.
두 번째로는 우아한형제들의 대표 복지, 도서비 무제한 지원 제도를 정말 잘 활용하는 것입니다. 업무 관련 도서만 지원하는 것이 아니기 때문에, 비교적 자유롭게 도서 분야를 선택할 수 있는데요. 저는 통계나 데이터 분석 모델 관련 도서뿐만 아니라, SQL, Python, Hadoop, 시각화 관련 도서까지 관련 있는 데이터 관련 다양한 분야의 기술서를 많이 보곤 했습니다.
최근에는 실무에서 데이터를 어떻게 활용하고 있는지에 관한 도서들도 많이 출간돼서 이러한 실무 활용서나 비슷한 분야에 있는 유명하신 분들의 경험서와 같은 도서들도 자주 접하고 있습니다.
그리고 회사의 또 다른 복지인 교육비 지원 제도도 역시 잘 활용하고 있고요. 온라인 교육도 수강 완료를 인증하면 80%까지 지원이 되기 때문에 끝까지 수강할 수 있는 원동력도 되고, 부담 없이 다양한 외부 강의를 수강할 수 있기 때문에 이를 통해 꾸준히 역량을 강화하고 있습니다.
Interview 05
업무 환경과 책 소개
우아한형제들에서 데이터 사이언티스트로서 얻을 수 있는 경험은 무엇인가요?
우아한형제들은 배달의민족 외에도 비마트, 배민쇼핑라이브, 배민상회, 배민장부, 로봇서비스 등과 같은 푸드테크 분야뿐만 아니라 웹툰 플랫폼인 만화경과 같은 다양한 분야에서 재미있는 시도를 하고 있는 회사인데요. 제가 속한 데이터서비스실은 전사 데이터를 통합 관리하는 조직이다 보니, 다양한 서비스 대부분의 데이터를 접할 수 있고 여러 유관부서와 밀접하게 협업할 수 있습니다.
이런 서비스의 다양성 만큼 부서별로 해결해야 할 다양한 비즈니스 과제들이 있는데요.
계속 성장하고 확장해나가는 사업의 속도만큼 데이터 조직의 도움이 필요한 부분들이 상당히 많습니다. 그렇기 때문에 서비스 문제 해결이나 개선을 위해 데이터 사이언티스트가 재미있게 참여할 수 있는 과제들이 아직도 상당히 많습니다. 그리고 특정 기술 도메인에 전문지식을 가진 동료분들도 많고, 여러 기술 도메인을 아울러서 의미 있는 방향성을 제시해 주실 수 있는 시니어분도 계시기 때문에, 데이터 사이언티스트로서 좋은 경험을 쌓아나갈 수 있는 환경입니다.
최근 여러 목적 조직으로 흩어진 데이터 사이언티스트 직군 간의 원활한 소통과 교류를 위해
데이터 사이언티스트 직군 슬랙 채널도 따로 마련될 정도로 좋은 동료들과의 상호작용을 독려해 주는 문화도 잘 형성되어 있다는 점을 참고해 주세요.
또한 데이터 엔지니어, 개발자, 기획자분들과 협업하여 본인이 생각한 로직이나 분석 모델들이 연구에서 그치는 것이 아닌
실제 서비스로 출시되고 동작하는 경험, 이러한 운영 모델들의 결과를 살피며 지속적으로 디벨롭(Develop) 해나가실 수 있는 값진 경험을 하실 수 있습니다.
특히 보다 구체적으로 말씀드리고 싶은 내용들이 있는데요. 우아한형제들 내의 모든 서비스에서 발생되는 데이터를 분석해 볼 수 있는데, 흔히 생각하실 수 있는 배민 앱 내의 모든 행태 로그 데이터, 월 1억 건이 넘는 주문 데이터에서부터 배민사장님광장 웹 사이트의 노출/클릭 웹 로그 데이터, 배민상회 재고관리 어드민 데이터 등까지 정말 다양한 데이터가 준비되어 있어요. 이러한
데이터를 다루고 분석할 수 있는 좋은 인프라가 갖춰져있고, 친절하신 엔지니어분들의 가이드도 받을 수 있으며 어떤 데이터가 어디에 있는지도 비교적 열심히 관리하고 있어서 핵심 업무인 데이터 분석 및 모델 개발에 집중하실 수 있답니다. 또 데이터의 다양성만큼 지도학습, 비지도 학습, 혹은 딥러닝 모델까지 알고리즘 및 아키텍처 설계도 꽤 자유롭게 하실 수 있습니다. 물론 인프라 상황 등을 고려해야 할테지만, 이러한 모든 의사결정들을 대부분 주도적으로 해나갈 수 있는 환경입니다.
마지막으로 여러 유관부서에서 비교적 잘 정의된 비즈니스 문제가 넘어오는 경우도 있지만,
비즈니스 문제 정의부터 모델 개발 배포까지 처음부터 끝까지 모든 과정을 직접 참여하고 진행하는 과정을 경험하실 수 있습니다. 단편적인 업무 조각을 수행하기보다는 전체 과정을 직접 핸들링하며 프로젝트를 이끌어나가는, 분석 모델 개발의 A부터 Z까지의 경험을 하실 수 있습니다.
데이터 사이언티스트로서의 삶을 꿈꾸는 분들에게 책 한 권 소개 부탁드립니다.
관련 분야의 지식을 쌓는 데에 도움이 됐던 기술서들이 정말 많았는데요. 이런 기술서들은 시기나 상황에 따라 각 개개인에게 미치는 효용이 너무 다를 것 같아서 제외하게 됐습니다.
그래서
제가 업무를 하면서 문제를 정의할 때 한 번씩 생각하게 되는, MECE적 사고를 잘 담은 <로지컬 씽킹> 이라는 책을 소개하고자 합니다. 다들 잘 아시겠지만 MECE는 Mutually Exclusive and Collectively Exhaustive의 약자로 어떤 현상이나 문제를 분석할 때 서로 중복되지 않으면서도 전체적으로 누락 없이 사고하는 기술이라고 할 수 있는데요.
데이터 사이언티스트 직군에게서만 중요한 역량은 아니지만,
데이터라는 소스를 본인만의 논리적인 플롯으로 설득력 있는 전개를 해나가야 한다는 점에서 소개할만한 책이지 않을까 싶어 추천드립니다.
>>
우아한형제들 기업정보 보러가기
>>
지금 채용중인 IT 직무 보러가기
저작권은 잡코리아(유)에 있으며, 무단전재 및 재배포를 금지 합니다.