< Blog Home
Insight
우리 머신러닝 팀이 핵심 업무에 집중하지 못하는 이유
By
Superb AI
|
May 11, 2021
|
4 min read
Want to Explore more?
지금 바로 Suite에 가입해 보세요.
무료 체험하기

머신러닝 데이터는 살아있다

머신러닝 개발은 데이터를 넣고 학습시켜 모델을 개발하는 과정을 반복적으로 하는 것이 핵심입니다. 소프트웨어 엔지니어링에서 코드를 효율적으로 빌드하고 테스트하여 배포하도록 돕는 파이프라인 구축을 통해 안정적인 서비스를 제공할 수 있는 것처럼, 인공지능 개발에서는 데이터를 관여시키는 파이프라인 설계가 중요합니다. 그 파이프라인을 잘 이해하는 것은 데이터가 각 단계마다 어떻게 작동하는지 관찰하고 예측할 수 있기에 머신러닝 개발에 막강한 힘을 부여합니다.


맥킨지의 보고서에 따르면, 유저 케이스 중 34%는 최소한 매달 학습 데이터를 업데이트하고 있고, 그 중 23%는 주 단위의 잦은 업데이트가 필요하다는 것을 알 수 있습니다. ‘데이터는 살아있다’ 라는 관점으로 하나의 일관된 파이프라인에서 데이터의 흐름을 확인하는 것이 중요한 이유가 여기에 있습니다.


하나의 비즈니스 목표, 하지만 분절된 워크플로우

머신러닝의 모든 프로세스에서 공동 작업이 용이하도록 설계된 파이프라인의 중요성에 대해서는 오랫동안 이야기 되어 왔지만, 현실적으로는 각각의 단계마다 서로 다른 컴포넌트를 사용하거나 팀마다 다른 방식을 채택하여 분절적인 워크플로우의 양상을 띠는 경우가 허다했습니다.

2018년에 Serdar Yegulalp 는 InfoWorld를 통해 “가장 이상적인 솔루션은 어떤 특정한 머신러닝 프레임워크 및 알고리즘셋에만 작동하지 않는 연속적으로 하나의 통합된 머신러닝 흐름을 경험하게 해주는 것이겠지만, 현재는 파이프라인 각 단계에 대한 학습을 고도화 하는 수준에 머물러있다” 고 지적한 바 있습니다.

AI 기술에 대한 폭발적 관심과 투자로 인해 많은 기업들이 AI를 자사 솔루션에 도입하는 시도를 통해 머신러닝 개발과정을 경험하고 있으며, 관련 도구와 파이프라인에 대한 기술 또한 고도화되는 오늘날에도, 여전히 이러한 문제가 존재합니다.

뉴욕의 벤처캐피탈 Work- bench는 최근에 발간한 리포트에서는 Vicki Boykis가 실시한 서베이를 인용하며 하나의 동일한 비즈니스 목표 아래 일하고 있는데도, 머신러닝 엔지니어, 과학자 그리고 분석가들이 이런 단절된 워크플로우상에서 각자의 핵심 업무에 집중하지 못하는 심각한 문제를 겪고 있음을 지적했습니다. 실무자 2천 여명이 답한 이 조사는 머신러닝 모델을 만들고, 데이터 실험 설계 및 분석에 집중해야 할 데이터 사이언티스트들이, 실제로는 데이터를 정제하는 데 시간을 쏟아붓고 있다는 답답한 현실을 보여줍니다.

일관된 워크플로우 구축이 머신러닝 팀을 구한다

한편, 이러한 문제점을 인식하고 이를 개선하려는 움직임도 활발하게 보이고 있습니다. Work-Bench에 따르면, 데이터를 중심으로 두는 데이터 드리븐 조직의 발전을 통해 데이터 엔지니어링 분야에 혁신이 가속화되고 있으며, 이는 필연적으로 다양한 팀과의 협업에 힘을 실어주며 단절된 워크플로우 문제를 해결하고 하나의 일관된 파이프라인 구축의 중요성에 무게를 싣는 방향으로 나아가고 있음을 알 수 있습니다.

저희 SuperbAI 또한 데이터 중심의 MLOps를 표방하며, MLOps 라이프사이클의 모든 단계에서 어떤 회사의 머신러닝 팀이라도 하나의 일관된 워크플로우를 경험할 수 있도록 돕는 데이터 플랫폼 Suite를 개발하고 있는데요. 이러한 훈련 데이터 플랫폼은 머신러닝 팀이 데이터를 수집하고 라벨링하며 관리하는 일련의 데이터 준비 과정을 반복하는 시간을 단축시키는 데 중점을 두어 설계되고 있습니다. 이를 통해 반복적인 과정에 소요되는 시간을 줄이고 머신러닝 팀의 리소스가 필요한 곳에 할당되도록 도움을 줄 수 있습니다. 나아가 실제 모델 훈련과 배포에 집중할 수 있도록 하여 서비스 상용화 실현을 앞당겨 줄 것입니다. 가장 중요한 사실은, 이러한 외부 플랫폼의 도입은 어떤 조직이라도 MLOps 실현에 필요한 모든 컴포넌트를 확보할 수 있게 도와 파괴적 혁신을 가져올 인공지능 개발 및 상용화가 가능해 진다는 점입니다.

About Superb AI

어느 조직이라도 MLOps를 가능하게 도와주는 데이터플랫폼에 대해 더욱 자세히 알고 싶으신 분들은 Superb AI의 백서를 다운로드해보세요.
SuperbAI가 발간한 위의 백서에서 엔터프라이즈 등급의 학습 데이터 플랫폼의 네가지 중요 핵심 요소를 살펴봄으로써 머신러닝 데이터 파이프라인 구축의 초기 과정을 살펴보실 수 있습니다. 핵심은 대규모의 다양한 데이터를 확보했다고 하더라도 빈번한 데이터 업데이트와 수정 과정이 원활하지 않으면 머신러닝 개발에서의 성공을 기대하기 어렵다는 것입니다. 꼭 기억해 주세요. 머신러닝에서의 데이터 라벨링은 한 번에 끝나는 작업이 아닙니다. 지속적이고 반복되는 작업과정 속에서 서서히 발전해나갈 수 있어야 합니다.

데이터 플랫폼 도입에 대해 더 자세히 알고 싶으신가요? 지금 바로 Suite에 가입하고 직접 체험해보세요!

Related posts