1-2. AutoML 이란 무엇인가?

728x90

<AutoML이란>

데이터만 있으면 모든 과정을 스스로 해결하는 슈퍼인공지능은 아직 존재하지 않기 때문에 머신러닝 기반의 모델을 개발하고 실제 운영하기까지 많은 과정을 거쳐야 합니다.

머신러닝 모델링은 문제 정의부터 데이터 수집과 전처리, 특징공학, 초매개변수 최적화(Hyperparameter Optimization, HPO), 신경망 구조 탐색, 모델 학습 및 평가를 거쳐 서비스 적용(배포)에 이르기까지 여러 분야 전문가의 많은 시간과 노력이 필요합니다.

AutoML은 이렇게 머신러닝을 개발할 때마다 반복되는 과정에서 발생하는 비효율적인 작업 가운데 가능한 부분을 최대한, 데이터 전처리 과정과 알고리즘 선택 및 튜닝 과정에서 모델 개발자의 개입을 최소화하고 고품질 모델을 효과적으로 만들 수 있는 별도의 인공지능을 사용합니다.

인공지능 모델링 단계에서 AutoML은 일부를 자동화하여 모델의 예측 결과 정확도를 기대 수준으로 유지합니다.

인공지능 분야의 지식이 없는 비전문가도 손쉽게 머신러닝을 이용할 수 있도록 단순하고 쓰기 쉬운 인터페이스를 사용해, 누구든지 데이터와 원하는 목표를 선정하면 자동으로 인공지능을 만들어주는 기술인 것입니다!

즉, 모델링 과정을 지원하는 보조 수단으로 이해하면 쉽습니다.

인공지능 모델링의 일반적인 과정에 대해 알아볼까요?

인공지능 모델링 과정은 데이터 준비(Data Preparation), 특징 공학, 모델 생성(Model Generation), 모델 평가(Model Evalution)로 진행됩니다.

데이터 준비 과정은 데이터 수집(Data Collection) 후, 데이터 정제(Data Cleaning), 데이터 증강(Data Augmentation)을 통한 레이블 추가, 결측치, 이상치 제거 등 학습용 데이터로 사용하기 위해 데이터 전처리를 수행하는 것입니다.

다음으로 특징 추출(Feature Extraction), 특징 선택(Feature Selection), 특징 생성(Feature Construction)을 통해 특징변수들을 만듭니다.

특징변수가 결정되면 모델 선택(Model Selection), 아키텍쳐 탐색(Architecture Searching)으로 모델링에 사용할 딥러닝 알고리즘을 선택하여 학습하고, 초매개변수 최적화와 모델 평가를 거쳐 최적의 인공지능 모델을 만들게 됩니다.

이 모든 과정을 수행하는 건 많은 시간과 노력이 요구되는데요.

각 단계에서 다양한 가설 수립과 추측, 직관적 선택이 필요합니다.

마지막에 성능 테스트를 통해 그 가설에 의해 생성된 데이터 변수와 선택한 모델의 초매개변수가 성능에 미치는 영향을 검증합니다.

테스트 결과를 분석하고 성능을 개선하기 위해 적용된 가설과 조건들을 변경하면서 테스트할 조건의 범위를 제한하여 한정된 시간 내에 전체 과정을 여러 번 반복하는데, 이런 모델링 과정을 인공지능 전문가가 아닌 AutoML이 자동으로 수행하는 것입니다!

<AutoML의 적용범위>

AutoML은 전체 모델링 과정에 적용될 수도 있지만 초매개변수 최적화 및 모델 선택과 아키텍처 탐색 과정에 사용하는 것이 가장 효과적입니다.

초매개변수 최적화란 모델의 튜닝 옵션을 학습을 통해 추정하고 가장 좋은 설정값을 찾아내는 것입니다.

일반적으로 인공지능 모델당 초매개변수는 수십에서 수백 개를 가지며, 종류도 다양하기 때문에 가능한 경우의 수가 매우 많습니다.

지금까지 전문가의 직관으로 성능에 영향을 크게 주는 초매개변수들을 하나씩 바꾸면서 모델을 학습시키고, 이전 모델의 결과를 분석하여 초매개변수들을 조금씩 바꾸면서 학습하는 것을 반복하였는데요.

하지만 AutoML은 초매개변수를 추정하는 그리드 서치(Grid Search), 랜덤 서치(Random Search), 베이지안 최적화(Bayesian Optimization) 방법 등을 사용하여 전문가의 시행착오로 소모되는 시간을 줄이고 있습니다.

※그리드 서치(Grid Search) : 순차적으로 진행하는 방법

※랜덤 서치(Random Search): 무작위로 조합을 시도하면서 최적값을 찾는 방법

모델 선택과 아키텍처 탐색 단계에서는 데이터의 유형에 따라 적합한 알고리즘을 선택하는데, 정형 데이터는 RF(Random Forest), GBM(Gradient Boosting Machine) 같은 트리 기반의 알고리즘이 사용됩니다.

반면, 비정형 데이터는 CNN(Convolutinal Neural Network), RNN(Recurrent Neural Network) 같은 신경망 기반의 알고리즘이 주로 사용됩니다.

AutoML에서 정형 데이터는 모델 선택 방식이, 비정형 데이터는 아키텍처 탐색 방식이 쓰이고, 신경망 기반의 NAS(Neural Architecture Search)가 AutoML에 좋은 성능을 보이기도 했습니다.

특히, 이미지 인식 분야에서 AutoML의 NAS는 사람 수준보다 성능과 개발 속도 면에서 뛰어나 글로벌 기업을 중심으로 이 분야의 연구가 계속되고 있답니다!

<AutoML의 현재와 미래>

딥러닝 이후, 인공지능이 빠르게 실용화되어 일상생활에 큰 변화를 줄 것으로 기대했지만 현실적으로 인공지능 상용화는 쉽지 않았습니다.

AutoML이 실용적이고 구체적인 형태로 인공지능에 적용되어 이 영역의 비효율성을 개선하기 시작했으나, 인공지능으로 인공지능을 만들기 위한 AutoML 기술도 현재는 초매개변수를 자동으로 조정하는 수준으로, 머신러닝 개발 과정 전체에 적용하기에는 해결해야 할 문제가 많이 남아 있습니다.

인공지능에 대한 전문 지식이 없어도 누구나 쉽게 원하는 업무를 대신할 머신러닝 기반 시스템을 개발할 수 있도록 하려는 AutoML의 목표는 현재 진행 중입니다!

또한, AutoML이 개발 과정의 소모적이고 반복적인 부분을 담당하고 전문가는 창의적인 영역에 역량을 집중할 수 있게 되면서, 머신러닝의 발전 속도는 가속화되고 전반적으로 인공지능 기반의 서비스 품질이 향상될 것이라 기대하고 있습니다.

<지은이 - 국립과천과학관 이양복>

원본 : https://m.blog.naver.com/nsm2010/223037613730

728x90

ONS BLOG - IT / 정보보안 / 낚시 이야기

1-2. AutoML 이란 무엇인가?

티스토리툴바