본문 바로가기
[컨설팅] AI 모델 학습 및 자동화

1-1. AutoML 의 탄생.

by milkclub 2023. 4. 6.
728x90

2020년 GPT-3라는 1,750억 개의 파라미터를 사용하여 인간과 구별하기 어려울 정도로 대화할 수 있는 인공지능 언어 모델 등이 많이 등장하고 있는데요.

하지만 강력한 성능을 보인 인공지능상용화로 바로 이어지지 않는 이유는 무엇일까요?

인공지능 모델을 만들기 위해 가장 중요한 것으로 데이터알고리즘을 말할 수 있습니다.

이 두 요소와 딥러닝 상용화 관련 문제가 무엇이고 이를 어떻게 해결해야 하는지! 함께 알아볼까요?

 

<인공지능 상용화의 문제점>

먼저, 인공지능을 학습시킬 고품질 학습 데이터(High Quality Training Data)를 준비하는 것이 가장 중요합니다.

사람이 사물을 구분하는 법을 배울 때, 그림 카드로 학습을 하는 것과 같이 인공지능도 사물을 구분하기 위해서는 각 사물이 어느 분류에 해당하는지 알아야 하는데요.

인위적으로 정답을 지정된 레이블(label)을 이용한 지도 학습으로 강력한 성능의 사물 분류가 가능합니다.

 

그러나 학습 데이터를 준비하는 것은 많은 시간비용이 요구되며, 인공지능으로 해결하려는 문제 중에는 레이블을 만들기 어려운 데이터들도 있습니다.

이러한 레이블링 문제는 인공지능에 필수적인 고품질 학습 데이터를 만드는 데 걸림돌이 됩니다.

또한, 인공지능 학습에 사용되는 데이터는 수학적으로 명확히 설명할 수 있는 안정된 정적 상태를 가정하며, 정제된 데이터를 기준으로 설계하는데요.

하지만 현실에서는 여러 가지 환경적인 노이즈(변동 요인)로 인하여 사물 인식에 오류가 발생하고 성능이 저하되거나 전혀 다른 결과는 나타내기도 합니다.

 

딥러닝에서 사물 인식 정확도를 높이려면 빅데이터 수준의 많은 자료를 이용한 학습이 필요합니다.

그러나 빅데이터를 사용하게 되면 자금과 시간 등 투자 비용이 상승하기에 효과적이지 않은데요.

즉, 소량의 학습 데이터로 큰 효율을 내는 것이 가장 좋습니다.

이를 위해서 전문가가 데이터에 대한 전문 분야(Domain) 지식을 활용하여 직접 특징(Feature)을 생성하거나 선택하는 작업인 특징공학(Feature Engineering)을 수행하기도 합니다.

이는 모델 성능에 미치는 영향이 크기 때문에 분석 성능 확보를 위해서 많은 시간과 시행착오가 요구되며, 학습 데이터가 소량일수록 전체 데이터를 반영하지 못한 편향된 학습 결과로 인해 오류가 발생할 수 있습니다.

 

그리고 데이터와 함께 중요한 것이 학습 알고리즘의 최적화입니다.

데이터 분석 문제는 대부분 상용 소프트웨어나 오픈소스로 제공되는 머신러닝 알고리즘을 이용하여 접근할 수 있으나, 일반화된 정적인 수학, 통계적 가정은 동적으로 변화하는 고유의 전문 분야 요인과 다른 경우가 많습니다.

그래서 분석 전문가들도 먼저 데이터 탐색(Expliratory Data Analysis, EDA)을 통해 데이터의 특성과 분포를 파악한 후, 필드 지식을 활용하여 적합한 기법을 선정하고 파라미터를 최적화(Tuning)하여 알고리즘을 만드는 것입니다.

따라서 분석 전문가들은 머신러닝 알고리즘의 내부 동작뿐 아니라 전문 분야에 대한 깊은 이해가 필요합니다.

또한, 새로운 문제를 맞닥뜨릴 때마다 해당 지식을 활용하는 일도 요구되는데요.

그러나 이것은 가능한 수준의 인력과 예산을 확보하여 실무에 적용할 수 있는 인공지능 알고리즘은 특정 집단에 제한적으로 가능하며, 전문가 수에 비하여 인공지능 문제는 다양하고 급속하게 증가하고 있어 막대한 투자가 가능하더라도 근본적인 해결책이 될 수 없습니다.

 

그렇다면 이러한 문제는 어떻게 개선해야 할까요?

일반적인 머신러닝 개발에서 상용화에 성공하기 위해 개발자는 여러 작업을 하게 되는데요.

학습 데이터를 얼마나 수집할 것인지, 노이즈 데이터는 어떻게 제거하고, 어떤 특징(Feature)을 선택하고, 어떻게 변환할지, 어떤 알고리즘을 사용할지 등, 이에 대한 해결은 수학, 통계적 지식과 전문 분야 지식이 필요하므로 많은 시간과 비용이 필요합니다.

이러한 문제들에 대한 개발 생산성을 높이는 실용적인 방법으로 각 머신러닝 개발을 위해 '인공지능을 이용하여 인공지능을 만드는 기술'인 AutoML(Automatic Machine Learning)이 있습니다.

AutoML(출처 : Microsoft Learn)

즉, 머신러닝 개발 과정에 필요한 반복적이고 소모적인 작업자동화하는 프로세스인데요.

2018년 AutoML 기술이 발표되었으며, 2019년에 나온 논문의 EfficientNet 성능 비교에선 인간이 설계한 것보다 인공지능이 만든 인공지능이 더 높은 성능을 보인다는 결과는 알 수 있습니다.

728x90