개요
기계 학습이라고도 일컬어지는 머신 러닝은 소프트웨어 시스템이 데이터와 경험을 학습하고 적응하여, 스스로 성능을 향상할 수 있도록 지원하는 인공 지능의 하위 집합입니다. 머신 러닝은 명확한 정의가 없는 인공지능과는 달리, 1950년대 머신 러닝의 개념을 만든 아서 사무엘에 의해 “컴퓨터가 명시적으로 프로그램되지 않고도, 학습하도록 하는 연구 분야”라고 명백하게 정의되었습니다. 이 글에서는 머신 러닝의 개념과 학습 방법, 인공지능과 머신 러닝의 차이, 머신 러닝의 활용에 관해 이야기하겠습니다.
머신 러닝이란?
머신 러닝은 그림에서 보듯이 명백하게 인공지능(AI)의 하위 개념(집합)입니다.
머신러닝의 가장 큰 특징은 별도의 프로그래밍 없이 시스템이 데이터를 학습·개선하고, 성능을 자동으로 향상하는 알고리즘을 가지고 있다는 점입니다. 이러한 알고리즘은 데이터의 패턴을 분석하여 인공지능이 스스로 학습하고, 미래의 데이터나 상황을 예측할 수 있게 합니다. 머신 러닝의 특징을 나타내는 학습 방법은 크게 3가지로 분류할 수 있습니다.
지도 학습(Supervised learning)
입력 데이터(X)와 출력 데이터(Y)가 동시에 주어진 상황에서, 입출력 데이터의 관계와 패턴을 분석하는 학습 방법입니다. 수학을 예로 들면, 여러 개의 X값과 Y값이 주어진 상태에서, 이 데이터를 통해 방정식을 도출하는 과정이라고 생각하면 됩니다. 즉 X, Y 값을 이용해 연산 과정 자체를 학습하는 것입니다. 대표적인 알고리즘은 분류와 회귀입니다.
대표적인 예로 스팸 메일을 들 수 있습니다. 다량의 메일이라는 데이터(X)가 제공되고, 어떤 메일이 스팸 메일인지 결과값(Y)이 주어집니다. 이 지도 학습을 통해 인공지능은 어떤 메일이 스팸 메일인지 판별하는 연산 과정을 스스로 학습하게 됩니다. 또 다른 예시로 이미지 인식을 들 수 있습니다. 다양한 이미지 데이터와 이미지에 등장한 사물에 관한 정보가 제공되면, 머신 러닝은 이를 스스로 학습하여, 이미지에서 사물을 판별할 수 있을 것입니다. 다음으로 필체 인식이 있습니다. 다양한 필체의 데이터와 필체 소유자의 데이터가 입력되면, 필체와 필체 소유자를 연결하는 알고리즘을 스스로 학습할 수 있습니다.
마지막으로 회귀 분석이 있는데, 대표적인 예시로 중고차 가격이 있습니다. 다양한 브랜드, 연식, 주행 거리를 가진 자동차가 입력 데이터로 주어지고, 자동차 가격이 출력 데이터로 주어진다면, 머신 러닝은 두 변수 간 관계를 스스로 학습할 수 있습니다.
비지도 학습(Unsupervised learning)
비지도 학습이란 출력데이터(Y), 즉 결과값 없이 입력 데이터만을 가지고 모델을 학습시키는 방법입니다. 정답 레이블이 없기 때문에 데이터의 숨겨진 구조나 패턴을 찾는 것이 목적입니다. 대표적인 비지도 학습 방법으로는 군집화(Clustering)와 차원 축소(Dimensionality Reduction)가 있습니다.
군집화의 대표적인 예시가, 구매 행동을 토대로 고객을 분류하고 구매 패턴을 파악하여 군집화(그룹화)하는 것입니다. 차원 축소는 실제로 중요한 특징에 집중하기 위해, 복잡한 데이터를 단순화하는 과정을 말합니다. 예를 들어 과일 바구니(X)가 있고 그 특징과 유사성을 이해하려 한다면 개별 과일의 모든 특징을 모두 고려하는 대신, 차원 축소를 통해 꼭 필요한 유사성과 특징에만 집중하는 것을 말합니다.
강화 학습(Reinforcement Learning)
강화 학습이란 에이전트(agent)가 현재의 상태를 파악하고, 보상과 벌칙이 있는 시행착오를 거쳐 보상을 최대화하는 방법을 스스로 학습하는 것을 말합니다. 여기서 에이전트란 머신 러닝 시스템을 의미합니다. 강화 학습의 주요 예시는 게임 플레이, 자율 주행, 로봇 제어를 들 수 있습니다.
알파고가 게임 플레이의 대표적인 예시가 될 수 있습니다. 알파고는 바둑판이라는 게임에서 바둑을 두는 에이전트이고, 바둑판의 판세를 관찰하고 수를 두면서 승리라는 보상을 얻기 위해, 시행착오를 거치면서 학습합니다.
인공지능과 머신 러닝의 차이
인공지능(AI)은 인간의 사고와 행동을 시뮬레이션할 수 있는 지능적인 기계를 만드는 것을 목표로 하는 더 넓은 개념입니다. 반면 머신 러닝(ML)은 AI의 하위 집합으로, 컴퓨터가 데이터로부터 학습하고 시간이 지남에 따라 성능을 향상할 수 있는 알고리즘 개발에 중점을 둡니다.
- AI는 지능형 기계 생성을 다루는 포괄적인 분야지만, ML은 훈련 알고리즘에 특화된 AI의 세부 기술입니다.
- AI는 의사결정 및 문제 해결을 포함하여 인간 지능의 복제를 목표로 하지만, 머신 러닝은 데이터를 학습하여 성능을 향상하는 것을 그 목표로 합니다.
- AI는 로봇 공학부터 자연어 처리에 이르기까지 광범위한 애플리케이션에 이용되는 반면, 머신 러닝은 이미지 인식, 음성 인식, 추천 알고리즘과 같은 작업에 주로 사용됩니다.
머신 러닝의 활용
- 추천 알고리즘: 넷플릭스나 아마존과 같은 플랫폼에서 사용자 선호도에 따라 영화, 제품을 추천함
- 금융: 주가 예측, 부정 거래 감지, 신용 위험 평가
- 헬스 케어: 의료 영상을 통해 질병 진단, 맞춤형 의약품 추천
- 자연어 처리: 챗봇, 그림 AI의 자연어 처리를 지원
- 이미지 및 영상 분석: 이미지와 영상에서 물체, 사물, 얼굴 등을 식별하고 분석함.
- 자율 주행: 신호 감지, 보행자 감지 등을 통해 사고 빈도를 낮춤
- 물류: 재고 관리, 수요 예측 및 가격 최적화
정리
머신 러닝에 관한 모든 내용을 담을 수도 없고, 모든 내용을 이해할 수도 없지만, 최소한 ‘머신 러닝이 이런 내용을 담고 있다’ 정도는 알아둬야 할 것 같아서 글을 적게 되었습니다. 다음 기회에 다른 관련 용어도 정리해 보겠습니다.