생성형 AI란 무엇인가?: 생성형 AI란, 현황, 생성형 AI의 종류, 정리

생성형 AI란?

생성형 AI(Generative AI)란 기존의 AI가 주로 데이터를 분석·예측하는 것과 달리, 유저가 작성한 프롬프트를 기반으로 새로운 콘텐츠와 아이디어를 창작하는 인공지능 서비스를 말합니다. 생성형 AI는 대화, 이야기, 이미지, 동영상, 음악 등 다양한 유형의 콘텐츠를 생성하고 있으며, 방대한 양의 데이터로 사전 훈련·학습된 모델의 알고리즘을 활용하여 작동합니다.

우리에게 널리 알려진 OpenAI의 Chat GPT, 구글의 바드, 빙의 챗 GPT 등이 현재 대표적인 대형 언어 모델(LLM, Large Language Model)이자 생성형 AI의 대명사로 알려져 있습니다. 생성형 AI는 기존 산업에도 영향을 미치고 있으며, 새로운 산업 분야를 만들기도 합니다. 지금부터 생성형 AI 시장의 현황과 종류 그리고 그 전망에 관하여 알아보겠습니다.

현황

최근 생성형 AI를 활용한 다양한 서비스와 제품이 출시되고 있으며, 기업들은 생성형 AI를 활용해 고객 서비스 개선, 창의적인 아이디어 발굴, AI 모델의 학습, 사업 프로세스 자동화 등 다양한 분야에서 혁신을 이루고 있습니다. Grand view research의 최근 보고서에 따르면 2022년 생성형 AI 시장의 규모는 101.4억 달러로 평가되었으며, 연평균(CAGR) 35.6% 성장하여 2030년 1093.7억 달러 규모에 이를 것으로 예상하였습니다. 생성형 AI 시장의 성장은 다음 요인에 기인합니다.

딥러닝의 발전: 이미지, 언어, 음성과 같은 다양한 종류의 데이터를 학습하는 데 능숙한 딥러닝 기술의 발달로, 생성형 AI의 학습 능력과 성능이 크게 향상되었습니다.
AI 인프라 기술의 발전: AI 데이터 센터 인프라(GPU, 클라우드 컴퓨팅)의 발전으로 인공지능의 학습 능력이 급격하게 성장하면서, 생성형 AI의 개발 및 각종 상용화된 서비스가 증가하고 있습니다.
신규 비즈니스 모델의 등장: 생성형 AI를 활용한 비즈니스 모델이 속속 등장하면서, 새로운 사업 기회가 생기고 있습니다.

생성형 AI의 종류

기술적 관점의 분류(ex. GANs, VAE, Transformer, Diffusion 등)가 아닌, 순수하게 쓰임새 기준으로 분류해 보았습니다. (자연어 텍스트 생성, 이미지 생성, 동영상 생성, 음악 생성, 코딩)

텍스트 생성(LLM, Large Language Model)

OpenAI의 챗GPT: GPT 3.5와 4(유료)를 기반으로 한 대화형 인공지능 서비스로 시, 소설, 코딩, 대본, 이메일 등 다양한 목적의 답변을 얻을 수 있습니다.
Google Bard: 마이크를 이용한 프롬프트 입력이 가능하며, 코딩 및 수학 문제 풀이 등이 강점입니다. 이미지가 첨부된 답변을 요구할 수 있습니다.
빙 GPT-4: OpeanAI의 GPT 모델을 사용하므로 OpenAI의 챗GPT와 기능상의 차이는 크지 않습니다.

이미지 생성

DALL-E 2: 텍스트 프롬프트를 기반으로 이미지를 생성하는 프로그램입니다. 디지털 아트 목적의 이미지를 생성하는 데 강점이 있으며, 직접 업로드한 이미지를 기반으로 편집 및 조작이 가능합니다. 아직 일관된 품질을 보여주지는 않지만, 동영상 생성 기능도 가지고 있습니다.
Midjourney: 텍스트 프롬프트를 기반으로 고품질 이미지를 생성하며, 미국의 한 미술 대전에 우승한 작품이 미드저니로 생성된 이미지라는 사실이 알려지면서 논란이 된 적이 있습니다. 다른 이미지 생성형 AI에 비해 매우 쉬운 인터페이스와 사용법을 가지고 있습니다. (미드저니 사용방법)
Stable diffusion: 텍스트 프롬프트로 이미지를 생성하는 AI이며, 다양한 모델(일종의 플러그인)을 사용하여 그림체나 화풍을 취향에 맞게 변경할 수 있습니다. 다만 설치 및 사용법을 익히기가 다소 어렵다는 단점이 있습니다. 설치 및 사용 방법은 이전 작성 글이나 유튜브를 참조하시기를 바랍니다.
StyleGAN: Nvidia에서 만든 이미지 생성 모델입니다. 다양한 이미지 생성과 이미지의 특정 부분 제어(표정/조명 등)에 강점을 가지고 있습니다.

음악 생성

MusicGen: 메타가 공개한 오픈소스 AI 음악 생성기입니다. 텍스트와 멜로디 프롬프트로 음악을 생성할 수 있으며, 사용이 간편합니다.
MusicLM: 구글의 AI 기술을 소개하고 피드백을 받는 페이지인 AI test kitchen에서 사용해 볼 수 있습니다. MusicLM은 텍스트와 악보를 기반으로 음악을 생성하는 AI입니다.

동영상 생성

StyleGAN: 이미지를 생성하는 생성자와 이를 평가하는 판별자가 서로 경쟁하며 이미지를 생성하는 GAN 기술에 기반한 모델이며, 동영상 생성 기능을 가지고 있습니다. Github나 Tensor flow hub에서 다운로드 받아서 설치하여 사용합니다.
Deefake: 얼굴 합성 기술로 실제 사람의 얼굴을 다른 사람의 얼굴로 바꿀 수 있습니다. 역시 GAN 기술에 기반하고 있습니다. 영화/광고/드라마 등 다양한 분야에서 사용되고 있지만, 얼굴 합성을 이용한 악용의 소지가 있습니다.

코딩

Github의 Copilot: Github와 OpenAI가 공동 개발한 코드 작성 툴입니다. 자연어를 사용하여 코드를 작성할 수 있습니다. Visual studio code에서 Copilot 플러그인을 설치하여 사용할 수 있습니다.
OpenAI의 Codex: 역시 자연어로 코드 생성이 가능하며, 코드 생성 및 수정도 가능합니다.
Google의 Bard: 역시 자연어로 코드 생성이 가능하며, Python, Ruby, C# 등 총 20가지의 컴퓨터 언어를 지원하며, 계속 추가될 예정입니다.

정리

현재 많은 AI 서비스가, 무료로 이용할 경우 질문이나 명령 프롬프트 횟수가 제한되어 있거나, 베타 버전 이후 유료화로 바뀌는 경우가 대부분입니다. AI 서비스명에 링크를 넣어 놓았으니 관심 있는 서비스의 홈페이지에 방문하여 상세 내용을 확인해 보시기를 바랍니다.

생성형 AI란 무엇인가?: 생성형 AI란, 현황, 생성형 AI의 종류, 정리

생성형 AI란?

현황

생성형 AI의 종류

텍스트 생성(LLM, Large Language Model)

이미지 생성

음악 생성

동영상 생성

코딩

정리

이것이 좋아요:

관련

답글 남기기 응답 취소

생성형 AI란?

현황

생성형 AI의 종류

텍스트 생성(LLM, Large Language Model)

이미지 생성

음악 생성

동영상 생성

코딩

정리

이 글 공유하기:

이것이 좋아요:

관련

답글 남기기 응답 취소