한국 시각으로 12월 7일 새벽 구글에서 대규모 인공 지능 모델 제미나이(Gemini)를 발표했습니다. 유튜브에 공개된 영상과 홈페이지 자료를 토대로 주요 내용을 요약하겠습니다. 핵심은 멀티 모달과 GPT와의 성능 비교일 것입니다. 지금부터 발표 내용을 요약하겠습니다.
제미나이(Gemini)
GPT-4, 인간 전문가와의 비교
텍스트 기준, 멀티 모달 기준, GPT-4 대비 제미나이의 우수성을 알리고 있습니다. 정확한 사용 후기는 베타 버전이 출시되어야 알 수 있을 것 같습니다. MMLU(Massive Multitask Language Understanding), 대규모 다중 작업 언어 이해 능력 카테고리에서 인간 전문가의 능력을 추월했다고 발표했습니다. MMLU는 다양한 언어 작업을 동시에 수행하고 이해하는 능력을 말합니다. (Gemini Ultra, GPT-4, 인간 전문가 비교)
GPT-4와의 비교
텍스트와 멀티 모달로 나누어 GPT-4 대비 성능을 비교하고 있습니다. 텍스트는 일반적인 질문, 추론, 수학, 코딩 능력을 포함합니다.
멀티 모달은 이미지, 오디오, 비디오 카테고리로 비교합니다.
멀티 모달과 세 가지 크기
역시 가장 강조하는 것은 멀티 모달입니다. 현재까지 Text 기반의 AI 챗봇 서비스가 대세였다면, 차츰 관련 기업들은 멀티 모달에 관심을 두고 있습니다. 구글 제미나이는 코드, 텍스트, 오디오, 비디오, 이미지를 포함한 멀티 모달 AI 모델입니다. 더불어 휴대용 모바일 기기부터 데이터 센터까지 폭넓게 적용될 수 있음을 강조합니다.
제미나이는 세 가지 사이즈로 제공됩니다. 고도로 복잡한 업무를 처리할 수 있는 Ultra, 다양한 분야에서 범용적으로 활용될 수 있는 Pro, 온-디바이스 형태로 이용될 Nano 모델이 있습니다.
이미지 인식
이미지를 인식하고 추론하는 기능이 있습니다. 메모지에 그림을 그리면 인식하고, 그것을 설명합니다.
계속 대화를 끊임없이 이어갈 수 있습니다. 오리를 다른 언어로 알려 달라는 사용자의 요청에 응합니다. 발음도 제공합니다.
화면에 지도를 배치합니다. 함께 즐길 수 있는 게임이 있는지 사용자가 요청합니다. 제미나이가 나라 맞추기 게임을 제안합니다. 이모지와 함께 질문을 합니다.
지도를 구겨 접은 후, 컵에 넣습니다. 사용자는 컵을 마구 뒤섞습니다. 어디에 있는지 맞혀 보라고 요청합니다.
두 물건의 비교를 합니다. 특징과 공통점 그리고 차이점을 언급합니다.
펜으로 기타를 그리면 기타를 연주하는 음악을 들려줍니다. 앰프를 그려서 기타와 연결합니다. 일렉트릭 기타 연주를 들려줍니다.
드럼을 그리고, 야자수를 그려 넣습니다. 해변 분위기를 내는 음악을 들려줍니다.
Alphacode 2
향상된 버전의 AI 코드 생성 모델입니다. 더 정확하고 효율적으로 다양한 프로그래밍 언어의 코딩 작업을 수행할 수 있습니다. 딥 러닝 알고리즘을 구현하고, 데이터 구조를 최적화하는 데 사용될 수 있습니다.
논문의 핵심 데이터 추출
읽기에 너무 방대한 과학 논문 자료의 주요 내용과 키워드를 요약 정리해 줍니다. 그래프로부터 코드를 요청할 수 있습니다. 해당 코드를 토대로 더 간결하고 깔끔한 그래프를 작성할 수 있습니다. 법률 및 금융과 같이 대규모 데이터가 요구되는 분야에 큰 도움이 될 것이라고 강조합니다.
사용자의 의도에 부합하는 경험을 제공
사용자가 동물을 좋아하는 딸아이를 위한 생일 파티를 계획합니다. 그리고 이것에 관해 제미나이에게 질문합니다. 여러 단계의 추론 과정을 거쳐, 제미나이는 최적의 답안을 이미지를 첨부하여 제공합니다. 추론과 답변을 도출하는 과정에서 제미나이는 다양한 방식으로 멀티 모달 기능을 사용합니다.
파티에서 제공할 컵케이크를 준비하는 과정 및 레시피도 상세하게 제미나이에게 질문할 수 있습니다.
정리
포스팅이 너무 길어져서 다음 포스팅에서 나머지 내용을 정리하겠습니다.