출처: 오픈AI 유튜브 캡쳐

 

Open AI가 'GPT-4o'를 발표했습니다. 이 모델은 텍스트, 음성, 비디오를 처리할 수 있는 AI로, 텍스트 대화뿐 아니라 음성 대화도 가능합니다. GPT-4o에서 o는 omni의 이니셜로, 텍스트, 음성 및 비디오를 처리할 수 있는 모델의 능력을 의미합니다. 실제로 GPT-4o는 텍스트와 음성을 이해하는 것 외에 이미지를 인식해 사용자와 소통하는 것도 가능합니다. 음성 인식, 스피치-투-텍스트(Speech to text), 이미지 인식 기능 등이 통합돼 대화형 인터페이스 형태로 자연스러운 실시간 상호작용이 가능한 멀티모달(Multimodal, 다중 모드) 모델입니다. 멀티모달은 그림을 그리고, 자연어로 설명하거나, 이미지를 보고 노래를 작곡하는 형태로 동작합니다.

 

 


출처: 오픈AI 유튜브 캡쳐

 

'GPT-4o'는 GPT-4 터보보다 2배 빠르고 50개 언어에 대한 품질과 속도가 향상되었으며, 무료로 현재 사용할 수 있습니다. AI 에이전트로서 사용자들은 텍스트 검색을 대체하고, 음성 어시스턴트로 청각과 시각 추론이 가능해졌습니다. 또한 애플리케이션을 구축할 기회를 제공하며, 사용 편의성이 크게 개선됨을 강조했습니다. 무라티 CTO는 이번 업데이트로 무료로 제공되며 사용 편의성이 크게 향상되었다고 전했습니다. 

 

GPT-4와의 차이점은 무엇보다 실제 인간과의 대화와 구분이 안 될 정도라고 합니다. 기존 챗GPT는 몇 초간 기다려야 하는 지연이 있었으나 GPT-4o는 음성으로 궁금한 것을 실시간으로 음성 답변받을 수 있습니다. 개그는 물론, GPT-4o는 5종류의 목소리와 50개 언어를 지원한다고 합니다. 한국어와 영어, 영어와 일본어 등 쌍방향 통역이 가능한 언어 쌍 역시 2,450개에 달합니다. GPT-4o은 자연스러운 대화뿐만 아니라 감정까지 전달할 수 있습니다. 잠잘 때 동화를 만들어달라는 요청부터 로봇 소리로 바꿔달라고 요청하거나, 강렬한 드라마처럼 표현해달라는 등 자세한 요청사항에도 즉각 반응합니다. 

 

과학기술계에선 GPT-4o로 인공일반지능(AGI)이 시작됐다며 환영하는 반응입니다. 인공일반지능(AGI, Artificial General Intelligence)는 인간 또는 인간 이상의 지능을 갖춘 AI를 의미하는데, 인간과 거의 구별할 수 없는 가상의 사람이 인간처럼 듣고, 보고, 추론하고, 말한다는 점에서 AGI라고 봐도 무방하다는 시각입니다. 그동안 AI는 실제 세상과 상호작용에 있어 제약이 있었는데, GPT-4o가 그 한계를 넘었다는 이야기입니다. 

 

한편, 일각에서는 실질적인 기능 발전이 없는 보여주기에 집중한 ‘잘 짜인 쇼’에 그쳤다는 지적도 있습니다. 모델 능력이 크게 향상된 게 아님에도 다른 빅테크 기업보다 더 큰 주목을 받기 위해 새로운 모델을 먼저 출시하려는 경쟁이었다는 시선입니다. 저널리스트이자 작가인 제임스 빈센트는 "마케팅 방법으로는 교묘했지만, 이는 기술 도약이 아니며 가장무도회에 가깝다"라고 지적했습니다.

 


출처: 구글 DeepMind

 

다음날 구글은 음성 모델 기반의 AI 비서 ‘프로젝트 아스트라(Project Astra)’와 AI 사진 검색 기능인 ‘애스크 포토(Ask Photo)’ 등을 선보였습니다. 구글 발표의 핵심은 구글의 모든 서비스에 AI를 결합한다는 것이었습니다. 구글 검색은 물론 구글 포토, 메일, 드라이브, 안드로이드 OS등에 AI 접목을 예고했습니다. 또한 구글 검색창은 AI에 질문을 입력하는 프롬프트 창으로 바뀝니다. 챗GPT나 구글의 생성형 AI인 제미나이처럼 AI에 입력하는 행위가 곧 검색이 됩니다. 즉, 기존 검색과 달리 대화처럼 사용자의 검색 취지를 이해해 즉각적인 검색활동 및 답변을 받아볼 수 있게 됩니다. 

 

구글이 공개한 프로젝트 아스트라는 구글의 생성형 AI ‘제미나이(Gemini)’의 최신 버전으로 구동되는 멀티모달 AI입니다. 텍스트, 이미지, 오디오, 비디오 등 다양한 데이터를 종합적으로 처리하여 명령을 수행하며, 스마트폰 카메라를 통해 보이는 사물을 분석해 음성 명령에 응답하는 기능을 제공합니다. 프로젝트 아스트라는 사진을 찍어 보여주기만 하면 AI가 구글 지도 정보와 대조해 어느 도시에 위치한 어느 거리인지까지 정확하게 맞힙니다. 

이 외에도 구글은 텍스트를 통해 동영상을 생성하는 '비오'(Veo), 텍스트로 사진을 생성하는 '이마젠'(Imagen)의 최신 버전 '이마젠3', AI로 음악을 만드는 '리리아'(Lyria) 등 다양한 AI 기술을 공개했습니다. 

 

오픈AI와 구글에 이어 애플도 다음 달에 세계개발자회의(WWDC)를 열고 AI 전략을 발표할 예정입니다. 애플은 생성형 AI 기능이 탑재된 음성인식 비서 ‘시리’를 공개할 전망입니다. 아마존 역시 다음 달 세계 최대 규모의 AI 모델 출시를 예고했습니다.

 

오픈 AI의 이번 발표에 따라 AI 주도권 싸움이 본격화되어 귀추가 주목되고 있습니다. 또 오픈 AI의 이번 발표는 구글과의 AI 기술 경쟁에서 한발 앞서겠다는 의도도 엿보였습니다. 아직 일반 인공지능(AGI)이 실현되었다고 보기는 어렵지만, 머지않아  토니 스타크의 인공지능 비서인 '자비스'가 현실이 될 것으로 기대됩니다.