My AI Smarteasy와 글 읽기 – AI가 회의를 혁신한다! Gemini Vision + OpenAI Speech 기반 AI 회의 에이전트 완벽 분석

Video SDK 유튜브 채널의 “Gemini Vision + OpenAI Speech: A Powerful AI Meeting Agent using VideoSDK” 영상을 분석하여, AI 회의 에이전트 데모에 대한 블로그 글을 작성해 드리겠습니다.

 

여러분, 안녕하세요! 저스틴입니다. 오늘은 Video SDK 채널에서 공개한 놀라운 AI 회의 에이전트 데모를 함께 살펴보겠습니다. Gemini Vision과 OpenAI Speech를 결합하여 실시간으로 화면 내용을 이해하고 음성으로 소통하는 AI 에이전트! 과연 어떤 기술이 적용되었고, 우리의 회의 문화를 어떻게 바꿔놓을 수 있을까요? 자, 함께 알아봅시다!

1. AI, 회의를 꿰뚫어 보다

Video SDK는 AI가 어떻게 화면 내용을 더 잘 보고 이해하도록 도울 수 있는지 보여주는 데모를 공개했습니다 [0:00-0:09]. Jam AI를 사용하여 화면에 있는 내용을 이해하는 방법을 소개합니다.

저스틴’s 질문: AI가 회의에서 화면 내용을 분석하고 이해할 수 있다면, 어떤 변화가 일어날까요?

2. 실시간 AI 화면 분석 데모: 별이 빛나는 밤에 & 역사적 장면

AI 에이전트는 실시간으로 화면을 분석하여 그림의 세부 사항과 질감을 강조하는 회색조 버전의 빈센트 반 고흐의 “별이 빛나는 밤에”를 정확하게 식별합니다 [0:18-0:37, 5:24-5:56]. 또한, 말 그림이 끄는 수레를 통해 상품을 운송하는 인물들과 함께 역사적인 장면을 보여주는 그림을 식별합니다 [0:41-0:58].

AI 에이전트의 답변:

  • “현재 화면은 Google Arts and Culture에서 빈센트 베노의 별이 빛나는 밤의 회색조 버전을 보고 있습니다.” [0:20-0:26]
  • “Google Arts and Culture에서 그림의 흑백 복제품을 보고 있습니다. 농촌의 역사적인 장면을 보여줍니다.” [0:48-0:55]

저스틴’s 감탄: AI가 그림의 제목뿐만 아니라, 흑백 버전이라는 점, 감상 포인트까지 정확하게 파악하는 것을 보고 놀라움을 금치 못했습니다.

3. 기술 스택 & 리포지토리 개요: Video SDK, OpenAI, Gemini

이 데모에서는 다음과 같은 기술 스택이 사용되었습니다 [1:02-1:24].

  • Video SDK: 오디오 및 비디오 통화
  • OpenAI 실시간 API: 음성-음성 모델
  • Gemini Vision: 시각-언어 모델

주요 리포지토리: Video SDK Gemini Vision Agent

저스틴’s 분석: Video SDK를 기반으로 OpenAI와 Gemini의 강력한 AI 모델을 결합하여 실시간 화상 회의 환경에서 다양한 기능을 제공할 수 있도록 설계되었습니다.

4. 프로젝트 구조 & AI 에이전트 세부 정보

프로젝트는 다음과 같은 구조로 구성되어 있습니다 [1:34-2:04].

  • 클라이언트 디렉토리: ReactJS 기반 프론트엔드
  • main.py 파일: FastAPI 서버
  • AI 에이전트 클래스: 화상 회의 참여 및 오디오/비디오/화면 공유 처리

AI 에이전트 클래스의 역할:

  • 화상 회의 참여
  • 참가자 오디오, 비디오, 화면 공유 처리
  • OpenAI 및 Gemini API 초기화

저스틴’s 생각: AI 에이전트 클래스는 회의에 참여하여 실시간으로 데이터를 분석하고, 필요한 기능을 수행하는 핵심적인 역할을 합니다.

5. LLM 모델 초기화 (Gemini & OpenAI)

AI 에이전트는 다음과 같은 LLM 모델을 초기화합니다 [2:40-3:00].

  • Gemini 1.5 Flash: Google Gemini의 비전 모델 (화면 분석)
  • OpenAI: 실시간 종단 간 음성 모델 (음성 인식 및 생성)

저스틴’s 궁금증: Gemini 1.5 Flash와 OpenAI를 함께 사용하는 이유는 무엇일까요?

6. 보조 메서드 & 이벤트 처리

AI 에이전트는 다음과 같은 보조 메서드를 사용하여 다양한 기능을 수행합니다 [3:03-4:43].

  • handle function call: 화면 분석 또는 이미지 분석
  • add audio listener: 오디오 스트림 처리 및 OpenAI로 전송
  • add screen share listener: 사용 가능한 화면 공유 스트림 수신

주요 이벤트:

  • on meeting join: 회의 참여 시 OpenAI 클라이언트 연결
  • on meeting left: 회의 종료 시 작업 취소
  • on participant join: 새로운 참가자 참여 시 OpenAI 시스템 프롬프트 업데이트
  • on stream enable: 오디오 및 화면 공유 스트림 수신

저스틴’s 정리: AI 에이전트는 다양한 보조 메서드와 이벤트를 통해 회의를 실시간으로 모니터링하고, 필요한 기능을 유연하게 수행할 수 있습니다.

7. AI 회의 에이전트, 미래 회의를 어떻게 바꿀까?

Video SDK의 AI 회의 에이전트 데모는 AI가 회의를 혁신할 수 있는 가능성을 보여줍니다.

기대되는 효과:

  • 실시간 화면 분석: 회의 참가자들이 공유하는 화면 내용을 AI가 분석하여 회의 효율성 향상
  • 자동 회의록 작성: AI가 회의 내용을 실시간으로 기록하고 요약하여 회의록 작성 시간 단축
  • 다국어 지원: AI가 실시간으로 번역을 제공하여 국제 회의의 원활한 진행 지원

저스틴’s 결론: Video SDK의 AI 회의 에이전트는 아직 초기 단계이지만, 앞으로 더욱 발전하여 우리의 회의 문화를 획기적으로 바꿔놓을 것으로 기대됩니다.

#AI #인공지능 #Gemini #OpenAI #VideoSDK #화상회의 #AI에이전트 #기술 #미래기술

About the Author
(주)뉴테크프라임 대표 김현남입니다. 저에 대해 좀 더 알기를 원하시는 분은 아래 링크를 참조하세요. http://www.umlcert.com/kimhn/

Leave a Reply

*