2025년 3월 중요 AI 뉴스

OpenAI는 GPT-4o에 이미지 생성 기능을 추가했습니다. 객체, 텍스트 처리 능력이 향상되었으며, 디자인 일관성을 유지합니다. Google 또한 Gemini 2.5 Pro를 출시했습니다. Gemini 2.5 Pro는 답변하기 전에 신중하게 생각하며 코딩 및 문제 해결 능력에서 최고의 자리를 차지했습니다. OpenAI, 새로운 GPT-4o 이미지 생성 기능 출시 OpenAI가 ChatGPT 내부에 GPT-4o를 이용한 이미지 생성 기능을...

PDFsharp & MigraDoc

Home of PDFsharp and MigraDoc MigraDoc: 문서 객체 모델(DOM)을 기반으로 문서를 생성하는 라이브러리입니다. 단락, 표, 차트 등을 객체로 추가하여 문서를 구성하며, 자동으로 레이아웃과 페이지 나누기를 처리하여 PDF 또는 RTF 형식의 문서를 생성할 수 있습니다. 워드 프로세서와 유사한 기능을 제공합니다. PDFsharp: PDF 파일을 프로그래밍 방식으로 생성하고 처리하는 .NET 라이브러리입니다. GDI+와 유사한...

구글의 조용한 Gemini 2.5 발표

Gemini 2.5는 향상된 추론 능력, 네이티브 멀티모달리티, 긴 컨텍스트 창을 특징으로 합니다. 다양한 벤치마크에서 뛰어난 성능을 보여주며, 개발자들이 차세대 경험을 구축할 수 있도록 지원합니다. ​ 다양한 모델: 2.5 Pro (코딩 및 복잡한 프롬프트), 2.0 Flash (빠른 성능), 2.0 Flash Thinking (추론과 속도 균형), 2.0 Flash-Lite (비용 효율적인 성능) 등 다양한...

Introducing the Model Context Protocol

My AI Smarteasy 코파일럿 AI 에이전트 “글 읽기”와 함께 다음 글을 읽어보겠습니다. Introducing the Model Context Protocol    저스틴) 이 글에 대해 처음부터 끝까지 부분별로 자세히 설명해 주세요. 시작 부분에서 사족 같아 보이는 부분만 일부 제거 했습니다.   1. 제목 및 서론: Title: Introducing the Model Context Protocol (Model Context...

OpenAI Docs – Audio and speech API – Voice agents

고객 지원 및 언어 튜터링과 같은 애플리케이션을 위한 강력하고 상황 인식적인 음성 에이전트를 만드세요. 이 가이드는 음성 에이전트를 설계하고 구축하는 데 도움이 됩니다.   올바른 아키텍처 선택 OpenAI는 음성 에이전트를 구축하기 위한 두 가지 주요 아키텍처를 제공합니다. 음성-음성(멀티모달) 체인(음성-텍스트 → LLM → 텍스트-음성) 음성-음성(멀티모달) 아키텍처 멀티모달 음성-음성(S2S) 아키텍처는 오디오 입력...

OpenAI Docs

음성 관련 OpenAI Realtime API Audio and speech API Audio and speech API – Voice agents    관련 글 Smarteasy와 글 읽기 – New audio models from OpenAI, but how much can we rely on them?  

OpenAI Docs – Audio and speech API

OpenAI API는 오디오 애플리케이션 또는 음성 에이전트를 빌드하는 데 도움이 되는 여러 API 엔드포인트를 제공합니다. 오디오 사용 사례 둘러보기 음성 에이전트 음성 에이전트는 오디오를 이해하여 작업을 처리하고 자연어로 응답합니다. 음성 에이전트에 접근하는 방법에는 크게 두 가지가 있습니다. 음성-음성 모델과 Realtime API를 사용 음성-텍스트 모델, 요청을 처리하는 텍스트 언어 모델, 응답하는...

Smarteasy와 글 읽기 – LLM 서빙 프레임워크로 프라이빗 AI구축하기

LLM 서빙 프레임워크로 프라이빗 AI구축하기 feat. Ollama, vLLM, SGLang [세미남589@토크아이티, 윤성열 대표 / 드림플로우] – YouTube 이 영상은 토크아이티에서 진행된 세미나의 일부를 재구성한 것으로, 일반 기업에서 프라이빗 AI를 구축하고 LLM (Large Language Model)을 서빙하는 방법에 대해 설명합니다. 디플로의 윤성일 대표가 LLM 서빙을 도와주는 오픈소스 프레임워크 (Ollama, vLLM, SGLang 등)와 양자화...