지난 2편에서는 Whisper의 Encoder가 음성 데이터를 어떻게 '문맥 표현'으로 변환하는지 살펴보았습니다. 이제 아키텍처 분석 마지막 3편에서는 이 요약된 음성 정보를 바탕으로, Decoder가 어떻게 실제 텍스트를 생성하는지,그리고 어떻게 번역이나 언어 감지 같은 복합적인 작업을 동시에 수행하는지 그 핵심 원리를 파악하려고 합니다.Whisper 아키텍처Whisper는 전형적인 Encoder-Decoder Transformer 구조를 갖습니다. 이전 편에서는 오디오 입력 -> Encoder를 거쳐 잠재 표현으로 변환되는 과정을 따라가며 모델의 전반부를 살펴보았고, 이제 시선을 반대로 옮겨서 Encoder가 만들어낸 표현이 Decoder를 통해 어떻게 텍스트로 생성되는지, 즉 Whisper의 출력 ..
Whisper
1편에서는 Whisper모델의 개요와 특징을 중심으로, 해당 모델이 무엇인가에 대해서 알아보았습니다.2편에서는 Whisper의 내부 구조에 초점을 맞추어, 음성 입력이 텍스트로 변환되기까지의 전체 아키텍처 흐름을 살펴보고자 합니다.전체 구조를 입력 처리 및 Encoder 영역과 출력 생성 및 Decoder 영역으로 나누어 분석하며, 이번 글에서는 먼저 입력 처리부터 Encoder Block까지의 구조를 다룹니다. OpenAI Whisper(1) - Whisper란 무엇일까?Whisper를 접하게 된 이유오늘은 졸업작품 주제로 선정한 Mina 프로젝트에서 사용한 OpenAI의 Whisper에 대해 소개하려고 합니다. 먼저 졸업작품 주제를 간단히 설명드리자면, Mina는 Meeting Intelligence..
Whisper를 접하게 된 이유오늘은 졸업작품 주제로 선정한 Mina 프로젝트에서 사용한 OpenAI의 Whisper에 대해 소개하려고 합니다. 먼저 졸업작품 주제를 간단히 설명드리자면, Mina는 Meeting Intelligence & Note Automation의 약자로 음성 회의를 기반으로 회의 내용을 자동으로 정리하고, 업무 단위까지 연결하는 음성 회의 기반 자동 협업 플랫폼을 목표로 한 프로젝트입니다.요약하자면, 단순히 회의 내용을 녹음하는 것이 아닌 회의 음성을 분석해 회의록 작성, 요약, 업무 정리까지 자동화하고 싶었습니다.이 과정에서 가장 핵심이 되는 기술이 바로 음성 인식(STT, Speech-to-Text) 이었습니다.Whisper란 무엇인가?Whisper는 OpenAI가 공개한 범용..