Whisper

지난 2편에서는 Whisper의 Encoder가 음성 데이터를 어떻게 '문맥 표현'으로 변환하는지 살펴보았습니다. 이제 아키텍처 분석 마지막 3편에서는 이 요약된 음성 정보를 바탕으로, Decoder가 어떻게 실제 텍스트를 생성하는지,그리고 어떻게 번역이나 언어 감지 같은 복합적인 작업을 동시에 수행하는지 그 핵심 원리를 파악하려고 합니다.Whisper 아키텍처Whisper는 전형적인 Encoder-Decoder Transformer 구조를 갖습니다. 이전 편에서는 오디오 입력 -> Encoder를 거쳐 잠재 표현으로 변환되는 과정을 따라가며 모델의 전반부를 살펴보았고, 이제 시선을 반대로 옮겨서 Encoder가 만들어낸 표현이 Decoder를 통해 어떻게 텍스트로 생성되는지, 즉 Whisper의 출력 ..
1편에서는 Whisper모델의 개요와 특징을 중심으로, 해당 모델이 무엇인가에 대해서 알아보았습니다.2편에서는 Whisper의 내부 구조에 초점을 맞추어, 음성 입력이 텍스트로 변환되기까지의 전체 아키텍처 흐름을 살펴보고자 합니다.전체 구조를 입력 처리 및 Encoder 영역과 출력 생성 및 Decoder 영역으로 나누어 분석하며, 이번 글에서는 먼저 입력 처리부터 Encoder Block까지의 구조를 다룹니다. OpenAI Whisper(1) - Whisper란 무엇일까?Whisper를 접하게 된 이유오늘은 졸업작품 주제로 선정한 Mina 프로젝트에서 사용한 OpenAI의 Whisper에 대해 소개하려고 합니다. 먼저 졸업작품 주제를 간단히 설명드리자면, Mina는 Meeting Intelligence..
Whisper를 접하게 된 이유오늘은 졸업작품 주제로 선정한 Mina 프로젝트에서 사용한 OpenAI의 Whisper에 대해 소개하려고 합니다. 먼저 졸업작품 주제를 간단히 설명드리자면, Mina는 Meeting Intelligence & Note Automation의 약자로 음성 회의를 기반으로 회의 내용을 자동으로 정리하고, 업무 단위까지 연결하는 음성 회의 기반 자동 협업 플랫폼을 목표로 한 프로젝트입니다.요약하자면, 단순히 회의 내용을 녹음하는 것이 아닌 회의 음성을 분석해 회의록 작성, 요약, 업무 정리까지 자동화하고 싶었습니다.이 과정에서 가장 핵심이 되는 기술이 바로 음성 인식(STT, Speech-to-Text) 이었습니다.Whisper란 무엇인가?Whisper는 OpenAI가 공개한 범용..
한혬
'Whisper' 태그의 글 목록