Whisper Auto Caption by zerodice0 v1.0.1

2026. 1. 25. 18:00개발기록

반응형

릴리즈 노트 및 다운로드 링크

굳이 본문 내용이 궁금하지 않으신 분들을 위한 다운로드 링크입니다. 기존 Whisper Auto Caption에서 개선된 기능은 다음과 같습니다.

1. Whisper.cpp v1.8.3을 참조하도록 업데이트

2. Whisper.cpp에서 지원하는 모든 인자값을 사용자가 커스터마이징 할 수 있도록 수정하고, 각 인자값에 대한 설명 추가

3. mp3 파일 이외의 wav, mp4 등의 영상 및 음원 파일을 사용할 수 있도록 수정

4. Large-V3, Large-V3 Turbo 등의 모델 추가

5. SRT 자막을 FCPXML 파일로 변환하는 기능 추가

6. SRT 자막을 FCPXML 파일로 변환 시 좌표값(X, Y) 및 정렬(Left, Center, Right) 등의 값을 변경 가능하도록 수정

7. 허깅 페이스에서 받은 GGML 모델을 커스텀 모델로 추가할 수 있는 기능 추가

 

https://github.com/zerodice0/fcpx-auto-captions/releases/tag/v1.0.1

 

Release v1.0.1 · zerodice0/fcpx-auto-captions

What's New / 새로운 기능 ✨ New Features / 새 기능 SRT to FCPXML Converter - Convert SRT subtitle files to Final Cut Pro X projects SRT 자막 파일을 Final Cut Pro X 프로젝트로 변환 Custom GGML Whisper Models - Load ...

github.com

개요

Whisper Auto Caption은 Whisper가 나온 2023년에 배포된 레포지터리로, 파이널컷을 사용하는 사람들이 Whisper를 사용해서 영상의 자막을 쉽게 만들 수 있는 프로젝트였습니다. 원본 브랜치는 다음과 같죠. 다만, 배포 이후 3년간 변경된 사항이 없었습니다.


https://github.com/shaishaicookie/fcpx-auto-captions

 

GitHub - shaishaicookie/fcpx-auto-captions: 🎬 Auto Captions for Final Cut Pro Powered by OpenAI's Whisper Model

🎬 Auto Captions for Final Cut Pro Powered by OpenAI's Whisper Model - shaishaicookie/fcpx-auto-captions

github.com

 

Whisper.cpp는 그 사이에도 꽤 많은 변경사항이 있었고, 레포지터리 자체도 20개 정도 포크됐음에도 불구하고 풀 리퀘스트가 된 이력은 없었습니다. 다른 분들이 원본 브랜치에서 파생한 뒤 어떤 식으로 관리하고 있고 기능 추가를 하고 있는지는 잘 모르겠습니다. 아마도 포크된 브랜치를 검색했을 때 두 개 정도만 검색되는 걸 봐선, 비공개 레포지터리로 운영하고 있는지도 모르겠구요.

 

어찌됐건 개인적으로 가장 필요했던 기능은 SRT로 추출한 자막을 파이널 컷으로 싱크를 맞춘 뒤, Whisper가 잘못 추출한 자막을 수정한 내용들을 일일히 교정한 다음 FCPXML로 변환하는 기능이었습니다. 파이널 컷으로 교정한 SRT 자막을 FCPXML으로 변환할 때는 보통 https://ko.editingtools.io/subtitles/ 을 이용하긴 했는데, 옵션을 선택해도 무조건 중앙 정렬로 다운로드 되고 좌표값이 0, 0 기준으로 적용되곤 했습니다. 물론 Basic Title로 변환한 이후 전체 선택한 다음 좌표값을 변경하는 방법도 있긴 하지만, Text Position값을 변경하는 것과 Transform Position을 변경하는 것과는 아무래도 차이가 있었으니까요. 좌표를 잘못 지정할 시 자막이 길어지면 잘리는 문제를 포함해서 말이죠. 

 

아무튼 이런 기능들을 포함해서, Claude를 사용해 필요한 기능들을 주섬주섬 추가했습니다. 허깅 페이스에서 찾아보니 꽤 많은 whisper 모델들이 있었기에, 이런 모델들을 사용자가 추가할 수 있는 기능이라던가... Swift를 잘 모르는 상태에서 Claude만 사용해 개선을 진행하다보니, 조금 부족한 부분이 있을지도 모르겠습니다. 일단 배포 용량을 대폭 낮추고, 이래저래 편의성을 추가했으니 이용하시다가 불편하신 점은 블로그 댓글, 혹은 유튜브, 깃허브 이슈로 등재해주시면 시간이 날 때 수정하도록 하겠습니다.

 

모쪼록 도움이 됐으면 좋겠습니다.

감사합니다. 검은곰이었습니다. :)

 

반응형