이번시간에는 동영상 음성을 자막(텍스트)로 자동 변환해주는 Whisper AI 사용법에 대해서 알아보고자 합니다.
Whisper AI 같은 경우 Github에 올라온 오픈 소스 파일로 사용자들이 누구든 무료로 사용하기 쉽도록 공개되어 있습니다.
Whisper AI 다운로드
위 공식 Github 사이트에서 code 버튼을 눌러서 download zip 버튼을 클릭하시면 다운 받으실 수 있습니다.
github 사이트에서 공식 설명에 Whisper AI를 사용하기 위해서는 git 설치와 python, FFmpeg, Cuda 설치가 필수적이라고 나와있습니다.
★설치 전 필수 파일
- ffmpeg 설치 및 설정
ffmpeg를 다운로드 받는 링크로 가셔서 아래로 스크롤을 내려보시면 ffmpeg-git-full.7z 파일이 있습니다. 이것을 클릭하셔서 다운로드 받고 압축을 풀어줍니다.
압축 풀기를 하신 다음 해당 폴더 이름을 ffmpeg 라고 변경 하신 다음 C:\Program Files 폴더로 옮겨줍니다.
그리고 C:\Program Files\ffmpeg\bin 폴더 경로를 복사 (Ctrl+C) 하셔서 ‘시스템 환경 변수 편집’에 붙여넣기 해주셔야 합니다.
시스템 환경 변수로 들어가는 방법은 윈도우 시작 버튼을 누르셔서 ‘시스템 환경 변수 편집’을 검색하셔서 들어가주시면 됩니다.
그러면 위와 같은 시스템 속성 창이 뜨게 되는데요. 여기서 아래 있는 환경 변수 편집 버튼을 누릅니다.
그리고 Path 변수 항목을 더블클릭 하거나 편집 버튼을 눌러서 들어갑니다.
그리고 새로 만들기를 눌러서 아까전에 복사한 C:\Program Files\ffmpeg\bin 를 붙여넣기(추가) 하고 확인 버튼을 눌러줍니다.\
- 파이썬(python) 설치
파이썬은 반드시 3.9 버전이나 3.10 버전을 설치해주셔야 합니다. 그보다 낮거나 높은 버전을 설치하는 경우 오류가 발생할 수 있습니다.
파이썬 설치 시 반드시 add python.exe to PATH 옵션에 체크를 하신 후 진행합니다.
- git 설치
git 사이트에서 설치 파일을 실행하셔서 다음 버튼만 눌러서 설치를 완료 해주시면 됩니다.
- Cuda 설치
쿠다는 반드시 cuda12 버전 이상을 설치하셔야 합니다. 안그러면 아래와 같은 실행 오류가 나올 수 있습니다.
cuda를 설치하기 위해서는 회원가입을 해주셔야 합니다. 이메일 정보만 입력하고 계정을 만들면 되니 크게 어렵지는 않습니다.
Whisper Ai 실행 오류
만약 cuda 버전이 낮거나 설치를 하지 않은 경우 다음과 같은 오류 메시지가 출력될 수 있습니다
Error transcribing file on line library cublas64_12.dll is not found or cannot be loaded.
이런 경우라면 위에 있는 cuda 12 버전(최신버전)을 설치해서 문제를 해결할 수 있습니다.
다운로드 받으신 압축파일 압축을 푸시고 열어보시면 install 배치파일이 있는데요. 이걸 눌러서 whisper AI파일들을 설치합니다.
다운로드 설치 과정이 끝나면 다시 나오는 start-webui 배치 파일을 눌러서 whisper AI를 실행해줍니다.
다음과 같이 cmd 창에 http://127.0.0.1:7860 이라고 나오게 되는데요 해당 주소를 복사 하셔서 웹브라우져로 열어 주시면 됩니다.
그러면 위 그림과 같은 whisper ai 창이 뜨게 되는데요.
영상의 음성을 텍스트, 자막(srt 파일)로 뽑아주는 기능을 가지고 있습니다.
model 옵션에서 낮은 옵션(tiny)의 경우 작업시간은 짧지만 퀄리티는 낮고 높은 옵션(large)로 갈 수록 퀄리티는 높아집니다.
현재 최대는 large-v3로 기술발전에 따라서 점차 모델이 추가되고 있습니다.
음성 언어와 파일 포멧을 선택하고 아래 있는 generate subtitle file 버튼을 눌러주시면 작업이 진행됩니다.
개인 영상 뿐만 아니라 youtube 영상도 링크 주소만 입력해주면 변환이 가능합니다.
subtitle-edit 영상 자막 번역 전용 프로그램
Whisper Ai 기능을 포함하고 있는 영상 자막 번역 프로그램이 있는데요 바로 subtitle-edit 입니다.
영상 음성을 텍스트(TXT) 및 자막파일 (SRT) 로 추출하고 다른 언어로 변환 기능도 모두 가지고 있습니다.
자세한 사용법은 아래 내용을 참고하세요.