InnoForge
← 홈으로
시중 편집기에 없는 기능 · 화면만 보고 자막 생성 · PWA 지원

AI 시연영상 자동 자막 편집기

CutSense v0.4 — React 18 + FastAPI + FFmpeg + Claude Vision API

음성이 없는 화면 캡처 영상에서 AI가 직접 화면을 보고 자막을 생성합니다

기존 영상 편집기(CapCut, Vrew, DaVinci)는 모두 음성 → 텍스트(STT) 기반입니다. CutSense는 화면만 보고 자막을 자동 생성합니다 — 이 기능은 현존하는 편집기에 없습니다. 소프트웨어 시연 영상, 포트폴리오 영상, 교육 영상 등 음성 없는 화면 녹화에 특화되었습니다.
3-Pass AI 맥락 → 경계 → 자막 생성
6종 스타일 용도별 자막 톤 자동 전환
~$0.43 4분 영상 분석 비용
InnoForge Inc.
full-stack development
Differentiation

기존 편집기와 무엇이 다른가

기능 기존 편집기 (CapCut, Vrew 등) CutSense
자막 생성 방식 음성 인식 (STT) 화면을 보고 생성 (Vision AI)
음성 없는 영상 자막 생성 불가 핵심 대상
자막 톤/스타일 수동 편집 6종 자동 전환 (포트폴리오, 교육, 납품 등)
장면 전환 감지 수동 분할 AI 자동 감지 (3-Pass)
적합 용도 브이로그, 인터뷰 등 음성 콘텐츠 SW 시연, 포트폴리오, 교육, QA 기록
InnoForge Inc.
vision-based subtitle generation
Core Flow

영상 편집 전체 워크플로우

1
영상 드래그 앤 드롭
프로젝트 생성 → 영상 파일 드롭 → 서버 업로드. 멀티 영상 동시 로드, 드래그로 순서 변경 가능.
2
좌클릭으로 불필요 구간 제거
좌클릭 2번으로 제거 구간 설정 (시작/끝). 우클릭 배속 순환, 화살표 5초 점프. 실시간 스톱워치로 컷 길이 확인.
3
AI Vision 3-Pass 자막 생성
Pass 1: 8장 샘플로 영상 맥락 파악 → Pass 2: 장면 경계 자동 감지 → Pass 3: 장면별 자막 생성. 6종 스타일 중 선택.
4
내보내기 (컷 + 자막 + 인코딩)
3단계 파이프라인: 구간 제거 → 자막 번인(drawtext) → 포맷/화질/해상도 인코딩. 가로(16:9), 세로(9:16), 둘 다 지원.
Features

핵심 구현 기능

3-Pass Vision AI 자막
맥락 파악 → 장면 경계 감지 → 자막 텍스트 생성. Claude/Grok 듀얼 API 지원. 화면만 보고 자막 생성.
6종 자막 스타일
AI 자동 판단, 포트폴리오, 사내 교육, 클라이언트 납품, SNS 숏폼, QA 리포트 — 용도에 맞는 톤과 밀도 자동 전환.
구간 미세 조절
아코디언 UI로 각 구간 펼쳐서 ±1s, ±0.1s 단위 조절. 프리뷰 재생으로 보존 구간만 순서대로 확인.
멀티 영상 병합 내보내기
여러 영상을 프로젝트에 추가, 드래그로 순서 변경. 각 영상별 컷+자막 적용 후 하나로 병합 내보내기.
프로젝트 자동 저장 + 복원
2초 debounce 자동 저장. 새로고침(F5) 시 가장 최근 프로젝트 자동 복원. 편집 상태 손실 없음.
PWA + Darcula 테마
Chrome 설치형 앱(PWA) 지원. Android Studio 풍 Darcula 다크 테마. Happiness Sans 폰트.
InnoForge Inc.
ai-powered video editing
Screenshots

앱 화면 — 실제 작동 흐름

AITM 시연 영상을 편집하는 실제 화면입니다. 영상 로드 → 컷 편집 → AI 자막 생성까지의 전체 흐름.

InnoForge Inc.
built to ship
AI Architecture

3-Pass Vision AI 자막 생성 구조

1
Pass 1 — 전체 맥락 파악
영상에서 8장을 균등 샘플링하여 AI에 전달. "어떤 앱인지, 뭘 시연하는지, 전체 흐름은 어떤지" 3~5줄로 요약.
2
Pass 2 — 장면 경계 감지
전체 프레임을 16장씩 배치로 AI에 전달. "화면이 의미 있게 바뀌는 시점"만 감지. 스크롤, 입력 등 무의미한 변화는 무시.
3
Pass 3 — 장면별 자막 생성
감지된 장면마다 대표 프레임 1~2장 + 맥락 + 스타일 요약을 전달. "자막이 도움 되면 생성, 안 되면 null" — 과잉 자막 방지.
비용 최적화
5초 간격 프레임 추출, 단일 FFmpeg 호출로 속도 5~10배 향상. 4분 영상 기준 약 $0.43. 실행 전 예상 비용 팝업으로 확인.
InnoForge Inc.
optimized for cost
Tech Stack

사용 기술

Frontend React 18 + Babel + Tailwind CSS
Backend Python FastAPI + WebSocket
AI Claude Vision + Grok Vision (듀얼)
Video FFmpeg subprocess (Windows 호환)
Theme Darcula (Android Studio 풍)
Font Happiness Sans (해피니스 산스)
PWA Service Worker + manifest.json
Security Path Traversal 방어 + CORS 제한
InnoForge Inc.
manufacturing meets software
Why This Exists

왜 이 편집기를 만들었나

포트폴리오 시연 영상을 만들 때마다 같은 문제에 부딪혔습니다. 화면을 녹화하면 음성이 없고, 음성이 없으면 기존 편집기의 자동 자막 기능이 작동하지 않습니다. 결국 수십 개 자막을 하나하나 수동으로 입력해야 했습니다.

CutSense는 이 문제를 해결합니다. AI가 화면을 직접 보고 장면 전환을 감지하고, 시청자에게 필요한 자막을 자동 생성합니다. 편집기를 배우는 시간 대신, 편집기를 직접 만들었습니다.

InnoForge Inc.
from idea to production
Development
1인 풀스택 개발
기획 · 설계 · 프론트엔드 · 백엔드 · AI 프롬프트 엔지니어링 — 전 과정 단독 수행
AI Vision 자동 자막 영상 편집 자동화 포트폴리오 시연 영상 사내 교육 영상 데스크톱/웹 앱 개발

귀사의 현장에 맞는 시스템, 현장을 아는 개발자가 설계부터 시작합니다

문의하기