AI 자동화는 쉽다. 품질을 만드는 데 3개월이 걸렸다 — 유튜브 파이프라인 오버홀 실전 복기
AI 자동화는 쉽다. 품질을 만드는 데 3개월이 걸렸다 — 유튜브 파이프라인 오버홀 실전 복기
자동화를 만드는 건 이틀이면 됩니다. 바이브코딩으로 AI한테 시키면 뚝딱 나옵니다. 근데 그렇게 만든 자동화가 실제로 성과를 내느냐? 그건 완전히 다른 문제입니다.
저는 유튜브 채널을 운영하면서 영상 자동화 파이프라인을 만들었습니다. 대본부터 TTS, 이미지 생성, 편집, 업로드까지 전 과정이 자동으로 돌아가는 시스템이었습니다. 근데 3개월 동안 이 파이프라인을 세 번 갈아엎었습니다. 이유는 단 하나 — 자동화된 결과물의 품질이 기대에 못 미쳤기 때문입니다.
이 글은 "자동화 어떻게 만드나요?"에 대한 글이 아닙니다. 자동화 만드는 건 이전 글에서 다뤘고, 여기서는 그 다음 단계 — 자동화 위에 품질을 올리는 과정에서 뭘 깨달았는지를 정리합니다.
자동화 구축은 이틀이면 끝난다 — 진짜 문제는 그 다음
바이브코딩의 위력은 대단합니다. Claude Code에 "대본 넣으면 TTS 나오는 스크립트 만들어줘"라고 하면 진짜 만들어줍니다. 이미지 생성, 자동 편집, 유튜브 API 연동까지 — 비개발자인 저도 각 모듈을 구현하는 데 며칠이면 충분했습니다.
숏폼(30~60초) 자동화는 특히 더 빨랐습니다. TTS + AI 이미지 + CapCut 조합으로 하루에 여러 개를 찍어낼 수 있었습니다. 구축 시간은 딱 이틀이었습니다.
| 자동화 유형 | 구축 소요 | 일일 생산량 | 핵심 도구 |
|---|---|---|---|
| 숏폼 (30~60초) | 2일 | 3~5개 (가능) | TTS + AI 이미지 + CapCut |
| 롱폼 v1 (초기) | 5일 | 1개 | Claude + TTS + 자동편집 |
| 롱폼 v3 (현재) | 3개월+ 개조 | 1개 | 리텐션 과학 + 10축 평가 + Codex 리뷰 |
숫자만 보면 숏폼이 압도적으로 효율적입니다. 하루에 3~5개를 뽑을 수 있으니까요. 근데 문제가 있었습니다.
도메인 지식 없는 자동화는 누구나 만든다
숏폼 자동화를 돌리면서 깨달은 게 있습니다. 기획과 리서치에 나만의 방향성이 없으니 결과물이 범용적이었습니다. 쉽게 말하면, 누구나 AI한테 시키면 비슷한 걸 만들 수 있다는 뜻입니다. 회사에 일머리 없는 팀장이 오면 어떻게 되죠? 아무리 좋은 팀원을 줘도 결과가 안 나옵니다. AI 자동화도 똑같습니다. 방향을 잡아주는 사람이 도메인 지식이 없으면, 에이스 팀원(AI)을 데리고도 범용 결과물밖에 못 냅니다.
성과 차이는 숫자로도 확인됐습니다. 숏폼은 요청만 하면 만들어지는데, 도저히 업로드할 자신이 없는 퀄리티로 나왔습니다. 반면 롱폼 채널은 달랐습니다. 온라인 강의에서 배운 유튜브 운영 노하우 — 그 강사가 만들어놓은 파이프라인을 그대로 카피해서 AI 자동화에 녹였습니다. 모든 콘텐츠에서 압도적인 성과를 내지는 못했지만, 2만~3만뷰 영상 3개가 떡상하면서 구독자 1,000명 이상을 모아 YPP(유튜브 수익화 프로그램)에 합류할 수 있었습니다. 같은 자동화 시스템을 쓰더라도, 그 위에 올린 도메인 지식의 유무에 따라 결과는 천차만별입니다.
여기서 핵심 교훈을 하나 얻었습니다. AI는 실행을 대체하지만 판단까지는 완벽하게 대체하지 못합니다. "무엇을 만들 것인가"와 "어떤 관점으로 볼 것인가"는 여전히 사람 몫입니다. 자동화가 아무리 빨라도, 그 위에 올라가는 기획의 깊이가 없으면 범용 콘텐츠를 대량생산하는 것에 불과합니다. 물론 자가 개선 루프와 판단 가이드까지 AI에게 도구로 쥐어주면, 판단의 영역까지 대체가 가능하긴 합니다. 근데 그 "어떤 판단을 해야 하는지"를 설계하는 것 자체가 도메인 지식입니다. 결국 사용자에게 엣지 있는 판단력이 없으면, 에이스 팀원들을 데리고도 평범한 결과밖에 못 내는 팀장이 되는 겁니다.
Claude로 블로그 자동화하고 돈 버는 완전 가이드에서도 다룬 내용인데, 자동화의 차별점은 도구가 아니라 그 위에 올리는 경험입니다.
결국 숏폼 프로젝트는 일시 중단했습니다. 토큰만 잡아먹고 성과가 안 나오는 상황까지 갔기 때문입니다. 대신 롱폼 파이프라인을 제대로 만들기로 했습니다. 제가 가진 도메인 지식 — 유튜브 롱폼 채널 운영 노하우 — 을 녹일 수 있는 포맷이 롱폼이었으니까요.
롱폼 파이프라인 전면 개조 — 작업 순서부터 뒤집었다
롱폼은 숏폼과 달랐습니다. 이전에 롱폼 유튜브 운영 온라인 강의를 수강한 경험이 있어서, 도메인 지식이 조금 있었습니다. 적어도 무엇이 잘못됐고 어디를 바라봐야 하는지에 대한 방향성은 있었습니다. 그 눈으로 처음 만든 파이프라인을 하나하나 되짚어보니, 저도 모르게 쌓아놓은 작업 순서 자체가 문제였습니다.
기존 방식은 이랬습니다. 벤치마킹할 영상을 찾고 → 대본을 쓰고 → 영상을 만들고 → 마지막에 제목과 썸네일을 결정. 근데 이 순서가 비효율적이었습니다. 대본을 다 쓴 뒤에 "이 제목이 클릭될까?" 고민하면 이미 늦습니다. 제목과 썸네일은 시청자가 처음 보는 것인데, 그걸 마지막에 결정하고 있었던 겁니다.
그래서 순서를 완전히 뒤집었습니다.
| 단계 | 기존 (v1) | 개조 후 (v3) |
|---|---|---|
| 1단계 | 벤치마킹 영상 선정 | 사용자와 소재 탐색 (협업) |
| 2단계 | 대본 작성 | 제목 + 썸네일 먼저 확정 (키워드 검증) |
| 3단계 | 영상 제작 | 대본 작성 (확정된 제목/방향 기반) |
| 4단계 | 제목/썸네일 결정 | 영상 제작 + 메타데이터 |
| 5단계 | 업로드 | 업로드 + 설명/고정댓글 자동생성 |
제목과 썸네일을 먼저 확정하니까 대본의 방향이 명확해졌습니다. "이 제목을 클릭한 사람이 기대하는 것"을 기준으로 대본을 쓰니까, 시청 지속률도 자연스럽게 올라갔습니다.
근데 순서만 바꾼 게 아닙니다. 각 단계에서 사용되어야 할 원리, 이론, 기법들을 딥리서치로 뽑아내서 AI 스킬로 정제했습니다. 탑 채널의 대본 구조를 뜯어봤고, Grok으로 391개 소스를 분석하고, Claude에 40K 토큰 분량의 리서치를 쏟아부었습니다. 그걸 "오픈루프 관리", "리훅 배치", "감정곡선 매핑" 같은 개별 스킬로 증류해서 파이프라인에 임베드했습니다.
여기서 중요한 건 제 역할입니다. 바이브코더로서 코드를 읽을 줄 모릅니다. 근데 Claude가 보고하는 내용을 최대한 이해하고, 반문하고, 협업하면서 다듬어갔습니다. 제가 한 건 "이런 방향으로 만들어줘"라고 큰 맥락을 던지고, AI가 만든 결과물을 컨펌하며 다듬는 것뿐입니다. 이게 바이브코딩의 본질이라고 생각합니다. 코드를 쓰는 게 아니라 방향을 잡고 판단하는 것.
기존 7축 평가를 10축으로 확장한 것도 이 과정에서 나왔습니다.
| 평가 축 | 내용 | 기존(v1) | 현재(v3) |
|---|---|---|---|
| 오픈루프 관리 | 질문을 던지고 나중에 답하는 구조 | 없음 | 도입 후 구간별 배치 |
| 감정곡선 매핑 | 영상 전체의 감정 흐름 설계 | 없음 | 3막별 감정 아크 설계 |
| 리훅 배치 | 이탈 구간마다 다시 잡아끄는 장치 | 간헐적 | 전략적 배치 |
| 패턴 인터럽트 | 단조로움을 깨는 변화 | 없음 | 30초 간격 삽입 |
| 대본 구조 | 3막 구조 | 기본 구조 | 리텐션 최적화 구조 |
| 팩트체크 | 수치/날짜/인물 검증 | 수동 | AI 자동 + 수동 이중 검증 |
| 음성 품질 | TTS 자연스러움 | 기본 설정 | 속도/강세/쉼표 최적화 |
| 이미지 정합성 | 장면과 이미지 일치도 | 기본 매칭 | 컨텍스트 기반 매칭 |
| 적대적 리뷰 | 외부 AI가 결함 탐색 | 없음 | Codex 독립 리뷰 도입 |
| 메타데이터 최적화 | 제목/설명/태그 SEO | 기본 | 키워드 리서치 기반 자동 생성 |
단순히 항목을 늘린 게 아닙니다. 각 축마다 정량적 기준을 세웠습니다. 예를 들어 패턴 인터럽트는 "30초마다 하나 이상" 같은 식으로 규칙화해서 파이프라인에 임베드했습니다. AI가 대본을 생성할 때 이 기준을 자동으로 체크하고, 미달하면 수정을 요청합니다.
특히 Codex 적대적 리뷰가 큰 차이를 만들었습니다. 대본을 작성한 AI와는 별개의 AI가 독립적으로 결함을 찾는 구조입니다. 자기가 만든 결과물을 자기가 리뷰하면 편향이 생기는데, 외부 리뷰어를 두니까 "이 부분은 주장만 있고 근거가 없다", "여기서 오픈루프가 닫히지 않았다" 같은 피드백이 나왔습니다.
솔직히 말씀드리면, 아직 구독자 떡상이나 시청뷰 폭발 같은 드라마틱한 결과는 없습니다. 개선 작업을 한 지 2~3일밖에 안 됐으니까요. 근데 파이프라인 순서가 다듬어지면서 나오는 결과물에 대한 만족도는 확실히 올라가고 있습니다. 그리고 그 만족도가 결국 시청자한테도 전달된다고 믿습니다.
토큰 재배분 — 양에서 질로의 전략적 피벗
자동화 시스템을 운영하면서 또 하나 바뀐 게 있습니다. 리소스 배분 전략입니다.
처음에는 "1일 1블로그 + 매일 X 포스팅 + 매일 유튜브"를 목표로 잡았습니다. 평소 아이디어는 자신 있었기에, 부족한 실행력만 AI로 채우면 양으로 승부할 수 있다고 생각했습니다. 그런데 약 한 달 동안 깨달은 건 "Idea is cheap"이라는 사실입니다. 원래 VC들 사이에서 유행하던 말이었는데, AI 시대가 도래하면서 모두에게 실행 도구가 주어지니까 이 말의 무게가 달라졌습니다. 아이디어만으로는 부족합니다. 특정 도메인에서의 깊은 지식과 경험 인사이트를 가진 사람만이 차별성 있는 성과를 낼 수 있다는 걸 체감하고 있습니다. 게다가 Claude Max의 토큰은 한정되어 있습니다. 블로그에 토큰을 쓰면 유튜브 대본 품질이 떨어지고, 유튜브에 집중하면 블로그가 밀리고. 모든 걸 다 하려니 어느 것도 제대로 못 하는 상황이었습니다. 자동화로 1일 1포스팅만 목표로 달리다 보니, 비슷한 수준의 경쟁자가 너무 많았습니다. 강력한 차별성을 만들려면 더 엣지 있는 전략과 압도적인 퀄리티로 승부해야 합니다.
그래서 전략을 바꿨습니다. 핵심 콘텐츠를 하나 깊게 만들고, 그걸 여러 플랫폼에 맞게 재구성한다. 원소스멀티유즈입니다.
| 구분 | 변경 전 | 변경 후 |
|---|---|---|
| 토큰 배분 | 블로그 33% + X 33% + 유튜브 33% | 롱폼 정교화 50% + 시스템 유지보수 30% + 멀티플랫폼 배포 20% |
| 일일 목표 | 블로그 1개 + X 다수 + 영상 1개 | 핵심 콘텐츠 1개 → 다채널 배포 |
| 품질 기준 | "일단 올리자" | 10축 평가 통과 후 발행 |
| 시스템 최적화 | 필요시 수정 | 정기적 볼트 유지보수 (컨텍스트 다이어트, SSoT 정리) |
볼트 유지보수에 토큰을 쓴다는 게 언뜻 낭비처럼 보일 수 있습니다. 근데 실제로는 반대입니다. 옵시디언 볼트의 컨텍스트 파일을 32KB에서 23KB로 압축하니까, 매 세션마다 AI가 읽어야 하는 양이 줄었습니다. 세션 효율이 올라가니 같은 토큰으로 더 깊은 작업이 가능해졌습니다. 시스템 최적화가 곧 콘텐츠 품질로 이어지는 구조입니다.
원소스멀티유즈 — 시스템이 곧 실행력이다
품질을 높이면 생산 속도가 떨어집니다. 이 딜레마의 해법이 원소스멀티유즈(OSMU)였습니다. 하나의 핵심 콘텐츠에 시간을 쏟되, 그 결과물을 여러 채널에 자동으로 배포하면 품질과 도달 범위를 동시에 잡을 수 있습니다.
이 글 자체가 원소스멀티유즈의 실행 사례입니다. 하나의 핵심 소재(Nucleus)를 만들고, 그걸 블로그/X/다른 플랫폼에 맞게 변환하는 시스템을 구축했습니다.
구조는 이렇습니다. 핵심 인사이트를 하나의 문서(쉽게 말하면, 모든 플랫폼의 원본이 되는 기획서)로 정리하면, 각 플랫폼 포맷에 맞게 자동 변환합니다. 블로그용으로는 3,000~5,000자 심층 분석으로, X용으로는 롱폼 트윗으로, 향후에는 인스타그램 캐러셀이나 텔레그램 요약으로도 확장할 수 있는 구조입니다.
이게 왜 중요하냐면, 같은 인사이트를 플랫폼에 맞게 재가공하면 매번 새 소재를 찾는 것보다 훨씬 효율적이기 때문입니다. 또한 서로 다른 유입 경로를 통해 확장된 노출 기회를 얻고 서로 다른 플랫폼에서의 제 브랜딩이 시너지 효과를 얻습니다.
자동화 시스템 구축 자체가 핵심 실행력이라는 생각은 AI 에이전트 자동화 완전 가이드 2026에서도 다뤘습니다. 실행력이란 매일 손으로 콘텐츠를 만드는 게 아니라, 콘텐츠를 만드는 시스템을 만드는 것입니다.
바이브코딩으로 이 시스템을 만드는 데 걸린 시간? 3일이었습니다. 근데 이 시스템이 만들어내는 효율은 매일 복리로 쌓입니다. 다양한 플랫폼에서 노출 기회를 가지면서 시너지가 생깁니다. 한 번 만든 Nucleus가 5개 플랫폼으로 배포되면, 하나의 인사이트가 5배의 도달 범위를 가집니다.
지금 이거 해보세요
자동화를 이미 만들었거나, 만들 계획이 있다면 세 가지를 점검해보세요.
첫 번째, 자동화 결과물에 당신만의 관점이 있는지 확인하세요. AI한테 "유튜브 대본 써줘"라고 시키면 대본이 나옵니다. 근데 그 대본에 당신의 도메인 지식이나 독자적 분석이 없다면, 누구나 만들 수 있는 콘텐츠입니다. 자동화 전에 "내가 이 분야에서 남들과 다르게 볼 수 있는 게 뭔가?"를 먼저 정의하세요.
두 번째, 품질 평가 체계를 만드세요. 자동화가 뽑아낸 결과물을 그냥 발행하지 마세요. 처음부터 10축이 아니어도 됩니다. 아래 5개만 체크해도 결과물이 달라집니다.
| 체크 항목 | 질문 | 기준 |
|---|---|---|
| 관점 | "나만 할 수 있는 말인가?" | 다른 사람이 AI에게 시켜도 나올 내용이면 탈락 |
| 팩트 | "수치/날짜가 맞나?" | 최소 1개 외부 소스로 교차검증 |
| 구조 | "중간에 이탈할 구간이 있나?" | 30초(영상) / 3문단(글)마다 훅 확인 |
| 독립 리뷰 | "다른 AI에게 결함을 찾아달라고 했나?" | 만든 AI ≠ 검증 AI |
| CTA | "읽고 나서 뭘 할 수 있나?" | 구체적 행동 1개 이상 |
세 번째, 양보다 질을 택하고, 배포를 자동화하세요. 매일 새 콘텐츠를 만들려고 하지 말고, 핵심 콘텐츠를 하나 제대로 만들어서 여러 채널에 뿌리세요. 원소스멀티유즈 시스템을 갖추면 하나의 인사이트가 5배의 도달 범위를 가집니다.
자주 묻는 질문
Q. 코딩을 몰라도 자동화 품질 관리가 가능한가요?
가능합니다. 제가 그 증거입니다. 코딩을 한 줄도 못 하지만 10축 평가 체계를 만들고 운영합니다. 핵심은 코딩 능력이 아니라, "좋은 결과물이란 무엇인가"에 대한 기준을 세우는 것입니다. 그 기준만 명확하면 AI한테 "이 기준으로 평가해줘"라고 시킬 수 있습니다. 바이브코딩의 본질이 그겁니다 — 코드를 쓰는 게 아니라 기준을 설정하는 것.
Q. 숏폼 자동화를 아예 포기한 건가요?
포기가 아니라 전략적 일시 중단입니다. 숏폼 자체가 나쁜 게 아니라, 저의 도메인 지식을 녹이기 어려운 포맷이었기 때문입니다. 지금은 영상 생성 AI(Seedance 2.0 등)의 발전을 지켜보면서 벤치마킹할 인사이트를 탐색 중입니다. 기술이 충분히 올라오면 "나만의 관점이 담긴 숏폼" 자동화를 다시 시도할 계획입니다.
Q. 원소스멀티유즈에서 플랫폼별 최적화는 어떻게 하나요?
각 플랫폼 어댑터가 포맷을 변환합니다. 블로그는 3,000~5,000자 심층 분석, X는 훅+인사이트 롱폼, 인스타그램은 5장 캐러셀 — 이런 식으로 같은 인사이트를 다른 형태로 변환합니다. 핵심은 "같은 내용을 그대로 복붙하는 게 아니라, 플랫폼 문법에 맞게 재구성하는 것"입니다. 이 변환 로직도 바이브코딩으로 만들었고, 한 번 세팅하면 자동으로 돌아갑니다.
💬 더 많은 인사이트 받기
이 블로그의 새 글과 실시간 크립토/AI 인사이트를 받아보고 싶으시다면:
🐦 X (@coindowoomi) — 실시간 인사이트
📨 텔레그램 (@wasajang) — 블로그 새 글 푸시 알림
💬 카카오톡 오픈채팅 — 더 즉각적인 소통
🟢 네이버 블로그 — 코인 스토리 아카이브
댓글
댓글 쓰기