
1. はじめに:DomoAIとにじジャーニーでMV、意外といけた話
MVって、正直ハードルが高い印象がありませんか。
映像編集ソフト、カット割り、演出、エフェクト…と聞くだけで、頭の中のCPU使用率が100%になるやつです。
でも今回、DomoAI × にじジャーニー(niji・journey)で、思った以上に「MVの形」になりました。しかも、ただのスライドショーではありません。キャラクターが歌に合わせて、ちゃんと口パクするMVです。
これ、地味に嬉しいポイントで。
静止画がそれっぽく動くだけでもテンションは上がるのに、口の動きが音に追従すると、映像が急に“生き物”になります。見ている側の脳が「歌ってる」と認識するので、作品としての説得力が一段跳ねる感じ。
もちろん、プロのMVみたいに完璧に作り込んだわけではありません。
だけど、逆に言うとそこが良くて、大掛かりな映像スキルがなくても“それっぽい到達点”に行けたのが今回の面白さでした。
この記事は、難しいノウハウを詰め込むというより、
「実際にやってみたらこうだった」
「ここで迷った」
「口パクが入ると一気にMVになる」
そんな体験ベースのメモとしてまとめます。
もしあなたが、
「曲はある(または作れる)。でも映像は重い…」
「静止画PVは見たことあるけど、口パクは憧れる」
と思っているなら、たぶんこの記事はちょうどいい温度感です。
では次の章で、今回作ったMVのイメージ(雰囲気・尺・ゴール)を、サクッと共有します。
2. 今回作ったMVのイメージ(曲の雰囲気・尺・目標)
今回作ったのは、キャラクターが歌に合わせてきちんと口パクするMVです。静止画が動くだけの映像ではなく、「歌っている」説得力が出るタイプのMVを目指しました。
実物はこちらです。
www.youtube.com
作品タイトルは「世界」です。
MVのイメージはシンプルで、狙いも一点集中です。
“歌が始まった瞬間に、キャラクターが命を持つ”。まずはここを最優先にしました。口の動きが音に追従しているだけで、同じカットでも「イラスト」から「映像」に見え方が変わります。
作りとしては、にじジャーニーで用意したキャラクターのビジュアルを軸に、DomoAIで動きを付けてMVとして成立させる構成です。カット数や演出を盛りすぎず、口パクの気持ちよさが伝わる範囲に収める。ライトな記事にするなら、ここがいちばん再現しやすい落としどころだと感じました。
次の章では、実際に使ったツールを「これだけ」の粒度で紹介します。難しい話は抜きにして、全体像が見えるようにまとめます。
3. 使ったAIツールはこの3つだけ
今回のMV制作で使ったAIツールは、Suno / にじジャーニー / DomoAIの3つです。
あれこれ増やすと一気に迷子になりがちなので、「曲」「画像」「口パク動画」と役割で分けて、あえてシンプルにしました。
まず、Suno。これは今回の出発点です。MVは映像の前に、音が主役。私は生成AIのSunoで曲を用意し、その中から「この曲でMVを作る」と最初に決めました。曲が決まると、映像のテンポや表情の方向性も自然に決まっていきます。
次に、にじジャーニー。採用理由は明快で、画像生成の品質で定評があるMidjourneyをベースとしているためです。MVの素材は結局、静止画の強さで上限が決まりやすいので、最初の一枚から“作品の顔”を作りやすい点を重視しました。
そして、DomoAI。こちらは勢いで決めたのではなく、かなり現実的に比較した末の選択です。見たかったのは2点だけ。リップシンクの精度と、クレジット単価(コスト感)。複数のブログ記事やYouTubeの紹介動画を見て比較検討した結果、口パクの安定感とコストのバランスが良く、今回の目的にいちばん合っていました。
まとめると、今回の方針はこうです。
Sunoで曲を作って決める。
にじジャーニーで強い絵を作る。
DomoAIで「歌っている説得力」を作る。
この三段構えにしたことで、ノウハウに寄り過ぎず、それでも“MVとして見えるライン”に着地できました。
4. 作業の流れ(ざっくり4ステップ)
今回のMV制作は、やっていること自体は意外とシンプルです。
ポイントは「完璧な手順」より、流れを先に掴んで迷わないこと。私はこの4ステップで回しました。
1) 曲を用意する(Suno)
最初にやったのは、映像より先に曲を決めることでした。MVは結局、音が主役です。
今回の曲は、生成AIのSunoで用意しました。さらに、どの曲で作るか迷わないように、SoundCloudに公開している楽曲の中からいちばん最初に作った曲をチョイスしています。
soundcloud.com
なお、同楽曲はSpotifyでも公開しています。
open.spotify.com
2) 画像を用意する(にじジャーニー)
次にMVの“素材”になる画像を作ります。ここは土台作りです。
キャラクターの見た目や雰囲気が揺れると、後から動画にしても統一感が出ません。なので最初は欲張らず、「この子が歌う」という一枚をしっかり作るのがコツでした。
MVの完成度は、だいたいこの時点で上限が決まります。
3) 口パクさせて動かす(DomoAI)
次に、その画像をDomoAIに渡して、曲に合わせてリップシンクさせます。
ここでのポイントは、Sunoで作った曲をそのまま渡すだけでなく、可能ならボーカルトラックも一緒に渡すことです。ボーカル成分がはっきりしている素材を渡すと、口パクの狙いが定まりやすく、結果として「歌ってる感」が出やすい印象でした。
静止画が“揺れる”だけだと、どうしてもスライドショーっぽさが残ります。でも口が歌に追従すると、画面が一気に「歌ってる」に変わる。ここが今回いちばん気持ちいい瞬間でした。
難しい演出を足すより、まずは口パクの説得力に全振りする方が、ライトに作るなら結果が出やすいです。
4) 音に合わせて並べる(お好みの動画編集ツール)
最後に、できた動画素材を編集ツールに並べて、曲に合わせて整えます。
ここは正直、好きな編集ツールでOKだと思います。私は使い慣れているのでCapCutを使いました。
やることは「難しい編集」ではなく、タイミング調整が中心です。サビの頭でカットを変える、キメの一拍で寄る、余白を切る。これだけでMVっぽさが出ます。
まとめると、今回の作業は「作る」より「繋ぐ」に近い感覚でした。
Sunoで曲を決め、にじジャーニーで絵を作り、DomoAIで歌わせ、CapCutで気持ちよく並べる。
この流れを一度作ってしまうと、次の曲でも同じ型で回せるようになります。
5. やってみて「良かったこと」3つ
実際にDomoAIとにじジャーニーでMVを作ってみて、「これはやってよかったな」と感じた点が3つあります。どれもテクニックというより、気持ちと制作体験がラクになる話です。
1) 口パクが入った瞬間、MVとして成立する
まずこれです。
静止画が少し動く映像は世の中にたくさんありますが、口が歌に合わせて動くだけで、“動画の格”が一段上がります。
視聴者の脳が「歌っている存在」としてキャラクターを受け取るので、説明なしでもMVとして飲み込める。ここがいちばんの収穫でした。
2) 映像編集の重さが消えて「作れる側」に回れる
MV制作って、編集スキルがある人ほど強い世界に見えます。
でも今回の流れだと、最初から“映像を全部作る”んじゃなくて、素材を作って、気持ちよく繋ぐ方向に寄せられます。
結果として、編集が得意じゃなくても「完成まで持っていける現実味」が出ました。これはかなり大きいです。
3) 1本作ると、次が早い(型が残る)
作ってみて気づいたのは、今回の手順って作品というよりテンプレなんですよね。
曲を決める→絵を作る→口パクさせる→並べる。
この型が一度できると、次は「中身」だけ差し替えればいい。つまり、次回からは“制作”がだんだん“運用”になっていきます。
Sunoで曲が増えるほど、このワークフローの価値も増える感覚がありました。
まとめると、今回の良さは「すごいことができた」より、
“最後まで作り切れた”という手応えが得られたことでした。
次の章では、逆に「ここは詰まった」「こうすればよかった」と感じた点も、ライトに共有します。
6. つまずいたところ(でもこうしたら抜けた)
もちろん、全部がスルスル進んだわけではありません。
むしろ「ここで一回、手が止まったな」というポイントがいくつかありました。ただ、面白いのは、詰まり方が“技術”というより 判断の迷い だったことです。今回つまずいたのは主にこの3つでした。
1) 統一感が、思ったより簡単に崩れる
にじジャーニーで画像を作ると、どの一枚もそれなりに良い絵になります。
でもMVは「一枚ずつ良い」だけだと足りなくて、並べた時に同じ世界に見えるかが急に重要になります。
私がやった対処はシンプルで、
良い絵を増やすより、同じ絵を守る 方向に寄せました。
具体的には、雰囲気が合わないカットを足すより、同じ系統のカットを少なめで回す。結果として、作品全体が落ち着きました。
2) 口パクは“万能”ではなく、素材の渡し方で差が出る
DomoAIのリップシンクは頼もしいんですが、「入れたら必ず完璧」ではありません。
特に、曲全体が厚いミックスだと、口が何を追えばいいか迷う場面が出る印象でした。
そこで効いたのが、前の章でも触れた ボーカルトラックも一緒に渡す というやり方です。
ボーカルが前に出る素材を渡すと、口の動きの狙いが定まりやすくて、「歌ってる感」が安定しやすい。ここは体感でも分かる差がありました。
3) “動かしすぎ”ると、逆に安っぽく見える
動きが付くと楽しくて、つい「もっと」「もっと」と盛りたくなります。
でもMVって、動きが強いほど良いわけじゃないんですよね。
強すぎる揺れや派手な変形が入ると、口パクの説得力より先に“加工感”が目立ってしまうことがありました。
抜け方は、思い切って逆方向です。
動きを弱める、カットを短くする、見せ場だけ動かす。
この3つを意識すると、映像が落ち着いて「作品っぽさ」が戻りました。
まとめると、今回のつまずきは「技術の壁」というより、
どこまでやればMVに見えるかの“さじ加減”でした。
次の章では、今回の経験を踏まえて「次はこう伸ばしたい」という話で締めます。
7. まとめ:次はここを伸ばす
今回、DomoAIとにじジャーニーで「キャラクターが口パクするMV」を一本作ってみて、いちばん大きかったのは、完成物そのもの以上に、“作れる型”が手元に残ったことでした。
Sunoで曲を決めて、にじジャーニーで絵を作り、DomoAIで歌わせて、CapCutで気持ちよく繋ぐ。この流れは、次の曲でも同じように再現できます。ここまで来ると、制作のハードルが「技術」から「演出」に移っていきます。
そして、次の課題もはっきりしました。
今回のMVは成立した反面、構成がどうしても単調になりやすかった。口パクの説得力で押し切れる範囲はあるけれど、観ている側の気持ちをもう一段引っ張るには、“魅せ場の山”が必要だと感じました。
だから次は、ただ歌わせるだけで終わらせず、もっとドラマティックで魅せるMVの構成を目指したいです。たとえば、
- 冒頭で引き込むカット(一発で世界観が伝わる絵や表情)
- Aメロは抑えめに、サビで一気に開く(情報量と動きを段階的に上げる)
- 間奏で“物語の転換”を入れる(場所が変わる、光が変わる、表情が変わる)
- ラストに余韻を置く(終わり方に意図を持たせる)
こういう「展開」を入れるだけで、同じ技術でもMVの体感は大きく変わります。要するに、次はツールの上手さよりも、構成と演出で引っ張る方向に踏み込みたい、ということです。
とはいえ、やることは難しくしすぎません。
まずは、カット数や場面を少しだけ増やして、色味や光を固定して、サビに“見せ場”を置く。一本作って分かったのは、MVは完璧を目指すより、「次に改善できる状態で公開する」ほうが前に進めるということでした。
というわけで今回は、ライトに始めたAI MV制作の記録でした。
次回は「口パクができた、その次」を。
単調からドラマへ。同じワークフローのまま、もっと“魅せる一本”にアップデートしていきます。