AI 動画生成の成否は、ほぼすべてプロンプトにかかっています。
このガイドでは、失敗を減らしチケットを無駄にしないための実用的な書き方と、
目的から逆引きできるモデル選びのコツをまとめました。
AI は「曖昧さ」をそのまま曖昧に出力します。主体・動作・場面・カメラ・スタイル・照明 — この 6 要素を短い日本語で簡潔に書くのが、失敗を減らす最短ルートです。
誰が/何が映るか。性別・年齢・服装・色・形など、識別に必要な特徴を1行で。
主体が何をしているか。動詞+副詞で。複雑な連続動作は避けて 1〜2 個まで。
どこで起きているか。具体的な場所・時間帯・天候・背景要素。
どう撮るか。ショットの種類・アングル・動きの方向。1〜2 個に絞る。
映像の質感・雰囲気。シネマティック/アニメ/ドキュメンタリーなど。
光の種類・強さ・方向・色温度。映像の印象を決める最重要要素。
同じ日本語でも、情報の密度が少し違うだけで結果は大きく変わります。実際によくある失敗例を、6 要素を意識した書き方に直してみましょう。
「なんとなく動く」映像から「意図のある映像」へ。カメラの言葉を少し使うだけで、結果がプロの映像に近づきます。
| 日本語 | English | 使いどころ |
|---|---|---|
| クローズアップ | close-up | 表情や細部を強調したいとき |
| ミディアムショット | medium shot | 人物の上半身を自然に撮る |
| ワイドショット | wide shot / long shot | 場面全体の雰囲気を見せる |
| ドリーイン | dolly in | 被写体に徐々に近づく |
| ドリーアウト | dolly out | 被写体から徐々に引いていく |
| パン | pan (left / right) | カメラを左右に振る |
| ティルト | tilt (up / down) | カメラを上下に振る |
| トラッキング | tracking shot | 動く被写体を追いかける |
| エアリアル | aerial view | 空から俯瞰で撮る |
| ハンドヘルド | handheld | 手持ちカメラの躍動感 |
| スローモーション | slow motion | 時間を遅く流して情感を強調 |
| タイムラプス | time-lapse | 長時間を短く圧縮 |
| ローアングル | low angle | 被写体を下から見上げる |
| ハイアングル | high angle | 被写体を上から見下ろす |
| 日本語 | English | メモ |
|---|---|---|
| シネマティック | cinematic | 映画のような質感・色調 |
| フォトリアル | photorealistic | 実写と見紛うリアル感 |
| ドキュメンタリー | documentary | 自然で生々しい雰囲気 |
| アニメ調 | anime style | 日本アニメの作画 |
| 水墨画風 | ink wash painting | 東洋の墨絵 |
| フィルムノワール | film noir | 白黒・陰影の強い犯罪映画調 |
| ヴィンテージ | vintage / retro | 古い映像の質感・グレイン |
| 夢幻的 | dreamlike | 幻想的・非現実的 |
| 超写実 | hyperrealistic | 現実以上に細部が精密 |
| 日本語 | English | メモ |
|---|---|---|
| ゴールデンアワー | golden hour | 夕暮れ・朝焼けの暖色 |
| ブルーアワー | blue hour | 夜明け前・日没後の青み |
| ネオンライト | neon lighting | 都市のネオン・サイバーパンク |
| 逆光 | backlit | 被写体の後ろから光 |
| 柔らかい光 | soft diffused light | 影が柔らかい |
| ドラマチックな陰影 | dramatic shadows | 光と影のコントラスト |
| ろうそくの光 | candlelight | 揺れる暖色の光 |
| 月明かり | moonlight | 青白い夜の光 |
| スポットライト | spotlight | 一点集中の強い光 |
日本語のセリフを自然な声で喋らせられるのは Google Veo 3.1 Lite / Fast / Standard の 3 モデルのみです。Kling は中国語・英語のみ、Runway/Hailuo は音声なしです。
スタジオ画面(app.php)でモデルに Veo 系を選ぶと「セリフ」入力欄が出現します。ここに日本語を入れると、プロンプト末尾に自動で 人物のセリフ(この通りに日本語で話してください): 「...」 が追加され、映像の口パクと同期した音声が生成されます。
ポイントは 20 文字以内の短い一言。長いセリフは発話と映像が合わなくなるため、1 カット 1 セリフが鉄則です。
Kite Movie が対応する 5 プロバイダー × 11 モデルを、入力・音声・秒数・強み・向き不向きまで一覧で比較。「どれを選べばいいか分からない」ときの指針にどうぞ。
| モデル | 入力 | 音声 | 日本語セリフ | 秒数 | 強み | 向いている用途 |
|---|---|---|---|---|---|---|
| Runway Gen-4 Turbo Runway | 画像必須 | — | — | 5 / 10 秒 | 高速・低コスト。画像1枚からの高精度アニメーション | スチル写真を動画化、商品カット、SNS用ショート |
| Runway Gen-4.5 Runway | 画像任意 | — | — | 5 / 10 秒 | Runway最高画質。物体の整合性・物理挙動が安定 | 広告ビジュアル、作品性の高い映像、重要カット |
| Google Veo 3.1 Lite Google | テキストのみ | ◎ あり | ◎ 対応 | 4 / 6 / 8 秒 | 最安で音声付き。日本語セリフ OK | ナレーション・BGM付きの実験生成、量産テスト |
| Google Veo 3.1 Fast Google | 画像任意 | ◎ あり | ◎ 対応 | 4 / 6 / 8 秒 | 画像+日本語セリフ+音声のバランス型 | セリフ入り CM、ショート動画、キャラ演技 |
| Google Veo 3.1 Google | 画像任意 | ◎ あり | ◎ 対応 | 4 / 6 / 8 秒 | Veo 最上位。日本語音声付きで高画質 | 本気の本編カット、セリフ入りドラマ仕立て |
| Kling V3 Standard fal.ai | 画像任意 | ○ 中英 | 中国語 / 英語 | 5 / 10 秒 | 人物の自然な動き・表情。アジア系の顔に強い | 人物メインのドラマ、Vlog 風、ダンス |
| Kling V3 Pro fal.ai | 画像任意 | ○ 中英 | 中国語 / 英語 | 5 / 10 秒 | Kling 上位。動きと画質の両立 | ハイエンドな人物映像、MV、CM カット |
| Hailuo 02 Standard fal.ai | 画像任意 | — | — | 6 / 10 秒 | コスパ最良。動きがダイナミック、物理挙動が自然 | アクション、エフェクト、物が動くシーン |
| Hailuo 02 Pro fal.ai | 画像任意 | — | — | 6 固定 秒 | Hailuo 上位。秒数固定でも高画質 | ショート向け 6 秒リール、ループ演出 |
| Seedance 2.0 Standard fal.ai (ByteDance) | 画像任意 | ◎ 音声同期 | — | 5 / 8 / 10 / 15 秒 | 最高品質。映像破綻が極めて少なく安定。ネイティブ音声同期 | 本気の作品、CM カット、破綻を許容できないシーン |
| Seedance 2.0 Fast fal.ai (ByteDance) | 画像任意 | ◎ 音声同期 | — | 5 / 8 / 10 / 15 秒 | 高速生成。Seedance のクオリティをスピーディに | 繰り返しテスト、短納期の映像制作 |
※ 消費チケット数はモデル・秒数・音声の有無で変動します。スタジオ画面で生成前に必ず表示されます。
「自分がやりたいこと」から逆引きで選べるフローです。迷ったらまず Free Trial の 5 チケットで試せるモデルから始めるのがおすすめ。
日本語音声に対応しているのは Google Veo シリーズのみ。スタジオ画面の「セリフ」欄に日本語で入力すれば、そのまま話してくれます。
画像1枚から高精度にアニメーション化するのが Runway の得意分野。特に物体・風景の整合性が安定しています。
人物の表情・身体動作の自然さに定評あり。アジア系の顔立ちにも強い。セリフは中英のみ対応。
物理的な挙動・爆発・車のスピード感など、動きの激しいシーンに強い。音声は無し。
ByteDance製。映像の安定性が高く破綻が少ない。ネイティブ音声同期・最大15秒対応。
チケット消費が最も少ない組み合わせ。プロンプトの効果検証・量産テストに最適。
各プロバイダーの最上位モデル。画質・整合性を最優先にしたい重要シーンに。
生成に失敗した動画でもチケットは消費されます。 だからこそ、最初の一発をできるだけ「成功」に近づけるための 10 項目。すべてを守る必要はありませんが、頭の片隅に置いておくと失敗率が格段に下がります。
4〜5 秒の最短設定で試し、プロンプトや画像の相性を確認してから本番の 8〜10 秒へ進めましょう。失敗コストを 1/2 以下に抑えられます。
ぼやけた写真・低解像度画像はそのまま動画にも影響します。被写体の輪郭がはっきりした 1080px 以上の画像を用意してください。
複数人物が別々の動作をするシーンは整合性が崩れやすく、失敗率が上がります。メインの被写体を1つに決めるのが成功の近道。
「振り返って微笑む」「走って飛び乗る」程度が限界。3つ以上の連続動作は途中で破綻しがちです。
「歩く」→「ゆっくりと/軽やかに/堂々と歩く」。副詞が一つ入るだけで動きの質が大きく変わります。
「走らない」ではなく「立ち止まっている」。AI は否定形をうまく解釈できないため、実行してほしい動作を肯定形で書きましょう。
画像必須のモデルにテキストだけ送るなどの「モデル外の使い方」は失敗の元。下記の比較表で得意分野を確認してから選びましょう。
9:16(縦)で生成するのに 16:9(横)画像を入れると、不自然なクロップや黒帯が発生します。縦長画像を用意してください。
短すぎると情報不足、長すぎると矛盾が増えます。主体・動作・場面・カメラ・スタイル・照明の 6 要素を簡潔に収めるのがコツ。
自分で読んで「矛盾がない」「具体的だ」と感じられれば OK。違和感があれば、その違和感を言語化して修正しましょう。
ここまで読んでも最初は失敗するもの。よくあるパターンを知っておけば、次の生成で確実に改善できます。
| 症状 | 原因 | 対策 |
|---|---|---|
| 人物の顔が途中で変わる | 主体の情報が曖昧/秒数が長すぎる | 服装・髪型など特徴を具体化/まず 5 秒で試す |
| 動きが途中で破綻する | 複数の連続動作を同時に指示している | 動作は 1〜2 個に絞り、シンプルな動き単位で分割 |
| 静止画のような動きがない映像 | 動詞が弱い・カメラワーク指定なし | 「ゆっくり歩く」「トラッキングショット」等を追加 |
| 画像とまるで違う結果 | プロンプトが画像の内容と食い違っている | 画像の色・主体・場面をプロンプトにも反映 |
| 音声が出ない/日本語にならない | モデルが音声/日本語に対応していない | Google Veo 3.1 シリーズを選択し、セリフ欄を使う |
| 上下に黒帯が入る(Veo) | Google Veo 側の既知の仕様 | 後編集でクロップ、または Runway/Kling を選ぶ |
| すぐエラーで失敗する | 画像必須モデルに画像未指定/画像サイズ超過 | 画像を添付、または画像不要なモデルに変更 |
| 雰囲気が平凡で印象に残らない | 照明・スタイルの指定が無い | 「ゴールデンアワー」「シネマティック」等を追加 |
ご登録のメールアドレスを入力してください。
パスワード再設定用のリンクをお送りします。