HOW TO · 使い方ガイド

プロンプトで、
動画の運命が決まる。

AI 動画生成の成否は、ほぼすべてプロンプトにかかっています。
このガイドでは、失敗を減らしチケットを無駄にしないための実用的な書き方と、
目的から逆引きできるモデル選びのコツをまとめました。

プロンプトは 6 つの要素でできている

AI は「曖昧さ」をそのまま曖昧に出力します。主体・動作・場面・カメラ・スタイル・照明 — この 6 要素を短い日本語で簡潔に書くのが、失敗を減らす最短ルートです。

01
SUBJECT

主体

誰が/何が映るか。性別・年齢・服装・色・形など、識別に必要な特徴を1行で。

黒いトレンチコートの若い女性
02
ACTION

動作

主体が何をしているか。動詞+副詞で。複雑な連続動作は避けて 1〜2 個まで。

ゆっくりと振り返って微笑む
03
SCENE

場面

どこで起きているか。具体的な場所・時間帯・天候・背景要素。

雨上がりのパリ、石畳の路地
04
CAMERA

カメラワーク

どう撮るか。ショットの種類・アングル・動きの方向。1〜2 個に絞る。

ローアングルからのトラッキングショット
05
STYLE

スタイル

映像の質感・雰囲気。シネマティック/アニメ/ドキュメンタリーなど。

シネマティック、浅い被写界深度
06
LIGHTING

照明

光の種類・強さ・方向・色温度。映像の印象を決める最重要要素。

ゴールデンアワーの暖色の逆光

良いプロンプトと悪いプロンプト

同じ日本語でも、情報の密度が少し違うだけで結果は大きく変わります。実際によくある失敗例を、6 要素を意識した書き方に直してみましょう。

悪い例
女性が歩いている
改善例
夕暮れの東京渋谷交差点を、黒いトレンチコートの若い女性がゆっくりと歩いている。カメラは低アングルから追従、シネマティックな被写界深度、ゴールデンアワーの暖色照明。
なぜ? 主体も動作も場面もすべて曖昧。AI が解釈に迷い、平凡な結果に。
悪い例
猫が走って、ジャンプして、鳥を捕まえて、木に登る
改善例
茶色の子猫が芝生の上を軽やかに走り、ふわりとジャンプする。スローモーション、ミディアムショット、柔らかい朝の光。
なぜ? 連続動作が多すぎて、途中で動きが破綻する確率が高い。
悪い例
カフェで笑わない男
改善例
カフェのカウンターで、疲れた表情でコーヒーを見つめる中年男性。窓からの柔らかい自然光、ミディアムショット、ドキュメンタリー調。
なぜ? 否定形「笑わない」は AI が解釈を誤りやすい。肯定形に直す。
悪い例
すごくかっこいい車
改善例
黒のスポーツカーがネオンが反射する夜の都会の道路を高速で走り抜ける。ローアングル、トラッキングショット、シネマティック、雨上がりの濡れた路面。
なぜ? 「すごく」「かっこいい」といった主観的な言葉は AI に伝わりにくい。

カメラワーク語彙集

「なんとなく動く」映像から「意図のある映像」へ。カメラの言葉を少し使うだけで、結果がプロの映像に近づきます。

Camera Work

構図・アングル・動き
日本語English使いどころ
close-up 表情や細部を強調したいとき
medium shot 人物の上半身を自然に撮る
wide shot / long shot 場面全体の雰囲気を見せる
dolly in 被写体に徐々に近づく
dolly out 被写体から徐々に引いていく
pan (left / right) カメラを左右に振る
tilt (up / down) カメラを上下に振る
tracking shot 動く被写体を追いかける
aerial view 空から俯瞰で撮る
handheld 手持ちカメラの躍動感
slow motion 時間を遅く流して情感を強調
time-lapse 長時間を短く圧縮
low angle 被写体を下から見上げる
high angle 被写体を上から見下ろす

Visual Style

質感・雰囲気・作風
日本語Englishメモ
cinematic 映画のような質感・色調
photorealistic 実写と見紛うリアル感
documentary 自然で生々しい雰囲気
anime style 日本アニメの作画
ink wash painting 東洋の墨絵
film noir 白黒・陰影の強い犯罪映画調
vintage / retro 古い映像の質感・グレイン
dreamlike 幻想的・非現実的
hyperrealistic 現実以上に細部が精密

Lighting

光の種類・時間帯・方向
日本語Englishメモ
golden hour 夕暮れ・朝焼けの暖色
blue hour 夜明け前・日没後の青み
neon lighting 都市のネオン・サイバーパンク
backlit 被写体の後ろから光
soft diffused light 影が柔らかい
dramatic shadows 光と影のコントラスト
candlelight 揺れる暖色の光
moonlight 青白い夜の光
spotlight 一点集中の強い光

日本語セリフを喋らせたいとき

Google Veo 3.1 シリーズ限定機能

日本語のセリフを自然な声で喋らせられるのは Google Veo 3.1 Lite / Fast / Standard の 3 モデルのみです。Kling は中国語・英語のみ、Runway/Hailuo は音声なしです。

スタジオ画面(app.php)でモデルに Veo 系を選ぶと「セリフ」入力欄が出現します。ここに日本語を入れると、プロンプト末尾に自動で 人物のセリフ(この通りに日本語で話してください): 「...」 が追加され、映像の口パクと同期した音声が生成されます。

ポイントは 20 文字以内の短い一言。長いセリフは発話と映像が合わなくなるため、1 カット 1 セリフが鉄則です。

プロバイダー別モデル比較表

Kite Movie が対応する 5 プロバイダー × 11 モデルを、入力・音声・秒数・強み・向き不向きまで一覧で比較。「どれを選べばいいか分からない」ときの指針にどうぞ。

モデル 入力 音声 日本語セリフ 秒数 強み 向いている用途
Runway Gen-4 Turbo Runway 画像必須 5 / 10 秒 高速・低コスト。画像1枚からの高精度アニメーション スチル写真を動画化、商品カット、SNS用ショート
Runway Gen-4.5 Runway 画像任意 5 / 10 秒 Runway最高画質。物体の整合性・物理挙動が安定 広告ビジュアル、作品性の高い映像、重要カット
Google Veo 3.1 Lite Google テキストのみ ◎ あり ◎ 対応 4 / 6 / 8 秒 最安で音声付き。日本語セリフ OK ナレーション・BGM付きの実験生成、量産テスト
Google Veo 3.1 Fast Google 画像任意 ◎ あり ◎ 対応 4 / 6 / 8 秒 画像+日本語セリフ+音声のバランス型 セリフ入り CM、ショート動画、キャラ演技
Google Veo 3.1 Google 画像任意 ◎ あり ◎ 対応 4 / 6 / 8 秒 Veo 最上位。日本語音声付きで高画質 本気の本編カット、セリフ入りドラマ仕立て
Kling V3 Standard fal.ai 画像任意 ○ 中英 中国語 / 英語 5 / 10 秒 人物の自然な動き・表情。アジア系の顔に強い 人物メインのドラマ、Vlog 風、ダンス
Kling V3 Pro fal.ai 画像任意 ○ 中英 中国語 / 英語 5 / 10 秒 Kling 上位。動きと画質の両立 ハイエンドな人物映像、MV、CM カット
Hailuo 02 Standard fal.ai 画像任意 6 / 10 秒 コスパ最良。動きがダイナミック、物理挙動が自然 アクション、エフェクト、物が動くシーン
Hailuo 02 Pro fal.ai 画像任意 6 固定 秒 Hailuo 上位。秒数固定でも高画質 ショート向け 6 秒リール、ループ演出
Seedance 2.0 Standard fal.ai (ByteDance) 画像任意 ◎ 音声同期 5 / 8 / 10 / 15 秒 最高品質。映像破綻が極めて少なく安定。ネイティブ音声同期 本気の作品、CM カット、破綻を許容できないシーン
Seedance 2.0 Fast fal.ai (ByteDance) 画像任意 ◎ 音声同期 5 / 8 / 10 / 15 秒 高速生成。Seedance のクオリティをスピーディに 繰り返しテスト、短納期の映像制作

※ 消費チケット数はモデル・秒数・音声の有無で変動します。スタジオ画面で生成前に必ず表示されます。

目的から選ぶ、おすすめモデル

「自分がやりたいこと」から逆引きで選べるフローです。迷ったらまず Free Trial の 5 チケットで試せるモデルから始めるのがおすすめ。

日本語セリフを喋らせたい

Google Veo 3.1 Fast / Standard / Lite

日本語音声に対応しているのは Google Veo シリーズのみ。スタジオ画面の「セリフ」欄に日本語で入力すれば、そのまま話してくれます。

手持ちの写真を動かしたい

Runway Gen-4 Turbo / Gen-4.5

画像1枚から高精度にアニメーション化するのが Runway の得意分野。特に物体・風景の整合性が安定しています。

人物が自然に動くドラマ風

Kling V3 Pro / Standard

人物の表情・身体動作の自然さに定評あり。アジア系の顔立ちにも強い。セリフは中英のみ対応。

ダイナミックなアクション

Hailuo 02 Pro / Standard

物理的な挙動・爆発・車のスピード感など、動きの激しいシーンに強い。音声は無し。

映像破綻なし・音声同期

Seedance 2.0 Standard / Fast

ByteDance製。映像の安定性が高く破綻が少ない。ネイティブ音声同期・最大15秒対応。

とにかく安くたくさん試したい

Veo 3.1 Lite / Hailuo 02 Standard

チケット消費が最も少ない組み合わせ。プロンプトの効果検証・量産テストに最適。

本気の作品、広告カット

Runway Gen-4.5 / Veo 3.1 Standard / Seedance 2.0

各プロバイダーの最上位モデル。画質・整合性を最優先にしたい重要シーンに。

チケットを無駄にしない 10 ヶ条

生成に失敗した動画でもチケットは消費されます。 だからこそ、最初の一発をできるだけ「成功」に近づけるための 10 項目。すべてを守る必要はありませんが、頭の片隅に置いておくと失敗率が格段に下がります。

01

まず短い秒数でテストする

4〜5 秒の最短設定で試し、プロンプトや画像の相性を確認してから本番の 8〜10 秒へ進めましょう。失敗コストを 1/2 以下に抑えられます。

02

入力画像は高解像度で明瞭なものを

ぼやけた写真・低解像度画像はそのまま動画にも影響します。被写体の輪郭がはっきりした 1080px 以上の画像を用意してください。

03

主体は「1人・1つ」に絞る

複数人物が別々の動作をするシーンは整合性が崩れやすく、失敗率が上がります。メインの被写体を1つに決めるのが成功の近道。

04

動作は 1〜2 個まで

「振り返って微笑む」「走って飛び乗る」程度が限界。3つ以上の連続動作は途中で破綻しがちです。

05

具体的な形容詞・副詞を使う

「歩く」→「ゆっくりと/軽やかに/堂々と歩く」。副詞が一つ入るだけで動きの質が大きく変わります。

06

否定形は使わない

「走らない」ではなく「立ち止まっている」。AI は否定形をうまく解釈できないため、実行してほしい動作を肯定形で書きましょう。

07

モデルの得意分野に合わせる

画像必須のモデルにテキストだけ送るなどの「モデル外の使い方」は失敗の元。下記の比較表で得意分野を確認してから選びましょう。

08

アスペクト比に合わせた画像を用意

9:16(縦)で生成するのに 16:9(横)画像を入れると、不自然なクロップや黒帯が発生します。縦長画像を用意してください。

09

プロンプトは 80〜150 文字を目安に

短すぎると情報不足、長すぎると矛盾が増えます。主体・動作・場面・カメラ・スタイル・照明の 6 要素を簡潔に収めるのがコツ。

10

生成前に声に出して読む

自分で読んで「矛盾がない」「具体的だ」と感じられれば OK。違和感があれば、その違和感を言語化して修正しましょう。

よくある失敗パターン

ここまで読んでも最初は失敗するもの。よくあるパターンを知っておけば、次の生成で確実に改善できます。

失敗の原因と対策

症状から原因を逆引き
症状原因対策
主体の情報が曖昧/秒数が長すぎる 服装・髪型など特徴を具体化/まず 5 秒で試す
複数の連続動作を同時に指示している 動作は 1〜2 個に絞り、シンプルな動き単位で分割
動詞が弱い・カメラワーク指定なし 「ゆっくり歩く」「トラッキングショット」等を追加
プロンプトが画像の内容と食い違っている 画像の色・主体・場面をプロンプトにも反映
モデルが音声/日本語に対応していない Google Veo 3.1 シリーズを選択し、セリフ欄を使う
Google Veo 側の既知の仕様 後編集でクロップ、または Runway/Kling を選ぶ
画像必須モデルに画像未指定/画像サイズ超過 画像を添付、または画像不要なモデルに変更
照明・スタイルの指定が無い 「ゴールデンアワー」「シネマティック」等を追加

ガイドを読んだら、実際に試してみる

知識だけでは上達しません。ここで学んだ 6 要素を意識して、
まずは Free Trial の 5 チケットで短い動画を作ってみましょう。