使い方ガイド — Kite Movie

CONTENTS

プロンプトの 6 要素
良い例と悪い例
カメラワーク語彙集
スタイル・照明語彙
日本語セリフ機能
モデル比較表
目的別おすすめ
チケット節約 10 ヶ条
よくある失敗と改善

01 · THE SIX ELEMENTS

プロンプトは 6 つの要素でできている

AI は「曖昧さ」をそのまま曖昧に出力します。主体・動作・場面・カメラ・スタイル・照明 — この 6 要素を短い日本語で簡潔に書くのが、失敗を減らす最短ルートです。

01

SUBJECT

主体

誰が／何が映るか。性別・年齢・服装・色・形など、識別に必要な特徴を1行で。

例黒いトレンチコートの若い女性

02

ACTION

動作

主体が何をしているか。動詞＋副詞で。複雑な連続動作は避けて 1〜2 個まで。

例ゆっくりと振り返って微笑む

03

SCENE

場面

どこで起きているか。具体的な場所・時間帯・天候・背景要素。

例雨上がりのパリ、石畳の路地

04

CAMERA

カメラワーク

どう撮るか。ショットの種類・アングル・動きの方向。1〜2 個に絞る。

例ローアングルからのトラッキングショット

05

STYLE

スタイル

映像の質感・雰囲気。シネマティック／アニメ／ドキュメンタリーなど。

例シネマティック、浅い被写界深度

06

LIGHTING

照明

光の種類・強さ・方向・色温度。映像の印象を決める最重要要素。

例ゴールデンアワーの暖色の逆光

02 · BEFORE & AFTER

良いプロンプトと悪いプロンプト

同じ日本語でも、情報の密度が少し違うだけで結果は大きく変わります。実際によくある失敗例を、6 要素を意識した書き方に直してみましょう。

悪い例

女性が歩いている

改善例

夕暮れの東京渋谷交差点を、黒いトレンチコートの若い女性がゆっくりと歩いている。カメラは低アングルから追従、シネマティックな被写界深度、ゴールデンアワーの暖色照明。

なぜ？ 主体も動作も場面もすべて曖昧。AI が解釈に迷い、平凡な結果に。

悪い例

猫が走って、ジャンプして、鳥を捕まえて、木に登る

改善例

茶色の子猫が芝生の上を軽やかに走り、ふわりとジャンプする。スローモーション、ミディアムショット、柔らかい朝の光。

なぜ？ 連続動作が多すぎて、途中で動きが破綻する確率が高い。

悪い例

カフェで笑わない男

改善例

カフェのカウンターで、疲れた表情でコーヒーを見つめる中年男性。窓からの柔らかい自然光、ミディアムショット、ドキュメンタリー調。

なぜ？ 否定形「笑わない」は AI が解釈を誤りやすい。肯定形に直す。

悪い例

すごくかっこいい車

改善例

黒のスポーツカーがネオンが反射する夜の都会の道路を高速で走り抜ける。ローアングル、トラッキングショット、シネマティック、雨上がりの濡れた路面。

なぜ？ 「すごく」「かっこいい」といった主観的な言葉は AI に伝わりにくい。

03 · VOCABULARY

カメラワーク語彙集

「なんとなく動く」映像から「意図のある映像」へ。カメラの言葉を少し使うだけで、結果がプロの映像に近づきます。

Camera Work

構図・アングル・動き

日本語	English	使いどころ
クローズアップ	close-up	表情や細部を強調したいとき
ミディアムショット	medium shot	人物の上半身を自然に撮る
ワイドショット	wide shot / long shot	場面全体の雰囲気を見せる
ドリーイン	dolly in	被写体に徐々に近づく
ドリーアウト	dolly out	被写体から徐々に引いていく
パン	pan (left / right)	カメラを左右に振る
ティルト	tilt (up / down)	カメラを上下に振る
トラッキング	tracking shot	動く被写体を追いかける
エアリアル	aerial view	空から俯瞰で撮る
ハンドヘルド	handheld	手持ちカメラの躍動感
スローモーション	slow motion	時間を遅く流して情感を強調
タイムラプス	time-lapse	長時間を短く圧縮
ローアングル	low angle	被写体を下から見上げる
ハイアングル	high angle	被写体を上から見下ろす

Visual Style

質感・雰囲気・作風

日本語	English	メモ
シネマティック	cinematic	映画のような質感・色調
フォトリアル	photorealistic	実写と見紛うリアル感
ドキュメンタリー	documentary	自然で生々しい雰囲気
アニメ調	anime style	日本アニメの作画
水墨画風	ink wash painting	東洋の墨絵
フィルムノワール	film noir	白黒・陰影の強い犯罪映画調
ヴィンテージ	vintage / retro	古い映像の質感・グレイン
夢幻的	dreamlike	幻想的・非現実的
超写実	hyperrealistic	現実以上に細部が精密

Lighting

光の種類・時間帯・方向

日本語	English	メモ
ゴールデンアワー	golden hour	夕暮れ・朝焼けの暖色
ブルーアワー	blue hour	夜明け前・日没後の青み
ネオンライト	neon lighting	都市のネオン・サイバーパンク
逆光	backlit	被写体の後ろから光
柔らかい光	soft diffused light	影が柔らかい
ドラマチックな陰影	dramatic shadows	光と影のコントラスト
ろうそくの光	candlelight	揺れる暖色の光
月明かり	moonlight	青白い夜の光
スポットライト	spotlight	一点集中の強い光

04 · DIALOGUE FEATURE

日本語セリフを喋らせたいとき

Google Veo 3.1 シリーズ限定機能

日本語のセリフを自然な声で喋らせられるのは Google Veo 3.1 Lite / Fast / Standard の 3 モデルのみです。Kling は中国語・英語のみ、Runway／Hailuo は音声なしです。

スタジオ画面（app.php）でモデルに Veo 系を選ぶと「セリフ」入力欄が出現します。ここに日本語を入れると、プロンプト末尾に自動で人物のセリフ（この通りに日本語で話してください）: 「...」が追加され、映像の口パクと同期した音声が生成されます。

ポイントは 20 文字以内の短い一言。長いセリフは発話と映像が合わなくなるため、1 カット 1 セリフが鉄則です。

05 · MODEL COMPARISON

プロバイダー別モデル比較表

Kite Movie が対応する 5 プロバイダー × 11 モデルを、入力・音声・秒数・強み・向き不向きまで一覧で比較。「どれを選べばいいか分からない」ときの指針にどうぞ。

モデル	入力	音声	日本語セリフ	秒数	強み	向いている用途
Runway Gen-4 Turbo Runway	画像必須	—	—	5 / 10 秒	高速・低コスト。画像1枚からの高精度アニメーション	スチル写真を動画化、商品カット、SNS用ショート
Runway Gen-4.5 Runway	画像任意	—	—	5 / 10 秒	Runway最高画質。物体の整合性・物理挙動が安定	広告ビジュアル、作品性の高い映像、重要カット
Google Veo 3.1 Lite Google	テキストのみ	◎ あり	◎ 対応	4 / 6 / 8 秒	最安で音声付き。日本語セリフ OK	ナレーション・BGM付きの実験生成、量産テスト
Google Veo 3.1 Fast Google	画像任意	◎ あり	◎ 対応	4 / 6 / 8 秒	画像+日本語セリフ+音声のバランス型	セリフ入り CM、ショート動画、キャラ演技
Google Veo 3.1 Google	画像任意	◎ あり	◎ 対応	4 / 6 / 8 秒	Veo 最上位。日本語音声付きで高画質	本気の本編カット、セリフ入りドラマ仕立て
Kling V3 Standard fal.ai	画像任意	○ 中英	中国語 / 英語	5 / 10 秒	人物の自然な動き・表情。アジア系の顔に強い	人物メインのドラマ、Vlog 風、ダンス
Kling V3 Pro fal.ai	画像任意	○ 中英	中国語 / 英語	5 / 10 秒	Kling 上位。動きと画質の両立	ハイエンドな人物映像、MV、CM カット
Hailuo 02 Standard fal.ai	画像任意	—	—	6 / 10 秒	コスパ最良。動きがダイナミック、物理挙動が自然	アクション、エフェクト、物が動くシーン
Hailuo 02 Pro fal.ai	画像任意	—	—	6 固定秒	Hailuo 上位。秒数固定でも高画質	ショート向け 6 秒リール、ループ演出
Seedance 2.0 Standard fal.ai (ByteDance)	画像任意	◎ 音声同期	—	5 / 8 / 10 / 15 秒	最高品質。映像破綻が極めて少なく安定。ネイティブ音声同期	本気の作品、CM カット、破綻を許容できないシーン
Seedance 2.0 Fast fal.ai (ByteDance)	画像任意	◎ 音声同期	—	5 / 8 / 10 / 15 秒	高速生成。Seedance のクオリティをスピーディに	繰り返しテスト、短納期の映像制作

※ 消費チケット数はモデル・秒数・音声の有無で変動します。スタジオ画面で生成前に必ず表示されます。

06 · GOAL → MODEL

目的から選ぶ、おすすめモデル

「自分がやりたいこと」から逆引きで選べるフローです。迷ったらまず Free Trial の 5 チケットで試せるモデルから始めるのがおすすめ。

日本語セリフを喋らせたい

Google Veo 3.1 Fast / Standard / Lite

日本語音声に対応しているのは Google Veo シリーズのみ。スタジオ画面の「セリフ」欄に日本語で入力すれば、そのまま話してくれます。

手持ちの写真を動かしたい

Runway Gen-4 Turbo / Gen-4.5

画像1枚から高精度にアニメーション化するのが Runway の得意分野。特に物体・風景の整合性が安定しています。

人物が自然に動くドラマ風

Kling V3 Pro / Standard

人物の表情・身体動作の自然さに定評あり。アジア系の顔立ちにも強い。セリフは中英のみ対応。

ダイナミックなアクション

Hailuo 02 Pro / Standard

物理的な挙動・爆発・車のスピード感など、動きの激しいシーンに強い。音声は無し。

映像破綻なし・音声同期

Seedance 2.0 Standard / Fast

ByteDance製。映像の安定性が高く破綻が少ない。ネイティブ音声同期・最大15秒対応。

とにかく安くたくさん試したい

Veo 3.1 Lite / Hailuo 02 Standard

チケット消費が最も少ない組み合わせ。プロンプトの効果検証・量産テストに最適。

本気の作品、広告カット

Runway Gen-4.5 / Veo 3.1 Standard / Seedance 2.0

各プロバイダーの最上位モデル。画質・整合性を最優先にしたい重要シーンに。

07 · SAVE YOUR TICKETS

チケットを無駄にしない 10 ヶ条

生成に失敗した動画でもチケットは消費されます。 だからこそ、最初の一発をできるだけ「成功」に近づけるための 10 項目。すべてを守る必要はありませんが、頭の片隅に置いておくと失敗率が格段に下がります。

01

まず短い秒数でテストする

4〜5 秒の最短設定で試し、プロンプトや画像の相性を確認してから本番の 8〜10 秒へ進めましょう。失敗コストを 1/2 以下に抑えられます。

02

入力画像は高解像度で明瞭なものを

ぼやけた写真・低解像度画像はそのまま動画にも影響します。被写体の輪郭がはっきりした 1080px 以上の画像を用意してください。

03

主体は「1人・1つ」に絞る

複数人物が別々の動作をするシーンは整合性が崩れやすく、失敗率が上がります。メインの被写体を1つに決めるのが成功の近道。

04

動作は 1〜2 個まで

「振り返って微笑む」「走って飛び乗る」程度が限界。3つ以上の連続動作は途中で破綻しがちです。

05

具体的な形容詞・副詞を使う

「歩く」→「ゆっくりと／軽やかに／堂々と歩く」。副詞が一つ入るだけで動きの質が大きく変わります。

06

否定形は使わない

「走らない」ではなく「立ち止まっている」。AI は否定形をうまく解釈できないため、実行してほしい動作を肯定形で書きましょう。

07

モデルの得意分野に合わせる

画像必須のモデルにテキストだけ送るなどの「モデル外の使い方」は失敗の元。下記の比較表で得意分野を確認してから選びましょう。

08

アスペクト比に合わせた画像を用意

9:16（縦）で生成するのに 16:9（横）画像を入れると、不自然なクロップや黒帯が発生します。縦長画像を用意してください。

09

プロンプトは 80〜150 文字を目安に

短すぎると情報不足、長すぎると矛盾が増えます。主体・動作・場面・カメラ・スタイル・照明の 6 要素を簡潔に収めるのがコツ。

10

生成前に声に出して読む

自分で読んで「矛盾がない」「具体的だ」と感じられれば OK。違和感があれば、その違和感を言語化して修正しましょう。

08 · COMMON MISTAKES

よくある失敗パターン

ここまで読んでも最初は失敗するもの。よくあるパターンを知っておけば、次の生成で確実に改善できます。

失敗の原因と対策

症状から原因を逆引き

症状	原因	対策
人物の顔が途中で変わる	主体の情報が曖昧／秒数が長すぎる	服装・髪型など特徴を具体化／まず 5 秒で試す
動きが途中で破綻する	複数の連続動作を同時に指示している	動作は 1〜2 個に絞り、シンプルな動き単位で分割
静止画のような動きがない映像	動詞が弱い・カメラワーク指定なし	「ゆっくり歩く」「トラッキングショット」等を追加
画像とまるで違う結果	プロンプトが画像の内容と食い違っている	画像の色・主体・場面をプロンプトにも反映
音声が出ない／日本語にならない	モデルが音声／日本語に対応していない	Google Veo 3.1 シリーズを選択し、セリフ欄を使う
上下に黒帯が入る（Veo）	Google Veo 側の既知の仕様	後編集でクロップ、または Runway／Kling を選ぶ
すぐエラーで失敗する	画像必須モデルに画像未指定／画像サイズ超過	画像を添付、または画像不要なモデルに変更
雰囲気が平凡で印象に残らない	照明・スタイルの指定が無い	「ゴールデンアワー」「シネマティック」等を追加

プロンプトで、
動画の運命が決まる。

プロンプトは 6 つの要素でできている

主体

動作

場面

カメラワーク

スタイル

照明

良いプロンプトと悪いプロンプト

カメラワーク語彙集

Camera Work

Visual Style

Lighting

日本語セリフを喋らせたいとき

Google Veo 3.1 シリーズ限定機能

プロバイダー別モデル比較表

目的から選ぶ、おすすめモデル

日本語セリフを喋らせたい

手持ちの写真を動かしたい

人物が自然に動くドラマ風

ダイナミックなアクション

映像破綻なし・音声同期

とにかく安くたくさん試したい

本気の作品、広告カット

チケットを無駄にしない 10 ヶ条

まず短い秒数でテストする

入力画像は高解像度で明瞭なものを

主体は「1人・1つ」に絞る

動作は 1〜2 個まで

具体的な形容詞・副詞を使う

否定形は使わない

モデルの得意分野に合わせる

アスペクト比に合わせた画像を用意

プロンプトは 80〜150 文字を目安に

生成前に声に出して読む

よくある失敗パターン

失敗の原因と対策

ガイドを読んだら、実際に試してみる

プロンプトで、動画の運命が決まる。

プロンプトは 6 つの要素でできている

主体

動作

場面

カメラワーク

スタイル

照明

良いプロンプトと悪いプロンプト

カメラワーク語彙集

Camera Work

Visual Style

Lighting

日本語セリフを喋らせたいとき

Google Veo 3.1 シリーズ限定機能

プロバイダー別モデル比較表

目的から選ぶ、おすすめモデル

日本語セリフを喋らせたい

手持ちの写真を動かしたい

人物が自然に動くドラマ風

ダイナミックなアクション

映像破綻なし・音声同期

とにかく安くたくさん試したい

本気の作品、広告カット

チケットを無駄にしない 10 ヶ条

まず短い秒数でテストする

入力画像は高解像度で明瞭なものを

主体は「1人・1つ」に絞る

動作は 1〜2 個まで

具体的な形容詞・副詞を使う

否定形は使わない

モデルの得意分野に合わせる

アスペクト比に合わせた画像を用意

プロンプトは 80〜150 文字を目安に

生成前に声に出して読む

よくある失敗パターン

失敗の原因と対策

ガイドを読んだら、実際に試してみる

プロンプトで、
動画の運命が決まる。