コンテンツにスキップ

株式会社スクウェア・エニックス・ホールディングス

1 行サマリー

東証プライム上場(9684)・売上高3,245億円の大手ゲームパブリッシャー。FF・ドラクエ等 AAA RPG を多言語展開し、内製 TTS 研究と生成 AI 投資を積極化中で次世代 TTS 採用の最有力 AAA 候補。

事業構造と TTS 需要

主力事業

スクウェア・エニックス HD は、デジタルエンターテインメント(ゲーム開発・運営)、アミューズメント(タイトー)、出版、版権の 4 事業を展開する純粋持株会社。売上高の大半はデジタルエンターテインメント部門が占め、Final Fantasy XIV(MMORPG、登録アカウント 2,000 万超)、FFXVI、FFVII リバース、ドラゴンクエスト X・XI・XII 等の大型 IP を抱える。

TTS 需要のコア

多言語・大量音声収録コスト - FFXV では 12 言語同時発売を実現(Byblos 翻訳管理システム)。FFXVI はボイス 4 言語(日英仏独)+テキスト 12 言語。FFXIV MMORPG は日英仏独ボイスを常時拡張パック毎に追加収録。大規模 AAA タイトルにおける音声収録・再収録コストは毎タイトル数億〜十数億円規模(※当方推定)。 - AI TTS によるプロトタイプ音声・NPC セリフ・ADR(自動ダイアログ置換)コスト削減は直接的な財務インパクトが見込まれる。

架空言語・没入感ボイス生成 - CEDEC+KYUSHU 2022・GDC 2024 でスクウェア・エニックス AI 部 森友亮氏が発表した「架空言語 TTS」は、Tacotron2 + WaveGlow を用いてゲーム世界固有の没入感ある音声を生成する手法。既存の英語 TTS モデルに異言語テキストを入力するミスマッチ手法。多言語・世界観対応の架空言語ボイスは piper-plus / 次世代 TTS の zero-shot 音声クローニング機能で自然に代替・強化できる。

AI NPC 音声対話(最新動向) - 2026 年 3 月、スクウェア・エニックスは「ドラゴンクエスト X」において Google Cloud の Gemini Live を活用した対話型 AI バディ「おしゃべりスラミィ」を発表。クローズドベータを 2026 年 4 月実施。音声認識 → 言語処理 → キャラクター口調制御 → 音声合成の 4 段階パイプラインを採用。音声合成部分(TTS)は Google Cloud の機能を暫定活用しているが品質調整中との言及あり。ここが参入窓口になりえる。

QA・開発効率化 - 中期経営計画(2025-2027)で「2027 年までに QA・デバッグの 70% を生成 AI 自動化」と公約。戦略投資枠最大 1,000 億円(インフラに 300 億円)を計上。東京大学松尾岩澤研究室との共同 QA 自動化プロジェクトも稼働中。AI 投資マインドは業界トップクラス。

ゲームエンジン環境 - Unity:I Am Setsuna、ロストスフィア、SaGa スカーレット グレイス 等(中小タイトル) - Unreal Engine 4:FFVII リバース(カスタム UE4) - Unreal Engine 5:ドラゴンクエスト XII(UE5 移行中、反復スピード 50%改善と言及)、キングダムハーツ 4(UE5 確定) - Unity・UE 両エンジンで piper-plus SDK または次世代 TTS SDK の提供が必要。

現在の TTS 状況

用途 推定使用技術 信頼度
架空言語音声生成(研究) Tacotron2 + WaveGlow(内製研究) high
DQ X AI バディ音声合成 Google Cloud / Gemini Live 付随 TTS(推定) medium
業務用チャットボット音声 Azure Microsoft Audio Content Creation(社内 AI ひすいちゃん) high
AA/AAA タイトル本番ボイス 声優収録(人間 VA)主体 high
リップシンク自動生成 機械学習ベース内製(FFVII リバースで適用) high

置き換え障壁の評価 - 主要 IP のキャラクターボイスは著名声優(野澤雅子、田中真弓 等)による収録が根幹であり、ここを AI TTS に完全置換するのは現実的でない(声優契約・品質・ファンコミュニティのリスク)。 - 一方、NPC 雑音セリフ・プロトタイプ録音・ADR・海外展開テキスト読み上げ・架空言語ボイスなどは AI TTS への移行ニーズが高い。 - Google との DQ X AI バディ協業が既に存在するため、Google Cloud TTS との競合を意識した提案が必要。

購買仮説

なぜ買いそうか

  1. GDC 2024 で TTS 内製研究を公開済み:社内に AI TTS への理解と需要が存在することを自ら実証。piper-plus / 次世代 TTS との比較・代替提案への受容性が高い。
  2. DQ X AI バディの音声品質が「調整中」:2026 年 3 月の Google Gemini Live を使ったデモで音声イントネーションに課題言及。高品質 zero-shot TTS で差別化できる余地。
  3. 多言語 AAA 開発コスト削減圧力:売上高は前年比 −8.9%(3,245 億円)と収益改善フェーズ。中期経営計画で AI 活用による開発コスト削減を明示しており、TTS 導入は ROI 提案しやすい。
  4. AI 投資マインドが高い:AI & エンジン開発ディビジョンを 2024 年 4 月設立、東大松尾研と共同研究、全社 AI アイデアコンテスト実施と AI 化の推進意欲が明確。

想定決裁者

  • AI & エンジン開発ディビジョン の責任者・AIリサーチャー(森友亮氏、狩野竜示氏が公知の研究者)
  • テクノロジー推進部(Advanced Technology Division):技術論文を執筆する研究者層
  • DQ X / FFXIV 開発部門の技術プロデューサー:NPC 音声・ローカライゼーション担当

予算サイクル

  • 年度(4 月〜3 月)で予算策定。中期経営計画の戦略投資枠(1,000 億円)は既に承認済みで、AI・エンジン基盤投資の予算枠はある。
  • PoC 予算規模は 500 万〜2,000 万円を想定(フルタイトル採用なら億単位)。

アプローチ戦略

フェーズ設計

Phase 1 - 架空言語 TTS PoC(入口) - 既存の内製 Tacotron2 ベース手法と piper-plus または次世代 TTS zero-shot の品質比較デモを AI 部向けに実施。GDC 2024 発表技術の「延長」として位置づける。 - 提案キーフレーズ:「御社が GDC 2024 で発表された架空言語 TTS を、zero-shot 音声クローニングでさらにリアルな没入感に進化させます。新たな言語データ収録不要、5 分のサンプル音声から未知の言語ボイスを合成します」

Phase 2 - DQ X / AI バディ音声改善提案 - 「おしゃべりスラミィ」パイプラインの TTS 部分を Google TTS から next-gen TTS に差し替える提案。低レイテンシ・キャラクター口調保持・日本語品質を比較。 - 提案キーフレーズ:「Gemini Live の対話精度はそのままに、音声合成部分だけを高品質 TTS に換装し、スラミィらしい自然な声でプレイヤーに返答するユーザー体験を実現します」

Phase 3 - ローカライゼーション TTS 工程への展開 - 英仏独語版ボイスのプロトタイプ生成・ADR・セリフ長さ調整デモ。FFXV 時代の 12 言語対応を AI TTS で加速。

ターゲット部門

  1. AI & エンジン開発ディビジョン(技術検証・採用判断)
  2. テクノロジー推進部(Advanced Technology Division)
  3. DQ X / FFXIV 運営チームの技術プロデューサー

接触方法の優先順位

  1. CEDEC 2025(2025 年 8 月、横浜):スクウェア・エニックスは毎年複数登壇。セッション後の名刺交換または CEDEC 展示ブースでの接触が最も自然。
  2. GDC 2026:AI 音声セッション登壇者(森友亮氏等)へのアプローチ。
  3. 会社情報問い合わせフォーム(https://form.square-enix.com/a.p/154/):技術提携・外部パートナーシップを明示したアプローチ。
  4. 東大松尾岩澤研究室経由:共同研究関係を持つ研究者コミュニティ経由の紹介が最も効果的。

関連プロダクト・採用事例

音声・AI 技術実績

発表 タイトル 詳細
CEDEC+KYUSHU 2022 / GDC 2024 架空言語 TTS Tacotron2 + WaveGlow、pyopenjtalk。日本語入力 → 英語 TTS → 架空言語音声
CEDEC 2022 / SIGGRAPH 2024 Lip-Sync ML FFVII REMAKE/REBIRTH で機械学習によるリップシンク自動生成。著者:中田政人他
CEDEC+KYUSHU 2024 社内 AI ひすいちゃん Azure Audio Content Creation + RAG。多言語対応の業務チャットボット
CEDEC 2024 LLM ゲーム内エージェント 狩野竜示氏。NPC 自由会話・クエスト自動生成の可能性を論考
2026 年 3 月 DQ X おしゃべりスラミィ Google Cloud Gemini Live 採用の対話型 AI バディ。音声パイプライン搭載

書籍・技術発信

  • 書籍「スクウェア・エニックスの AI」(ボーンデジタル、2024 年 7 月):AI 部による内製技術解説書を刊行。AI 技術オープン化志向あり。

ゲームエンジン技術スタック

  • UE5:DQ XII・キングダムハーツ 4(確定)/ Unreal Fest Tokyo 2025 で Lumen 技術セッション登壇
  • UE4(カスタム):FFVII リバース
  • Unity:中小タイトル(I Am Setsuna 等)

リスク・注意点

  1. Google Cloud との協業が優先される可能性:DQ X AI バディで Google Gemini Live を採用しており、Google の TTS API(Cloud Text-to-Speech・WaveNet・Chirp 系)をそのまま使い続けるロックインが発生しやすい。提案では「Google TTS との差別化」を具体的なデモで示す必要がある。

  2. 主要 IP の声優依存:FF・DQ の主要キャラクターは著名声優が担当。ファンコミュニティへの配慮から AI 音声の本番採用は慎重。NPC・プロトタイプ・海外向けに限定した提案から始めるべき。

  3. 収益低下局面での外部コスト感度:2025 年 3 月期売上高 −8.9%(前期比)。コスト削減優先で外部 SDK 購入を絞る可能性あり。ROI を明確に数値化した提案が必須。

  4. 社内 AI 化推進の強さが両刃:AI & エンジン開発ディビジョンを設立するほど社内 AI 化志向が高いため、内製 TTS を磨き続ける選択もある。「内製では困難な zero-shot 多言語・品質」での差別化が鍵。

  5. 海外スタジオ閉鎖・組織縮小:2025 年 11 月の中期計画進捗報告で海外スタジオ閉鎖も言及。組織変動期に外部ベンダー採用の優先順位が下がるリスク。

  6. コンプライアンス・著作権リスク:AI 生成音声の著作権・声優組合(SAG-AFTRA 等海外)との関係は業界全体の課題。日本国内は相対的に規制が緩いが、海外展開タイトルでは慎重な姿勢が必要。

連絡先候補

ルート 詳細 優先度
公式問い合わせフォーム(会社情報) https://form.square-enix.com/a.p/154/
IR 部門 https://www.hd.square-enix.com/jpn/ir/ 低(技術提案向きでない)
CEDEC 2025 登壇者接触 毎年 8 月・横浜 / AI 部セッション後
GDC 2026 2026 年 3 月・サンフランシスコ / AI 音声セッション
TGS(東京ゲームショウ) 毎年 9 月・幕張 / 展示出展
東大松尾岩澤研究室経由紹介 DQ X AI 共同研究のコネクション 最高(要コネクション)
CGWORLD / ボーンデジタルイベント 書籍「スクウェア・エニックスの AI」関連イベント

uPiper との位置関係

スクウェア・エニックスは、uPiper が狙う「OSS 多言語 TTS + Unity/UE/IoT SDK」の最大級の日本国内 AAA 採用候補。同社は内製 TTS 研究(Tacotron2ベース架空言語)を公開しており、零ショット音声クローニングや多言語対応においての技術的課題を認識している。また DQ X AI バディにおける Google TTS の音質課題も発表済みで、参入タイミングは現在が最も良い。piper-plus による OSS PoC で AI 部の信頼を得て、次世代 TTS(zero-shot・低レイテンシ・多言語)への展開を図る段階的アプローチが最適。ライセンス収益モデルでは DQ X / FFXIV 等の大型 MMO タイトルへの組み込みが実現すれば、継続的 SaaS 収益の基盤になりうる。