コンテンツにスキップ

piper-plus + 次世代 TTS 戦略議論ログ (2026-06-24)

35 社の競合・ベンチマーク調査結果を踏まえた、piper-plus (OSS) + 次世代 TTS (closed) の二層戦略の議論まとめ。

1. 二層構造の確定

piper-plus 次世代 TTS
ライセンス 完全 OSS (学習コード + 推論コード + モデルウェイト + Unity/Godot 統合) 完全 closed (ウェイト・学習コード・データすべて非公開)
配布 GitHub / HuggingFace / pip Unity Asset Store / B2B 個別契約
多言語 ◯ + 拡張継続
対応エンジン Unity, Godot Unity, Godot, Unreal Engine, IoT (組込)
アーキテクチャ 現行 (Piper 系統の延長) zero-shot + 最新アーキテクチャ
ターゲット OSS 開発者 / インディーゲーム / 教育・研究 エンタープライズゲーム会社 / ロボットメーカー / 大手 AI コンパニオン / 車載
目的 コミュニティ・認知・流入 収益 (有料 PoC → 年間ライセンス)
課題 コミュニティ未育成 (新ボイス追加で改善) 開発前段階 (zero-shot 設計が要)

明確な機能境界:piper-plus が次世代 TTS を共食いしない設計。

2. piper-plus の "無二性" の検証結果

「多言語 × Unity/Godot モバイル × 学習コード OSS × 推論コード OSS」の 4 条件をすべて満たすのは piper-plus のみ。

候補 多言語 Unity モバイル 学習コード OSS 推論コード OSS 完全 OSS 度
piper-plus
Style-Bert-VITS2 × (オーナー検証済) ◯ (PC のみ)
Kokoro-82M △ (Unity なし) × (新事実) △ (open weights のみ)
Piper 本家 × ◯ (PC のみ)
Fish Speech ×
VOICEVOX 日本語のみ × ×
Cartesia Sonic 42 言語 × (推論 SDK のみ) × × × (closed)

検証で確定した重要事実

  • SBV2 のモバイル Unity 化はオーナー自身が検証して不可と確認。PyTorch 依存・モデルサイズ・推論ランタイムのオペレータ制約。
  • Kokoro-82M は学習コード非公開 (「open weights」モデル、新話者追加・ファインチューニング不可)。
  • 結果: piper-plus の優位は 技術的障壁により 2-3 年規模で維持される見込み

Open weights vs. Open source の差

HuggingFace 上で「open weights」と「open source」を区別する流れも 2025 年以降強まっており、この区別を理解した開発者は piper-plus を明確に選ぶ動機がある

観点 Kokoro (open weights) piper-plus (open source)
モデルウェイト 公開 公開
推論コード 公開 公開
学習コード 非公開 公開
新話者追加 不可 可能
言語拡張 不可 コミュニティ可能
学術参照 DL のみ 再現実装として引用可能

3. 4 つの流入導線 (コミュニティ獲得)

流入導線 想定流入元 動機
「SBV2 試したがモバイルで動かない」 SBV2 系の同人ボイスクリエイター・Unity ゲーム開発者 モバイル動作 + Unity 統合
「Kokoro 試したが新しい話者追加できない」 研究者・声優コラボを試したい層・教育機関 学習コード OSS、ファインチューニング可
「VOICEVOX の多言語版が欲しい」 グローバル向けインディーゲーム会社 多言語 + キャラ音声
「Piper 本家を Unity で使いたい」 Rhasspy / Home Assistant ユーザー、組込開発者 Unity 統合 + Godot 統合

VOICEVOX が「ずんだもん」1 つに依存しているのに対し、piper-plus は複数の技術的不便さを同時に解消するという設計が可能。

4. ハイブリッド戦略の国内ベンチマーク (最重要)

会社 OSS 側 Closed 側 学べる点
株式会社ヒロシバ (VOICEVOX) VOICEVOX ENGINE/CORE/Nemo (無償) さくらインターネット API 提携 (2026/2 商用化) OSS → 商用 API への移行設計の最新事例
rinna Llama 3 Youko / Qwen2.5 Bakeneko 等 Rinna Voice 法人向け API (closed) OSS で技術力示し、商用 API で収益化

→ 共通パターン: 1. OSS は「コア技術力の証明」+「コミュニティ流入」 2. closed は「サポート保証」+「商用ライセンス明確化」+「マネージド運用」 3. 機能境界を明示的に設計(無料版で全機能を出さない/出してもサポート/SLA で差別化)

5. コミュニティ育成の戦略提案

優先順位:

5.1. つくよみちゃん方式のコーパス受け入れ仕様整備 (最優先)

  • 外部の声優コーパスが piper-plus に流入する道を作る
  • VOICEVOX が 6 年かけて築いたエコシステムを、多言語 + 多エンジン対応の差別化でショートカット可能
  • これが次世代 TTS の zero-shot 学習データプール(権利クリア済み)にもなる

5.2. ファインチューニング・新話者追加のチュートリアル整備

  • 「piper-plus で自分のキャラ声を作る」を 1 本作って Zenn / Qiita / YouTube に出す
  • 「学習コード OSS」「Unity/Godot 統合」「新話者追加可能」の 3 つの差別化が一度に伝わる
  • SBV2 難民・Kokoro 難民・VOICEVOX の多言語化希望者を同時に呼び込める

5.3. アカデミック流入路の整備

  • 学習コード OSS なので arXiv 論文の引用や教育機関の採用が可能
  • Coqui TTS が一時期持っていた「研究実装のデファクト」のポジションは現在空席
  • 産総研系・NICT 系の音声研究室・大学のゲーム制作授業 (Unity/Godot 教材)

5.4. ベンチマーク表の公開

  • 「SBV2 は mobile Unity 不可、Kokoro は学習コード非公開、VOICEVOX は日本語のみ、piper-plus はすべて満たす」を公式 Web に
  • 「SBV2 試したけどモバイル動かない」で検索したエンジニアが流入する経路を作る

6. 次世代 TTS の差別化軸 (closed)

6.1. 技術アーキテクチャ

  • Zero-shot voice cloning (30 秒〜数秒の入力で話者クローン)
  • 最新アーキテクチャ (VITS2 系改善 + 軽量 voice encoder)
  • SBV2 が踏んだ地雷を全部避ける: PyTorch 依存削減、モデルサイズ制御、モバイル推論ランタイム互換

6.2. 対応プラットフォーム

  • Unity / Godot / Unreal Engine (3 大ゲームエンジン全網羅)
  • IoT (ロボット) (KDDI N2 級の軽量化 + ニューラル品質)

6.3. 商業設計

  • 完全 closed (Kokoro 戦略の逆を行く: open weights さえ採用しない)
  • Unity Asset Store 配布 + B2B 個別契約
  • 声優コラボボイスのライセンス整備 (にじボイス事件を踏まえ最初から)

7. 次世代 TTS の直接競合

7.1. 国内 closed B2B 商業 TTS (主戦場)

順位 会社 強み 弱み (piper-plus + 次世代 TTS が突ける箇所)
A HOYA (ReadSpeaker JP) 45 言語、organ 実績、ゲーム機実績、1,700 社導入 旧世代 TTS、B2B 個別見積で価格不透明、2025/10 譲渡で戦略再構築中
A 東芝デジタル (RECAIUS) 30 言語、Switch 2 実績、カーナビ 2026/4 親会社吸収で営業力再編、旧世代品質
B 株式会社エーアイ (4388) Unity プラグイン、上場 closed 専業の唯一 日本語専業 (多言語で差別化可)
B テクノスピーチ Speech Synthesis SDK、PS5 実績 アイビス子会社化後 B2C 寄り、多言語限定
B KDDI 総合研究所 (N2 SDK) 4MB マイコン対応、IoT 最強 HMM 方式 (ニューラル品質で勝てる)

7.2. 国際 zero-shot 系 (ベンチマーク)

  • ElevenLabs — zero-shot voice cloning の業界基準
  • Cartesia Sonic-3 / On-Device — sub-100ms、42 言語、on-device プライベートβ (最も直接的な国際競合)
  • OpenAI Realtime API — クラウド統合型の品質基準
  • Hume EVI-3 — 感情認識 + 音声合成、日本語含む 11 言語
  • Fish Speech / GPT-SoVITS — OSS zero-shot 系

8. UE 対応の戦略的価値

  • 国内では UE 対応 TTS SDK を公式提供している企業はほぼなし
  • 国際: Inworld AI (UE 公式プラグイン)、NVIDIA ACE (UE 5 統合)、ElevenLabs Gaming SDK
  • piper-plus が Unity + Godot で先行している今、次世代 TTS で UE 対応を出せば「3 大ゲームエンジン全網羅」が成立
  • ピッチ上の強力な差別化材料

9. IoT / ロボット対応のターゲット

戦略 説明
シャープ RoBoHoN への置き換え提案 現在 HOYA ReadSpeaker 採用中、世代交代候補として typical
GROOVE X (LOVOT) への提案 累計 133 億円調達、内製音声、外部 TTS 検討余地
ソフトバンクロボティクス (Pepper) レガシー NAOqi、多言語化・品質向上の余地
新規ロボット会社 (オリィ研究所、ヴィストン、ZMP、Preferred Robotics) 組込音声需要

10. にじボイス教訓 (両プロダクト共通)

  • 2025/11: 日本俳優連合から「声優の声に酷似」と指摘 → 33 キャラ取下げ
  • 2026/2: サービス終了 → 後継 KOWRO へ
  • 教訓: closed であっても OSS であっても、声優肖像権の問題は同じレベルで整備必須
  • piper-plus / 次世代 TTS 両方とも:
  • 学習データの権利クリアランス
  • 声優との契約形態
  • EULA の禁止用途列挙
  • OSS のほうが第三者の流用先まで広がるので、ライセンス文の精度を上げる必要がある

11. ピッチでの一行ポジショニング (確定版)

piper-plus は『真の意味で OSS』(学習〜推論〜統合まで全公開) を多言語 × Unity/Godot モバイルで実現した唯一の実装。 Kokoro は学習コード非公開、SBV2 は Unity モバイル不可、VOICEVOX は日本語専業 — それぞれが踏み込めない領域を埋めている。 この OSS 完全性をてこにコミュニティを獲得し、次世代 TTS(zero-shot・最新アーキテクチャ・Unity/Godot/UE/IoT 対応・完全 closed)で商業化する二層構造。 国内 closed B2B 主戦場は HOYA・東芝・エーアイ・テクノスピーチ。3 大ゲームエンジン全対応 × zero-shot × IoT 軽量化で切り崩す。

12. 当面の Next Actions

優先度 アクション 期待効果
1 piper-plus の「SBV2 / Kokoro / VOICEVOX との比較表」を README + ベンチマーク記事化 コミュニティ流入の最初の燃料
2 「piper-plus で自分のキャラ声を作る」チュートリアル (Zenn/Qiita/YouTube) 学習コード OSS の差別化を実証
3 つくよみちゃん方式のコーパス受け入れ仕様策定 外部コーパス流入の道を作る
4 次世代 TTS の有料 PoC 営業対象 25 社の選定とアプローチ (本ドキュメントと並走で docs/sales-prospects/ に整理中) 商業化の最初の収益源
5 次世代 TTS のアーキテクチャ RFC (SBV2 が踏んだ地雷を全部避ける) 開発開始のための技術合意

13. 関連ドキュメント