piper-plus + 次世代 TTS 戦略議論ログ (2026-06-24)¶
35 社の競合・ベンチマーク調査結果を踏まえた、piper-plus (OSS) + 次世代 TTS (closed) の二層戦略の議論まとめ。
1. 二層構造の確定¶
| 層 | piper-plus | 次世代 TTS |
|---|---|---|
| ライセンス | 完全 OSS (学習コード + 推論コード + モデルウェイト + Unity/Godot 統合) | 完全 closed (ウェイト・学習コード・データすべて非公開) |
| 配布 | GitHub / HuggingFace / pip | Unity Asset Store / B2B 個別契約 |
| 多言語 | ◯ | ◯ + 拡張継続 |
| 対応エンジン | Unity, Godot | Unity, Godot, Unreal Engine, IoT (組込) |
| アーキテクチャ | 現行 (Piper 系統の延長) | zero-shot + 最新アーキテクチャ |
| ターゲット | OSS 開発者 / インディーゲーム / 教育・研究 | エンタープライズゲーム会社 / ロボットメーカー / 大手 AI コンパニオン / 車載 |
| 目的 | コミュニティ・認知・流入 | 収益 (有料 PoC → 年間ライセンス) |
| 課題 | コミュニティ未育成 (新ボイス追加で改善) | 開発前段階 (zero-shot 設計が要) |
→ 明確な機能境界:piper-plus が次世代 TTS を共食いしない設計。
2. piper-plus の "無二性" の検証結果¶
「多言語 × Unity/Godot モバイル × 学習コード OSS × 推論コード OSS」の 4 条件をすべて満たすのは piper-plus のみ。
| 候補 | 多言語 | Unity モバイル | 学習コード OSS | 推論コード OSS | 完全 OSS 度 |
|---|---|---|---|---|---|
| piper-plus | ◯ | ◯ | ◯ | ◯ | ◯ |
| Style-Bert-VITS2 | △ | × (オーナー検証済) | ◯ | ◯ | ◯ (PC のみ) |
| Kokoro-82M | ◯ | △ (Unity なし) | × (新事実) | ◯ | △ (open weights のみ) |
| Piper 本家 | ◯ | × | ◯ | ◯ | ◯ (PC のみ) |
| Fish Speech | ◯ | × | ◯ | ◯ | ◯ |
| VOICEVOX | 日本語のみ | × | × | ◯ | △ |
| Cartesia Sonic | 42 言語 | × (推論 SDK のみ) | × | × | × (closed) |
検証で確定した重要事実¶
- SBV2 のモバイル Unity 化はオーナー自身が検証して不可と確認。PyTorch 依存・モデルサイズ・推論ランタイムのオペレータ制約。
- Kokoro-82M は学習コード非公開 (「open weights」モデル、新話者追加・ファインチューニング不可)。
- 結果: piper-plus の優位は 技術的障壁により 2-3 年規模で維持される見込み。
Open weights vs. Open source の差¶
HuggingFace 上で「open weights」と「open source」を区別する流れも 2025 年以降強まっており、この区別を理解した開発者は piper-plus を明確に選ぶ動機がある。
| 観点 | Kokoro (open weights) | piper-plus (open source) |
|---|---|---|
| モデルウェイト | 公開 | 公開 |
| 推論コード | 公開 | 公開 |
| 学習コード | 非公開 | 公開 |
| 新話者追加 | 不可 | 可能 |
| 言語拡張 | 不可 | コミュニティ可能 |
| 学術参照 | DL のみ | 再現実装として引用可能 |
3. 4 つの流入導線 (コミュニティ獲得)¶
| 流入導線 | 想定流入元 | 動機 |
|---|---|---|
| 「SBV2 試したがモバイルで動かない」 | SBV2 系の同人ボイスクリエイター・Unity ゲーム開発者 | モバイル動作 + Unity 統合 |
| 「Kokoro 試したが新しい話者追加できない」 | 研究者・声優コラボを試したい層・教育機関 | 学習コード OSS、ファインチューニング可 |
| 「VOICEVOX の多言語版が欲しい」 | グローバル向けインディーゲーム会社 | 多言語 + キャラ音声 |
| 「Piper 本家を Unity で使いたい」 | Rhasspy / Home Assistant ユーザー、組込開発者 | Unity 統合 + Godot 統合 |
VOICEVOX が「ずんだもん」1 つに依存しているのに対し、piper-plus は複数の技術的不便さを同時に解消するという設計が可能。
4. ハイブリッド戦略の国内ベンチマーク (最重要)¶
| 会社 | OSS 側 | Closed 側 | 学べる点 |
|---|---|---|---|
| 株式会社ヒロシバ (VOICEVOX) | VOICEVOX ENGINE/CORE/Nemo (無償) | さくらインターネット API 提携 (2026/2 商用化) | OSS → 商用 API への移行設計の最新事例 |
| rinna | Llama 3 Youko / Qwen2.5 Bakeneko 等 | Rinna Voice 法人向け API (closed) | OSS で技術力示し、商用 API で収益化 |
→ 共通パターン: 1. OSS は「コア技術力の証明」+「コミュニティ流入」 2. closed は「サポート保証」+「商用ライセンス明確化」+「マネージド運用」 3. 機能境界を明示的に設計(無料版で全機能を出さない/出してもサポート/SLA で差別化)
5. コミュニティ育成の戦略提案¶
優先順位:
5.1. つくよみちゃん方式のコーパス受け入れ仕様整備 (最優先)¶
- 外部の声優コーパスが piper-plus に流入する道を作る
- VOICEVOX が 6 年かけて築いたエコシステムを、多言語 + 多エンジン対応の差別化でショートカット可能
- これが次世代 TTS の zero-shot 学習データプール(権利クリア済み)にもなる
5.2. ファインチューニング・新話者追加のチュートリアル整備¶
- 「piper-plus で自分のキャラ声を作る」を 1 本作って Zenn / Qiita / YouTube に出す
- 「学習コード OSS」「Unity/Godot 統合」「新話者追加可能」の 3 つの差別化が一度に伝わる
- SBV2 難民・Kokoro 難民・VOICEVOX の多言語化希望者を同時に呼び込める
5.3. アカデミック流入路の整備¶
- 学習コード OSS なので arXiv 論文の引用や教育機関の採用が可能
- Coqui TTS が一時期持っていた「研究実装のデファクト」のポジションは現在空席
- 産総研系・NICT 系の音声研究室・大学のゲーム制作授業 (Unity/Godot 教材)
5.4. ベンチマーク表の公開¶
- 「SBV2 は mobile Unity 不可、Kokoro は学習コード非公開、VOICEVOX は日本語のみ、piper-plus はすべて満たす」を公式 Web に
- 「SBV2 試したけどモバイル動かない」で検索したエンジニアが流入する経路を作る
6. 次世代 TTS の差別化軸 (closed)¶
6.1. 技術アーキテクチャ¶
- Zero-shot voice cloning (30 秒〜数秒の入力で話者クローン)
- 最新アーキテクチャ (VITS2 系改善 + 軽量 voice encoder)
- SBV2 が踏んだ地雷を全部避ける: PyTorch 依存削減、モデルサイズ制御、モバイル推論ランタイム互換
6.2. 対応プラットフォーム¶
- Unity / Godot / Unreal Engine (3 大ゲームエンジン全網羅)
- IoT (ロボット) (KDDI N2 級の軽量化 + ニューラル品質)
6.3. 商業設計¶
- 完全 closed (Kokoro 戦略の逆を行く: open weights さえ採用しない)
- Unity Asset Store 配布 + B2B 個別契約
- 声優コラボボイスのライセンス整備 (にじボイス事件を踏まえ最初から)
7. 次世代 TTS の直接競合¶
7.1. 国内 closed B2B 商業 TTS (主戦場)¶
| 順位 | 会社 | 強み | 弱み (piper-plus + 次世代 TTS が突ける箇所) |
|---|---|---|---|
| A | HOYA (ReadSpeaker JP) | 45 言語、organ 実績、ゲーム機実績、1,700 社導入 | 旧世代 TTS、B2B 個別見積で価格不透明、2025/10 譲渡で戦略再構築中 |
| A | 東芝デジタル (RECAIUS) | 30 言語、Switch 2 実績、カーナビ | 2026/4 親会社吸収で営業力再編、旧世代品質 |
| B | 株式会社エーアイ (4388) | Unity プラグイン、上場 closed 専業の唯一 | 日本語専業 (多言語で差別化可) |
| B | テクノスピーチ | Speech Synthesis SDK、PS5 実績 | アイビス子会社化後 B2C 寄り、多言語限定 |
| B | KDDI 総合研究所 (N2 SDK) | 4MB マイコン対応、IoT 最強 | HMM 方式 (ニューラル品質で勝てる) |
7.2. 国際 zero-shot 系 (ベンチマーク)¶
- ElevenLabs — zero-shot voice cloning の業界基準
- Cartesia Sonic-3 / On-Device — sub-100ms、42 言語、on-device プライベートβ (最も直接的な国際競合)
- OpenAI Realtime API — クラウド統合型の品質基準
- Hume EVI-3 — 感情認識 + 音声合成、日本語含む 11 言語
- Fish Speech / GPT-SoVITS — OSS zero-shot 系
8. UE 対応の戦略的価値¶
- 国内では UE 対応 TTS SDK を公式提供している企業はほぼなし
- 国際: Inworld AI (UE 公式プラグイン)、NVIDIA ACE (UE 5 統合)、ElevenLabs Gaming SDK
- piper-plus が Unity + Godot で先行している今、次世代 TTS で UE 対応を出せば「3 大ゲームエンジン全網羅」が成立
- ピッチ上の強力な差別化材料
9. IoT / ロボット対応のターゲット¶
| 戦略 | 説明 |
|---|---|
| シャープ RoBoHoN への置き換え提案 | 現在 HOYA ReadSpeaker 採用中、世代交代候補として typical |
| GROOVE X (LOVOT) への提案 | 累計 133 億円調達、内製音声、外部 TTS 検討余地 |
| ソフトバンクロボティクス (Pepper) | レガシー NAOqi、多言語化・品質向上の余地 |
| 新規ロボット会社 (オリィ研究所、ヴィストン、ZMP、Preferred Robotics) | 組込音声需要 |
10. にじボイス教訓 (両プロダクト共通)¶
- 2025/11: 日本俳優連合から「声優の声に酷似」と指摘 → 33 キャラ取下げ
- 2026/2: サービス終了 → 後継 KOWRO へ
- 教訓: closed であっても OSS であっても、声優肖像権の問題は同じレベルで整備必須
- piper-plus / 次世代 TTS 両方とも:
- 学習データの権利クリアランス
- 声優との契約形態
- EULA の禁止用途列挙
- OSS のほうが第三者の流用先まで広がるので、ライセンス文の精度を上げる必要がある
11. ピッチでの一行ポジショニング (確定版)¶
piper-plus は『真の意味で OSS』(学習〜推論〜統合まで全公開) を多言語 × Unity/Godot モバイルで実現した唯一の実装。 Kokoro は学習コード非公開、SBV2 は Unity モバイル不可、VOICEVOX は日本語専業 — それぞれが踏み込めない領域を埋めている。 この OSS 完全性をてこにコミュニティを獲得し、次世代 TTS(zero-shot・最新アーキテクチャ・Unity/Godot/UE/IoT 対応・完全 closed)で商業化する二層構造。 国内 closed B2B 主戦場は HOYA・東芝・エーアイ・テクノスピーチ。3 大ゲームエンジン全対応 × zero-shot × IoT 軽量化で切り崩す。
12. 当面の Next Actions¶
| 優先度 | アクション | 期待効果 |
|---|---|---|
| 1 | piper-plus の「SBV2 / Kokoro / VOICEVOX との比較表」を README + ベンチマーク記事化 | コミュニティ流入の最初の燃料 |
| 2 | 「piper-plus で自分のキャラ声を作る」チュートリアル (Zenn/Qiita/YouTube) | 学習コード OSS の差別化を実証 |
| 3 | つくよみちゃん方式のコーパス受け入れ仕様策定 | 外部コーパス流入の道を作る |
| 4 | 次世代 TTS の有料 PoC 営業対象 25 社の選定とアプローチ (本ドキュメントと並走で docs/sales-prospects/ に整理中) |
商業化の最初の収益源 |
| 5 | 次世代 TTS のアーキテクチャ RFC (SBV2 が踏んだ地雷を全部避ける) | 開発開始のための技術合意 |
13. 関連ドキュメント¶
- 35 社競合調査: docs/companies/
- 5 セグメント解説: docs/segments/
- 営業対象 25 社: docs/sales-prospects/ (deep-research 並行実行中)
- 元 spec: docs/superpowers/specs/2026-06-23-tts-sdk-competitor-research-design.md
- 元 plan: docs/superpowers/plans/2026-06-23-tts-sdk-competitor-research.md