piper-plus + 次世代 TTS 戦略議論ログ (2026-06-24)¶

35 社の競合・ベンチマーク調査結果を踏まえた、piper-plus (OSS) + 次世代 TTS (closed) の二層戦略の議論まとめ。

1. 二層構造の確定¶

層	piper-plus	次世代 TTS
ライセンス	完全 OSS (学習コード + 推論コード + モデルウェイト + Unity/Godot 統合)	完全 closed (ウェイト・学習コード・データすべて非公開)
配布	GitHub / HuggingFace / pip	Unity Asset Store / B2B 個別契約
多言語	◯	◯ + 拡張継続
対応エンジン	Unity, Godot	Unity, Godot, Unreal Engine, IoT (組込)
アーキテクチャ	現行 (Piper 系統の延長)	zero-shot + 最新アーキテクチャ
ターゲット	OSS 開発者 / インディーゲーム / 教育・研究	エンタープライズゲーム会社 / ロボットメーカー / 大手 AI コンパニオン / 車載
目的	コミュニティ・認知・流入	収益 (有料 PoC → 年間ライセンス)
課題	コミュニティ未育成 (新ボイス追加で改善)	開発前段階 (zero-shot 設計が要)

→ 明確な機能境界：piper-plus が次世代 TTS を共食いしない設計。

2. piper-plus の "無二性" の検証結果¶

「多言語 × Unity/Godot モバイル × 学習コード OSS × 推論コード OSS」の 4 条件をすべて満たすのは piper-plus のみ。

候補	多言語	Unity モバイル	学習コード OSS	推論コード OSS	完全 OSS 度
piper-plus	◯	◯	◯	◯	◯
Style-Bert-VITS2	△	× (オーナー検証済)	◯	◯	◯ (PC のみ)
Kokoro-82M	◯	△ (Unity なし)	× (新事実)	◯	△ (open weights のみ)
Piper 本家	◯	×	◯	◯	◯ (PC のみ)
Fish Speech	◯	×	◯	◯	◯
VOICEVOX	日本語のみ	×	×	◯	△
Cartesia Sonic	42 言語	× (推論 SDK のみ)	×	×	× (closed)

検証で確定した重要事実¶

SBV2 のモバイル Unity 化はオーナー自身が検証して不可と確認。PyTorch 依存・モデルサイズ・推論ランタイムのオペレータ制約。
Kokoro-82M は学習コード非公開 (「open weights」モデル、新話者追加・ファインチューニング不可)。
結果: piper-plus の優位は 技術的障壁により 2-3 年規模で維持される見込み。

Open weights vs. Open source の差¶

HuggingFace 上で「open weights」と「open source」を区別する流れも 2025 年以降強まっており、この区別を理解した開発者は piper-plus を明確に選ぶ動機がある。

観点	Kokoro (open weights)	piper-plus (open source)
モデルウェイト	公開	公開
推論コード	公開	公開
学習コード	非公開	公開
新話者追加	不可	可能
言語拡張	不可	コミュニティ可能
学術参照	DL のみ	再現実装として引用可能

3. 4 つの流入導線 (コミュニティ獲得)¶

流入導線	想定流入元	動機
「SBV2 試したがモバイルで動かない」	SBV2 系の同人ボイスクリエイター・Unity ゲーム開発者	モバイル動作 + Unity 統合
「Kokoro 試したが新しい話者追加できない」	研究者・声優コラボを試したい層・教育機関	学習コード OSS、ファインチューニング可
「VOICEVOX の多言語版が欲しい」	グローバル向けインディーゲーム会社	多言語 + キャラ音声
「Piper 本家を Unity で使いたい」	Rhasspy / Home Assistant ユーザー、組込開発者	Unity 統合 + Godot 統合

VOICEVOX が「ずんだもん」1 つに依存しているのに対し、piper-plus は複数の技術的不便さを同時に解消するという設計が可能。

4. ハイブリッド戦略の国内ベンチマーク (最重要)¶

会社	OSS 側	Closed 側	学べる点
株式会社ヒロシバ (VOICEVOX)	VOICEVOX ENGINE/CORE/Nemo (無償)	さくらインターネット API 提携 (2026/2 商用化)	OSS → 商用 API への移行設計の最新事例
rinna	Llama 3 Youko / Qwen2.5 Bakeneko 等	Rinna Voice 法人向け API (closed)	OSS で技術力示し、商用 API で収益化

→ 共通パターン: 1. OSS は「コア技術力の証明」+「コミュニティ流入」 2. closed は「サポート保証」+「商用ライセンス明確化」+「マネージド運用」 3. 機能境界を明示的に設計（無料版で全機能を出さない／出してもサポート/SLA で差別化）

5. コミュニティ育成の戦略提案¶

優先順位:

5.1. つくよみちゃん方式のコーパス受け入れ仕様整備 (最優先)¶

外部の声優コーパスが piper-plus に流入する道を作る
VOICEVOX が 6 年かけて築いたエコシステムを、多言語 + 多エンジン対応の差別化でショートカット可能
これが次世代 TTS の zero-shot 学習データプール（権利クリア済み）にもなる

5.2. ファインチューニング・新話者追加のチュートリアル整備¶

「piper-plus で自分のキャラ声を作る」を 1 本作って Zenn / Qiita / YouTube に出す
「学習コード OSS」「Unity/Godot 統合」「新話者追加可能」の 3 つの差別化が一度に伝わる
SBV2 難民・Kokoro 難民・VOICEVOX の多言語化希望者を同時に呼び込める

5.3. アカデミック流入路の整備¶

学習コード OSS なので arXiv 論文の引用や教育機関の採用が可能
Coqui TTS が一時期持っていた「研究実装のデファクト」のポジションは現在空席
産総研系・NICT 系の音声研究室・大学のゲーム制作授業 (Unity/Godot 教材)

5.4. ベンチマーク表の公開¶

「SBV2 は mobile Unity 不可、Kokoro は学習コード非公開、VOICEVOX は日本語のみ、piper-plus はすべて満たす」を公式 Web に
「SBV2 試したけどモバイル動かない」で検索したエンジニアが流入する経路を作る

6. 次世代 TTS の差別化軸 (closed)¶

6.1. 技術アーキテクチャ¶

Zero-shot voice cloning (30 秒〜数秒の入力で話者クローン)
最新アーキテクチャ (VITS2 系改善 + 軽量 voice encoder)
SBV2 が踏んだ地雷を全部避ける: PyTorch 依存削減、モデルサイズ制御、モバイル推論ランタイム互換

6.2. 対応プラットフォーム¶

Unity / Godot / Unreal Engine (3 大ゲームエンジン全網羅)
IoT (ロボット) (KDDI N2 級の軽量化 + ニューラル品質)

6.3. 商業設計¶

完全 closed (Kokoro 戦略の逆を行く: open weights さえ採用しない)
Unity Asset Store 配布 + B2B 個別契約
声優コラボボイスのライセンス整備 (にじボイス事件を踏まえ最初から)

7. 次世代 TTS の直接競合¶

7.1. 国内 closed B2B 商業 TTS (主戦場)¶

順位	会社	強み	弱み (piper-plus + 次世代 TTS が突ける箇所)
A	HOYA (ReadSpeaker JP)	45 言語、organ 実績、ゲーム機実績、1,700 社導入	旧世代 TTS、B2B 個別見積で価格不透明、2025/10 譲渡で戦略再構築中
A	東芝デジタル (RECAIUS)	30 言語、Switch 2 実績、カーナビ	2026/4 親会社吸収で営業力再編、旧世代品質
B	株式会社エーアイ (4388)	Unity プラグイン、上場 closed 専業の唯一	日本語専業 (多言語で差別化可)
B	テクノスピーチ	Speech Synthesis SDK、PS5 実績	アイビス子会社化後 B2C 寄り、多言語限定
B	KDDI 総合研究所 (N2 SDK)	4MB マイコン対応、IoT 最強	HMM 方式 (ニューラル品質で勝てる)

7.2. 国際 zero-shot 系 (ベンチマーク)¶

ElevenLabs — zero-shot voice cloning の業界基準
Cartesia Sonic-3 / On-Device — sub-100ms、42 言語、on-device プライベートβ (最も直接的な国際競合)
OpenAI Realtime API — クラウド統合型の品質基準
Hume EVI-3 — 感情認識 + 音声合成、日本語含む 11 言語
Fish Speech / GPT-SoVITS — OSS zero-shot 系

8. UE 対応の戦略的価値¶

国内では UE 対応 TTS SDK を公式提供している企業はほぼなし
国際: Inworld AI (UE 公式プラグイン)、NVIDIA ACE (UE 5 統合)、ElevenLabs Gaming SDK
piper-plus が Unity + Godot で先行している今、次世代 TTS で UE 対応を出せば「3 大ゲームエンジン全網羅」が成立
ピッチ上の強力な差別化材料

9. IoT / ロボット対応のターゲット¶

戦略	説明
シャープ RoBoHoN への置き換え提案	現在 HOYA ReadSpeaker 採用中、世代交代候補として typical
GROOVE X (LOVOT) への提案	累計 133 億円調達、内製音声、外部 TTS 検討余地
ソフトバンクロボティクス (Pepper)	レガシー NAOqi、多言語化・品質向上の余地
新規ロボット会社 (オリィ研究所、ヴィストン、ZMP、Preferred Robotics)	組込音声需要

10. にじボイス教訓 (両プロダクト共通)¶

2025/11: 日本俳優連合から「声優の声に酷似」と指摘 → 33 キャラ取下げ
2026/2: サービス終了 → 後継 KOWRO へ
教訓: closed であっても OSS であっても、声優肖像権の問題は同じレベルで整備必須
piper-plus / 次世代 TTS 両方とも:
学習データの権利クリアランス
声優との契約形態
EULA の禁止用途列挙
OSS のほうが第三者の流用先まで広がるので、ライセンス文の精度を上げる必要がある

11. ピッチでの一行ポジショニング (確定版)¶

piper-plus は『真の意味で OSS』(学習〜推論〜統合まで全公開) を多言語 × Unity/Godot モバイルで実現した唯一の実装。 Kokoro は学習コード非公開、SBV2 は Unity モバイル不可、VOICEVOX は日本語専業 — それぞれが踏み込めない領域を埋めている。この OSS 完全性をてこにコミュニティを獲得し、次世代 TTS（zero-shot・最新アーキテクチャ・Unity/Godot/UE/IoT 対応・完全 closed）で商業化する二層構造。国内 closed B2B 主戦場は HOYA・東芝・エーアイ・テクノスピーチ。3 大ゲームエンジン全対応 × zero-shot × IoT 軽量化で切り崩す。

12. 当面の Next Actions¶

優先度	アクション	期待効果
1	piper-plus の「SBV2 / Kokoro / VOICEVOX との比較表」を README + ベンチマーク記事化	コミュニティ流入の最初の燃料
2	「piper-plus で自分のキャラ声を作る」チュートリアル (Zenn/Qiita/YouTube)	学習コード OSS の差別化を実証
3	つくよみちゃん方式のコーパス受け入れ仕様策定	外部コーパス流入の道を作る
4	次世代 TTS の有料 PoC 営業対象 25 社の選定とアプローチ (本ドキュメントと並走で `docs/sales-prospects/` に整理中)	商業化の最初の収益源
5	次世代 TTS のアーキテクチャ RFC (SBV2 が踏んだ地雷を全部避ける)	開発開始のための技術合意

13. 関連ドキュメント¶

35 社競合調査: docs/companies/
5 セグメント解説: docs/segments/
営業対象 25 社: docs/sales-prospects/ (deep-research 並行実行中)
元 spec: docs/superpowers/specs/2026-06-23-tts-sdk-competitor-research-design.md
元 plan: docs/superpowers/plans/2026-06-23-tts-sdk-competitor-research.md