Scribzyは、音声を正確かつ構造化されたテキストに変換するAI駆動型音声文字起こしプラットフォームです。リアルタイムストリーミングによるライブ文字起こし、話者識別(スピーカーダイアライゼーション)による発言者の自動判別、およびノイズの多い録音や低品質音源に対するインテリジェントな音声強調機能を備えています。ポッドキャスター、法務関係者、医療従事者、教育関係者、企業チームなど、信頼性・スケーラビリティ・セキュリティを重視する多様なユーザーに対応しています。
Scribzyはウェブベースのインターフェースで操作可能であり、WebhookおよびAPIを介したプログラムによる連携もサポートします。認証にはJWTを採用し、WebhookはHMAC署名付きで実装され、監査ログとロールベースのアクセス制御により、業界標準のセキュリティ要件を満たしています。99以上の言語を自動検出対応しており、手動設定なしでグローバルな利用が可能です。
Scribzyは「アップロード」「処理」「ダウンロード」の3段階のワークフローで動作します。ユーザーは任意の形式の音声または動画ファイルをアップロードすると、システムが自動的にノイズ除去、話者分離、言語識別を適用した上で文字起こしを行います。ほとんどのファイルでは処理時間が2分未満で完了します。ライブセッション中はWebSocketを活用したリアルタイムストリーミングにより、発話と同時に文字起こしが更新され、会話用途に最適化された遅延で動作します。
AIパイプラインには、音声の前処理段階が含まれており、音声と非音声要素(例:背景音楽)を適応的に識別・最適化します。また、多様なアクセント、専門領域、音響環境に対応するよう訓練された文字起こしエンジンが、高精度な出力を実現します。すべての文字起こし結果には正確なタイムスタンプと、話者識別が有効な場合は話者ラベルが付与されます。ユーザーはウェブインターフェースから検索・フィルタリング・エクスポートが可能であり、Webhookや一括処理を用いた自動化連携も可能です。
Scribzyは複数の業界で実用的な応用が可能です。ポッドキャスターは、エピソードの要約生成、検索可能なアーカイブ作成、字幕によるアクセシビリティ向上に活用します。法務関係者は、デポジションやインタビューのタイムスタンプ付き・話者別文字起こしを業務に組み込みます。医療従事者は、臨床メモの文書化に使用し、HIPAA準拠のセキュリティ体制のもとで運用できます。教育関係者は講義内容からアクセシブルな学習資料を作成し、企業はWebhookや一括処理を活用して内部ナレッジマネジメントシステムに統合します。
料金プランはワークロードに応じて段階的に設計されており、個人クリエイター向けの無料プラン(月間90コンピュート分)から、大量処理を必要とする企業チーム向けのプラン(月間6,000コンピュート分、分間300リクエスト)まで対応しています。すべてのプランでクレジットカード不要の登録と、いつでも解約可能な柔軟な契約が可能です。
| プラン | 月間コンピュート分 | ストレージ | 最大ファイルサイズ | 同時バッチ数 |
|---|---|---|---|---|
| 無料 | 90 | 1 GB | 50 MB | — |
| スターター | 600 | 10 GB | 200 MB | 3 |
| プロフェッショナル | 2,400 | 50 GB | 500 MB | 5 |
| ビジネス | 6,000 | 250 GB | 500 MB | 10 |