Transcrisperは、ウェブブラウザ内だけで動作するクライアントサイドのAI文字起こしアプリケーションです。ユーザーがクラウド処理に依存せずに、音声・動画ファイルを正確かつプライベートに文字起こしできるよう設計されています。特に法務担当者、ジャーナリスト、研究者、教育関係者など、機密性の高いコンテンツを扱う専門家にとって有用です。これらのユーザーは、データの機密性とローカル処理を最優先事項としています。
クラウド型文字起こしサービスとは異なり、Transcrisperはすべての処理をユーザーの端末上で実行します。このアーキテクチャにより、音声データがネットワーク経由で送信されることはなく、外部サーバーへの保存や処理も一切行われません。また、数時間に及ぶ長尺のメディアファイルにも対応しており、効率性と使いやすさを高めるための最適化機能を備えています。
初回起動時に、Transcrisperは自動音声認識(ASR)用のparakeet-tdt-0.6b-v3モデルと話者識別用のsortformer_4spk-v2.1モデルの2つを、ブラウザの永続ストレージへダウンロードします。これらのモデルはローカルに保持され、明示的な削除がない限りセッション間で再利用されます。音声ファイルはユーザー端末から直接読み込まれ、WebAssembly(WASM)またはWebGPU(利用可能な場合)を用いてメモリ上で処理されます。
文字起こしパイプラインは、無音検出と音声セグメンテーションから始まり、続いてASRによってテキストを生成します。同時に、ディアライゼーションモデルが音響特徴を分析して話者ラベルを付与します。最終出力には、タイムスタンプと話者識別子が正確に同期された文字起こしが含まれます。エクスポート形式には平文、Markdown、およびフレーム単位で正確なタイミングを持つ業界標準字幕フォーマットが含まれます。
Transcrisperは、データの所在管理とプライバシー保護が必須となる規制対応環境(例:医療面談、機密インタビュー、学術フィールドワーク)において安全かつコンプライアンスに準拠した文字起こしワークフローを実現します。無音区間のスキップ機能により、講義ホールやリモート会議など低エネルギー音声環境下の録音に対する出力可読性が向上します。教育者は授業用動画のアクセシビリティ向上のために字幕を生成でき、研究者は外部依存なしで複数話者のグループディスカッションをアノテーションできます。アカウント登録、APIキー、バックエンド基盤を必要としないため、ワンタイムまたは反復的な文字起こしタスクに即座に適用可能な軽量かつ設定不要のユーティリティです。