Transcriptumは、AIを活用した文字起こしサービスであり、ポッドキャスト、会議録音、オンライン動画などの音声・動画コンテンツを正確かつ検索可能なテキストに変換します。ファイルのアップロードに加え、YouTubeなどの公開URLの貼り付けも対応しており、話者識別(スピーカーダイアライゼーション)と正確なタイムスタンプ付きの構造化文字起こしが可能です。教育機関、ジャーナリズム、法務、研究、企業など、多様な専門職向けに設計されており、高度な技術的知識を必要としません。
本プラットフォームは基本的な文字起こし機能に加え、オプションとしてAIによる分析機能も提供します。これには要約生成、質問応答(Q&A)作成、主要トピックおよびテーマ抽出、感情分析、アクションアイテムの特定、事実確認(ファクトチェック)が含まれ、複数の大規模言語モデル(LLM)プロバイダーを活用することで信頼性を確保し、ベンダーロックインを回避しています。
Transcriptumはシンプルな3段階のワークフローで動作します。第1に、ユーザーは対応ファイルをドラッグ&ドロップするか、公開されているYouTube URLを入力します。第2に、システムは自動音声認識(ASR)と話者識別技術を適用し、タイムスタンプ付きの話者ごとの文字起こしを生成します。言語が指定されていない場合は自動検出が行われます。第3に、ユーザーは結果を確認・編集し、必要に応じてAI分析モジュールを適用した後、TXT(プレーンテキスト)、SRT/VTT(字幕用)、DOCX(文書用)のいずれかの形式でダウンロードできます。
基盤となるアーキテクチャでは、分析タスクに複数のLLMプロバイダーを並列活用しており、堅牢性と柔軟性を確保しています。処理はセキュアなインフラ上で実行され、エンタープライズレベルの暗号化が適用されます。アップロードされたファイルは文字起こし完了後に自動的に削除されるため、プライバシーおよびコンプライアンス要件への対応が可能です。
Transcriptumは、動画コンテンツ向けのアクセシビリティ向上(字幕作成)、会議録から担当者付きアクションアイテムを含む議事録作成、インタビュー録音を用いた質的研究、ポッドキャストからのジャーナリスト向けソース資料生成、法的文書作成における検証可能なタイムスタンプ付き発言記録など、多様な実用的用途に対応します。多言語対応により国際的なコラボレーションが促進され、出力形式の柔軟性は動画編集、コンテンツ管理、文書制作システムへのスムーズな統合を可能にします。また、AI分析機能が複数のLLMプロバイダーに依存しないため、将来的な言語モデルの進化にも柔軟に対応できます。