VoicePenは、音声をリアルタイムで構造化された編集可能なテキストに変換する音声認識アプリケーションです。ライブバイリンガル文字起こしに対応し、英語、スペイン語、フランス語、ドイツ語、日本語、中国語、アラビア語、ヒンディー語など50以上の言語をサポートします。多言語対応により、会議、講義、インタビュー、アイデアの即時記録などのシナリオで活用できます。主なユーザー層は学生、プロフェッショナル、コンテンツクリエイター、およびグローバルチームであり、手動入力なしで正確かつ迅速で文脈を考慮した文字起こしが求められる利用者を対象としています。
本ツールは基本的な音声認識を超えて、AIを活用して文字起こし結果を実用的な出力に変換します。具体的には、構造化されたメモ、タスクリスト、リマインダー、メール下書き、SNS投稿、要約、学習用フラッシュカードなどが生成可能です。プログレッシブウェブアプリ(PWA)として提供されており、デスクトップおよびモバイル端末へのインストールが可能で、オフラインでの録音もサポートされます。ただし、文字起こし処理自体はインターネット接続を必要とします。
ユーザーはアプリ内で直接音声を録音するか、既存の音声ファイル(MP3、WAV、M4A、WebM)をアップロードします。ライブ録音中は、話す内容がリアルタイムで文字化され、画面上に即座に表示されます。アップロードされた音声ファイルについては、AIが処理を行い、句読点付きの文字起こし結果を返します。必要に応じて話者ラベルやタイムスタンプも付与されます。
文字起こし完了後、ユーザーはAIによる変換機能を選択できます。たとえば「LinkedIn投稿」や「メール下書き」「会議メモ」などのフォーマットを選択すると、自動的に構造化、アクションアイテムの抽出、要約生成、またはフラッシュカード作成が行われます。再生中に重要な瞬間をマークするための「ボイスブックマーク」機能があり、「ブックマーク」と話すかタップすることで位置を登録できます。文字起こし結果は手動で編集可能で、複数の形式でエクスポートしたり、共有リンクを発行したりできます。
バックエンドでは、Gemini 1.5 FlashおよびDeepgramの最先端モデルを用いて音声認識および自然言語理解を実行しています。録音機能はオフラインでも動作しますが、文字起こし、翻訳、コンテンツ生成といったすべてのAI処理はサーバーサイドで実行されるため、インターネット接続が必要です。
VoicePenは多様な実務ワークフローを支援します。学生は講義を録音し、主要概念をハイライトした構造化された学習ノートや自動生成されたフラッシュカードを作成します。プロフェッショナルは会議の議論を記録し、意思決定事項、フォローアップタスク、担当者付きアクションアイテムを自動抽出することで、手動メモの負担を軽減します。コンテンツクリエイターは音声メモをブログ記事、SNS投稿、あるいはビジネスメールの下書きへと素早く変換できます。
インタビュアーは話者識別機能と検索可能な文字起こしを活用し、グローバルチームは任意の2言語間でのワンクリック翻訳を活用します。また、通勤中や散歩中、運動中のアイデアを即座に録音し、後で処理することも可能です。PWAとしての設計により、Chrome、Safari、Firefox、Edge、iOS、Android、Windows、macOS、Linuxなどあらゆる現代的なプラットフォームで動作します。