markupRは、AIによるコードデバッグと視覚的観察の間にあるギャップを埋めるためのオープンソース開発者向けツールです。現在のAIコーディングエージェントが直面する根本的な課題——画面内容を直接認識できない点——に対処します。UIの不具合をテキストで手動で説明し、スクリーンショットを撮影・トリミング・配置する代わりに、開発者は画面を録画しながらリアルタイムで問題を口頭で説明できます。その後、このマルチモーダル入力を処理して、AIエージェントが即座に活用可能な構造化されたドキュメントを生成します。
対象ユーザーには、ソフトウェアエンジニア、QAテスト担当者、フロントエンド開発者、および技術系プロダクトマネージャーが含まれます。これらのユーザーは、WebアプリケーションやデスクトップアプリケーションにおけるUIバグ、アクセシビリティの問題、あるいは動作上の不整合を日常的に報告しています。精度、スピード、および文脈的情報の信頼性が特に重要なワークフローで利用されます。
基本的なワークフローは3段階から成ります。まず、ユーザーはシステムホットキーでセッションを開始し、画面上で観察した内容をリアルタイムで口頭で説明します。必要に応じて、手動で重要な瞬間を「ショットマーク」で記録します。次に、セッション終了後、markupRはポストプロセスパイプラインを実行します:音声を文字起こしし、発話内容と対応する動画フレームを時間軸上で正確に整合させ、指定されたタイムスタンプでスクリーンショットを抽出し、各フレームに利用可能なコンテキストメタデータ(例:カーソル座標、前面アプリケーション、DOMフォーカス状態)を付与します。最後に、すべての要素を単一のMarkdownファイルに統合し、意味的な見出し、説明付きキャプション、インライン画像を含む形で出力します。これは、AIコーディングエージェント、GitHub Issues、Slack、Linearなどへ直接貼り付け可能な形式です。
CLIおよびMCPサーバーは、このパイプラインをプログラム的に再現します。CLIは既存の動画ファイル(.mov、.mp4など)を入力として受け取り、同等の構造化Markdownを出力します。MCPサーバーは、標準化されたRPCメソッド(例:capture_screenshot、capture_with_voice、analyze_video)を公開しており、ユーザーの作業を中断することなく、AIエージェントがキャプチャおよび分析を即座に実行できるようにします。
markupRは、バグ報告時の認知負荷とコンテキスト切替のオーバーヘッドを削減します。自然言語による説明を可能にすることで、手動でのドキュメント作成を不要にします。5分間の口頭説明は、20分間の文章による説明よりも、レイアウトのずれ、タイミング依存のインタラクション、あるいは微細なビジュアル回帰といった問題について、より豊かで時間軸的に正確な文脈情報を提供します。
実用的な用途には、CI/CDにおける自動ビジュアルリグレッション報告(GitHub Action経由)、顧客から報告されたUI問題の迅速なトリアージ、アクセシビリティテストのドキュメンテーション、そしてリモートチームメンバーとの協調デバッグセッションがあります。ローカルファーストのアーキテクチャにより、機密性の高いUIデータは、明示的にクラウドサービスに送信しない限り、常にユーザーの端末上に留まります。生成される構造化Markdown出力は、GitHub、Linear、Slack、およびMarkdown入力またはMCP対応AIコーディングエージェントと相互運用可能です。