
IonRouterは、大規模言語モデル(LLM)、ビジョン・ランゲージ・モデル(VLM)、テキストから動画への生成、テキストから音声への変換、およびマルチモーダルワークロード向けの高スループット・低コスト推論を実現するOpenAI互換APIサービスです。オープンソースモデル(ファインチューン済みモデルやLoRAアダプタ含む)をインフラ管理なしでデプロイ・サービングできるように設計されています。主な利用者は、AIエンジニア、マルチモーダルアプリケーションを開発するプロダクトチーム、ロボティクス開発者、リアルタイム動画分析や生成メディアパイプライン、エージェント型システムを運用する組織です。
このサービスはハードウェア最適化とスケーリングを抽象化し、既存のOpenAIクライアント統合に対してコード変更を一切必要とせず、単一のエンドポイント(api.ionrouter.io/v1)経由でリクエストをルーティングできます。IonRouterはNVIDIA Grace Hopper Superchip(GH200)インフラ上で動作し、このアーキテクチャに特化して構築されたカスタム推論エンジンを活用します。
IonRouterは、アプリケーションクライアントと基盤GPUインフラの間のプロキシ層として機能します。api.ionrouter.io/v1に送信されたリクエストは、IonAttention推論エンジンを経由して、モデル要件、同時接続数、レイテンシ制約に基づき動的にコンピュートリソースを割り当てます。このエンジンは、複数のモデルをGPUメモリ上に同時にロードする「モデル多重化」を実行し、アクティブなモデルを1ミリ秒未満で切り替えることで、急激なモデル切り替え時でもコールドスタート遅延を解消します。
ユーザーは、ファインチューン済みモデルやLoRAアダプタなどの重みをIonRouterのフェleetにアップロードすることでカスタムモデルをデプロイできます。システムは専用GPUストリームをプロビジョニングし、リソース分離を保証するとともに、ミリ秒単位で使用量を計測します。すべてのモデルは標準化されたOpenAI互換エンドポイント(チャット補完、埋め込み、マルチモーダルペイロードなど)経由で提供されるため、フレームワーク固有の調整は不要です。
IonRouterは、レイテンシが厳しく要求され、高同時接続数が求められる多様なアプリケーションに対応します。ロボティクスチームはリアルタイムVLMベースの知覚処理にこれを活用し、センサーからの視覚入力をサブ秒レベルで処理します。監視システムでは、単一GPU上で複数のVLMを並列実行してマルチカメラ動画解析を行い、あるケーススタディでは5つのビジョン・ランゲージモデルを同時に実行し、2,700本の動画クリップを並行処理、コールドスタート時間1秒未満を達成しています。
ゲーム開発スタジオはオンデマンドアセット生成にIonRouterを活用し、メディア企業はWan2.2などのモデルを用いたAI動画パイプライン(テキスト/画像から動画)に統合します。マルチモーダルエージェントを構築する開発者は、言語・ビジョン・音声モデルへの一元化されたAPIアクセスを活用でき、別個の推論バックエンドを維持する必要がありません。料金体系の透明性と1秒単位の課金により、バースト的または予測困難なワークロードにおける運用負荷が軽減されます。
| モデル | 種別 | スループット | 入力コスト(100万トークンあたり) | 出力コスト(100万トークンあたり) | GPU秒単価 |
|---|---|---|---|---|---|
| GLM-5 | 言語 | 約220 tok/s | 1.20米ドル | 3.50米ドル | — |
| Kimi-K2.5 | 言語 | 約120 tok/s | 0.20米ドル | 1.60米ドル | — |
| MiniMax-M2.5 | 言語 | 約120 tok/s | 0.40米ドル | 1.50米ドル | — |
| Qwen3.5-122B-A10B | 言語 | 約120 tok/s | 0.20米ドル | 1.60米ドル | — |
| GPT-OSS-120B | 言語 | 約100 tok/s | 0.020米ドル | 0.095米ドル | — |
| Wan2.2 Text-to-Video | 動画 | 約8秒/クリップ | — | — | 0.00194米ドル / GPU・秒 |
| Flux Schnell | 画像 | 約3秒/画像 | — | 約0.005米ドル / 画像 | — |