TheThinkbench は、競技プログラミングの課題に基づく大規模言語モデル(LLM)の継続的評価を行うベンチマークプラットフォームです。Codeforces(広く利用されている競技プログラミングサイト)からの標準化されたタスクを用いて、真の推論能力、アルゴリズム的思考、および問題解決能力の測定に焦点を当てています。
本プラットフォームは、テスト制約下でのコード生成において透明性のあるモデル間比較を必要とする機械学習の研究者、エンジニア、および実務者を対象としています。公開ダッシュボードおよびアーカイブには、問題識別子、難易度評価、判定結果、実行時間、成功率などの結果がナビゲート可能な形で提供されています。最終更新日:2025年12月21日。
TheThinkbench は、初心者から上級者向けまでの難易度レベルにわたる、選定された一連の Codeforces 問題に対してLLMを実行します。各モデルおよび構成について、システムは候補となる解答を生成し、テストに対して実行して結果を記録します。結果には、元の問題識別子およびタイトル、難易度評価、および検証用のCodeforces問題文への直接リンクが含まれます。
各評価では、標準化された指標を記録します。判定ラベル(例:checkAccepted、closeFailed)、生成およびテスト実行にかかった合計時間(秒単位)、および隠しテストケースに対する通過率として報告されるスコアです。結果はモデルごとに集計され、モデルごとの評価回数に加え、利用可能な場合は温度や推論モードなどの構成に関する注記も含められます。
| 指標 | 意味 |
|---|---|
| 問題 | 問題へのリンク付きの固有なCodeforces識別子およびタイトル |
| 評価 | 利用可能な場合のCodeforces難易度評価(800~3500) |
| 判定 | 結果ラベル;「Accepted」はすべてのテストケースを通過したことを示す;その他のラベル(例:checkAccepted、closeFailed)は表示通りに報告される |
| 時間 | 生成およびテスト実行の合計秒数 |
| スコア | 隠しテストのうち通過したテストケースの割合 |
| モデル構成 | 温度および推論レベルなどの注記(提供された場合) |
TheThinkbench は、コード関連タスク向けにモデルを選定またはチューニングするチームに対して、客観的で再現可能な比較を提供します。確立された競技プログラミングベンチマークに評価を合わせることで、推論およびアルゴリズム的パフォーマンスにおける強みと限界を明らかにします。
実用的な用途には、プログラミングエージェント向けのモデル選定、モデルバージョン間の性能低下の監視、正確性と実行時間のトレードオフの分析、アルゴリズム的推論における失敗パターンに関する研究の支援などが含まれます。教育関係者および実務者は、厳格なテスト条件下でモデルが成功または失敗する具体的な事例を説明するためにアーカイブを利用できます。