@basetenco·製品·2026年1月27日

Baseten、Speculation Engineの受理率を最大40%向上

BasetenはMulti-Token PredictionとSuffix Automatonデコーディングを組み合わせたSpeculation Engineの強化を実施。コード編集タスクで受理率を最大40%向上させ、受理長を30%以上延長した。追加計算オーバーヘッドなしでTensorRT-LLM向けオープンソース版を公開した。

BasetenはSpeculation Engineの大幅なアップグレードを発表した。この強化ではMulti-Token Prediction（MTP）とSuffix Automaton（SA）デコーディングを組み合わせることで、受理率を最大40%向上させた。

本技術は本番環境のコーディング作業を対象としており、コード編集タスクで受理長を30%以上延長する成果を上げた。追加の計算オーバーヘッドは一切発生しない。

Speculation EngineはBasetenのプラットフォームの主要コンポーネントであり、大規模言語モデルの推論速度を向上させるための投機的デコーディングを担う。MTPによる複数トークン同時予測とSAデコーディングによるサフィックスマッチング最適化により、従来手法を上回る受理率を実現した。

社内評価の主な指標では、受理率が最大40%増加し、コード生成・編集時のレイテンシを低減する長い投機シーケンスを可能にした。これはAI支援コーディングツールに依存する開発者や企業にとって価値が高い。

コミュニティの採用を促進するため、BasetenはNVIDIAの高性能推論ライブラリTensorRT-LLM向けの実装をオープンソース化した。開発者はこれをワークフローに自由に統合できる。

詳細はBasetenのエンジニアリング深掘りブログ（baseten.co/blog/boosting-mtp-acceptan...）で確認可能だ。

本リリースはBasetenの効率的なAI推論推進への取り組みを強調するものである。

重要ポイント

受理率が最大40%向上
コード編集タスクにおける受理長が30%以上長い
追加オーバーヘッドがゼロ
TensorRT-LLM向けオープンソース版が利用可能

トピック

Speculation EngineMulti-Token PredictionSuffix AutomatonTensorRT-LLMAI inferenceCode editingMachine learning deployment

Original Post

Loading post...