@SakanaAILabs·研究·2026年2月12日

Sakana AI、兆規模プレトレーニングコーパス向け高速ソフトパターンマッチャー SoftMatcha 2 を公開

動画サムネイル - クリックで元動画を表示

Sakana AIは、日本トップの研究機関と共同で、兆規模プレトレーニングコーパスを0.3秒未満で検索し、意味的変異（置換、挿入、削除）に対応する超高速ツールSoftMatcha 2を公開しました。これにより、既存のexact-match手法が見逃すベンチマーク汚染を検出可能です。

Sakana AIは、兆規模プレトレーニングコーパス向けの高速で柔軟なパターンマッチャーSoftMatcha 2を公開しました。東京大学、国立情報学研究所、京都大学、SOKENDAI、国立国語研究所、東北大学、理化学研究所の研究者らと共同開発されたこのツールは、巨大な自然言語コーパスを0.3秒未満で検索可能で、置換、挿入、削除などの意味的変異にも対応します。

EMNLP 2025 Best Paper受賞のinfini-gram-miniやICLR 2025のオリジナルSoftMatchaを含む既存ツールで、この速度・スケール・柔軟性のすべてを満たすものはありません。SoftMatcha 2は、コーパスサイズに効率的にスケールするサフィックスアレイベースの文字列マッチングを活用します。クエリの意味的緩和による組み合わせ爆発を防ぐため、ディスク対応設計による高速exact lookupと動的コーパス対応プルーニングの2つのアルゴリズムアイデアを採用しています。

実用的応用として、SoftMatcha 2は従来のexact-match手法が見逃すプレトレーニングコーパス内の潜在的ベンチマーク汚染を特定します。1000億トークンスケールのコーパスでオンラインDemoを利用可能で、兆トークンコーパスでも高速性を維持し、大規模運用向けにセルフホスティングを推奨しています。

プロジェクトサイト、arXiv論文、GitHubリポジトリでコードと詳細が公開されています。

重要ポイント

兆規模コーパスを0.3秒未満で検索
意味的変異（置換、挿入、削除）に対応
infini-gram-mini（EMNLP’25 Best Paper）およびSoftMatcha（ICLR’25）を上回る
サフィックスアレイ、ディスク対応設計、動的プルーニングを活用
100BトークンスケールのオンラインDemoあり
東京大学、NII、京都大学、SOKENDAI、NINJAL、東北大学、RIKENとの共同研究

トピック

Sakana AISoftMatcha 2pre-training corpora

Original Post

Loading post...