Sakana AI、兆規模プレトレーニングコーパス向け高速ソフトパターンマッチャー SoftMatcha 2 を公開
Sakana AIは、日本トップの研究機関と共同で、兆規模プレトレーニングコーパスを0.3秒未満で検索し、意味的変異(置換、挿入、削除)に対応する超高速ツールSoftMatcha 2を公開しました。これにより、既存のexact-match手法が見逃すベンチマーク汚染を検出可能です。
Sakana AIは、兆規模プレトレーニングコーパス向けの高速で柔軟なパターンマッチャーSoftMatcha 2を公開しました。東京大学、国立情報学研究所、京都大学、SOKENDAI、国立国語研究所、東北大学、理化学研究所の研究者らと共同開発されたこのツールは、巨大な自然言語コーパスを0.3秒未満で検索可能で、置換、挿入、削除などの意味的変異にも対応します。
EMNLP 2025 Best Paper受賞のinfini-gram-miniやICLR 2025のオリジナルSoftMatchaを含む既存ツールで、この速度・スケール・柔軟性のすべてを満たすものはありません。SoftMatcha 2は、コーパスサイズに効率的にスケールするサフィックスアレイベースの文字列マッチングを活用します。クエリの意味的緩和による組み合わせ爆発を防ぐため、ディスク対応設計による高速exact lookupと動的コーパス対応プルーニングの2つのアルゴリズムアイデアを採用しています。
実用的応用として、SoftMatcha 2は従来のexact-match手法が見逃すプレトレーニングコーパス内の潜在的ベンチマーク汚染を特定します。1000億トークンスケールのコーパスでオンラインDemoを利用可能で、兆トークンコーパスでも高速性を維持し、大規模運用向けにセルフホスティングを推奨しています。
プロジェクトサイト、arXiv論文、GitHubリポジトリでコードと詳細が公開されています。
重要ポイント
- 兆規模コーパスを0.3秒未満で検索
- 意味的変異(置換、挿入、削除)に対応
- infini-gram-mini(EMNLP’25 Best Paper)およびSoftMatcha(ICLR’25)を上回る
- サフィックスアレイ、ディスク対応設計、動的プルーニングを活用
- 100BトークンスケールのオンラインDemoあり
- 東京大学、NII、京都大学、SOKENDAI、NINJAL、東北大学、RIKENとの共同研究