@togethercompute·研究·2026年1月26日

Together AIのDSGym、2千例訓練の4Bモデルがデータタスクで60倍大規模モデルを上回る

Together AIがDSGymを公開した。このフレームワークにより、わずか2千例で訓練した40億パラメータモデルがデータサイエンスタスクで60倍大きいモデルを凌駕する。科学タスク失敗の85-96%はドメイン知識のギャップが原因だ。

Together AIは、実世界のデータ分析および機械学習パイプラインタスク向けにAIエージェントを評価・訓練する統一フレームワーク「DSGym」を公開した。

従来のAIモデルは訓練データのパターンを想起することでデータサイエンス課題に取り組むことが多く、新規データを真に分析するわけではない。

DSGymは科学タスクの失敗85-96%がドメイン知識のギャップに起因するという問題に対処する。ハンズオンでのデータインタラクションを可能にする構造化環境を提供し、より効果的なエージェント訓練を実現した。

主な結果として、DSGymを用いて2千例で訓練した40億パラメータモデルが60倍大きいモデルの性能を上回った。この効率は小規模専門モデルが複雑なデータワークフローを優位にこなす可能性を示している。

Together AIはAIインフラやオープンソースモデルで知られ、DSGymをパターンマッチングと真のデータ推論のギャップを埋めるツールとして位置づけている。フレームワークはデータ探索からモデルデプロイメントまでのエンドツーエンドMLパイプラインをサポートする。

詳細は[ブログ投稿](together.ai/blog/dsgym)および関連研究論文を参照。DSGymは真のデータサイエンス作業が可能なAIエージェント開発を前進させ、科学分野の発見を加速させる可能性がある。

重要ポイント

DSGymTogether AIAI agentsdata sciencemachine learningbenchmarksdomain knowledge

Loading post...