MaxText、シングルホストTPUでSFTとRLによるポストトレーニングに対応 MaxText Expands Post-Training Capabilities: Introducing SFT and RL on Single-Host TPUs
重要度 Medium Medium priority 重要度 Medium · 技術記事 · Gemini / Gemma Medium priority · technical post · Gemini / Gemma 公開 4月16日 Published Apr 16
AI要約 GoogleはMaxTextを拡張し、シングルホストTPU上で教師ありファインチューニング(SFT)と強化学習(RL)によるポストトレーニングを可能にした。Tunixと統合し、Gemma等のオープンモデルを少ないリソースで効率的にカスタマイズできる。
EN Google has extended MaxText with post-training support, enabling supervised fine-tuning (SFT) and reinforcement learning (RL) workflows on single-host TPUs through integration with the Tunix library, making it easier to customize open models like Gemma.
og fallback