計算量最適なトークナイゼーション Compute Optimal Tokenization
AI要約 本論文は、計算予算に対して最適なトークナイゼーション戦略を探求する研究である。語彙サイズやトークン化手法が学習効率とモデル性能に与える影響を分析し、計算コストを考慮した最適な設定を提案している。
EN This paper investigates compute-optimal tokenization strategies for language models, analyzing how vocabulary size and tokenization choices affect training efficiency and model performance under fixed compute budgets.