Reinforcement Learning Methods Research in Low Resource Languages

Applied RLHF techniques (GRPO, PPO) to optimize Large Language Models for low-resource languages, outperforming Supervised Fine-Tuning (SFT) and standard baselines.