fix eval

2024-08-13 06:48:54 +00:00 · 2024-08-13 06:48:54 +00:00 · 0b2b454b97
parent 4a5bfc55a6
commit 0b2b454b97
1 changed files with 59 additions and 23 deletions
--- a/applications/ColossalChat/coati/trainer/sft.py
+++ b/applications/ColossalChat/coati/trainer/sft.py
@ -182,6 +182,40 @@ class SFTTrainer(SLTrainer):
        self.accumulative_meter.reset()
        self.model.eval()
        with torch.no_grad():
+            if isinstance(self.plugin, HybridParallelPlugin) and self.plugin.pp_size > 1:
+                data_iter = iter(self.eval_dataloader)
+                step_bar = tqdm(
+                    range(len(self.eval_dataloader)),
+                    desc="Step",
+                    disable=not (dist.get_rank() == dist.get_world_size() - 1),
+                )
+                for step in step_bar:
+                    outputs = self.booster.execute_pipeline(
+                        data_iter,
+                        self.model,
+                        criterion=lambda outputs, inputs: outputs[0],
+                        optimizer=self.optimizer,
+                        return_loss=True,
+                    )
+                    loss = outputs["loss"]
+                    if dist.get_rank() == dist.get_world_size() - 1:
+                        step_bar.set_postfix({"eval/loss": loss.item()})
+                        self.accumulative_meter.add("loss", loss.item())
+                        step_bar.update()
+
+                if dist.get_rank() == dist.get_world_size() - 1:
+                    loss_mean = self.accumulative_meter.get("loss")
+                    msg = "Evaluation Result:\n"
+                    for tag in ["loss"]:
+                        msg = msg + f"{tag}: {self.accumulative_meter.get(tag)}\n"
+                    print(msg)
+                    if self.save_dir is not None:
+                        os.makedirs(self.save_dir, exist_ok=True)
+                        with open(os.path.join(self.save_dir, f"eval_result_epoch{epoch}.txt"), "w") as f:
+                            f.write(msg)
+                        step_bar.close()
+
+            else:
                step_bar = trange(
                    len(self.eval_dataloader),
                    desc=f"Epoch {epoch + 1}/{self.max_epochs}",
@ -197,11 +231,13 @@ class SFTTrainer(SLTrainer):
                    loss_mean = all_reduce_mean(tensor=outputs.loss)
                    self.accumulative_meter.add("loss", loss_mean.item(), count_update=batch["input_ids"].size(0))
                    step_bar.update()
+
                loss_mean = self.accumulative_meter.get("loss")
                msg = "Evaluation Result:\n"
                for tag in ["loss"]:
                    msg = msg + f"{tag}: {self.accumulative_meter.get(tag)}\n"
                self.coordinator.print_on_master(msg)
+                if self.save_dir is not None:
                    os.makedirs(self.save_dir, exist_ok=True)
                    with open(os.path.join(self.save_dir, f"eval_result_epoch{epoch}.txt"), "w") as f:
                        f.write(msg)