Axolotl是什么?
Axolotl是一款旨在简化各种AI模型微调流程的工具,支持多种配置和架构。
特性:
- 训练各种如llama、pythia、falcon、mpt等Huggingface模型
- 支持fullfinetune、lora、qlora、relora和gptq
- 使用简单的yaml文件或CLI覆写自定义配置
- 加载不同格式的数据集,使用自定义格式,或带入你自己的tokenized数据集
- 与xformer、flash attention、rope scaling和multipacking集成
- 支持单GPU或通过FSDP或Deepspeed使用多GPU
- 可以在本地或云端用Docker轻松运行
- 将结果和可选的检查点记录到wandb
什么是微调?
预训练模型大多只获得了一般的语言知识,并且缺乏关于特定任务或领域的具体知识。为了弥合这一差距,预训练模型之后会跟随一个微调步骤。
微调使我们能够专业化预训练模型的能力,并优化其在下游特定任务上的表现。
微调意味着取一个预训练的模型,并在新任务上使用新数据进行更多的训练。通常,这意味着训练整个预训练模型,包括所有部分和设置。但这可能需要大量的计算机能力和时间,尤其是对于大型模型。
另一方面,参数高效的微调是一种通过只关注预训练模型的某些设置来进行微调的方式。它找出对新任务最重要的参数,并且在训练期间只改变这些参数。这使得参数高效的微调因为不必处理模型的所有参数而变得更快。
实施栈
- Runpod:RunPod是一个云计算平台,主要设计用于AI和机器学习应用,提供GPU实例、无服务器GPU和AI终端。我们使用了1个NVIDIA 80GB GPU
- Axolotl:旨在简化各种AI模型微调流程的工具
- 数据集:teknium/GPT4-LLM-Cleaned
- LLM: openlm-research/open_llama_3b_v2模型
微调实现
安装所需依赖
!git clone https://github.com/OpenAccess-AI-Collective/axolotl.git
更改目录到axolotl文件夹
%cd axolotl
####### RESPONSE ###############
/workspace/axolotl
/usr/local/lib/python3.10/dist-packages/IPython/core/magics/osm.py:417: UserWarning: using dhist requires you to install the `pickleshare` library.
self.shell.db['dhist'] = compress_dhist(dhist)[-100:]
!pip install packaging
!pip install -e .'[flash-attn,deepspedd]'
安装依赖项后,请检查 examples 文件夹。那里有几个带有各自的洛拉配置文件的 LLM 模型。这里我们使用 openllama 3b 作为基础 LLM。我们将在 ./axolot/examples/openllama-3b/lora.yml 查看它的配置文件。lora.yml 文件包含了用于微调基础模型所需的配置。
LoRA是什么?
- 这是一种旨在加速LLM(大型语言模型)训练过程的训练方法。
- 它通过引入一对低秩分解权重矩阵来帮助减少内存消耗。它将LLM的权重矩阵分解为低秩矩阵。这减少了需要训练的参数数量,同时仍然保持原始模型的性能。
- 这些权重矩阵会被添加到已经存在的权重矩阵(预训练的)中。
与LoRA相关的重要概念
- 保留预训练权重:LoRA保持了冻结层之前训练好的权重。这有助于防止灾难性遗忘现象。LoRA不仅保留了模型现有的知识,而且还能很好地适应新数据。
- 训练权重的可移植性:LoRA中使用的低秩分解矩阵具有显著更少的参数。这允许将训练好的LoRA权重用于其他情境中,并且能够进行迁移。
- 与注意力层集成:LoRA权重矩阵根本上是被合并到原始模型的注意力层中。这使得对模型调整到新数据的上下文有控制。
- 由于它将微调过程的计算减少了3倍,因此在内存效率上有所提高。
作为lora.yaml文件配置的一部分。我们可以通过在lora.yaml文件中设定base_model和datasets参数的值来设置基础模型和训练数据集。
base_model: openlm-research/open_llama_3b_v2
model_type: LlamaForCausalLM
tokenizer_type: LlamaTokenizer
load_in_8bit: true
load_in_4bit: false
strict: false
push_dataset_to_hub:
datasets:
- path: teknium/GPT4-LLM-Cleaned
type: alpaca
dataset_prepared_path:
val_set_size: 0.02
adapter: lora
lora_model_dir:
sequence_len: 1024
sample_packing: true
lora_r: 8
lora_alpha: 16
lora_dropout: 0.0
lora_target_modules:
- gate_proj
- down_proj
- up_proj
- q_proj
- v_proj
- k_proj
- o_proj
lora_fan_in_fan_out:
wandb_project:
wandb_entity:
wandb_watch:
wandb_name:
wandb_log_model:
output_dir: ./lora-out
gradient_accumulation_steps: 1
micro_batch_size: 2
num_epochs: 4
optimizer: adamw_bnb_8bit
torchdistx_path:
lr_scheduler: cosine
learning_rate: 0.0002
train_on_inputs: false
group_by_length: false
bf16: false
fp16: true
tf32: false
gradient_checkpointing: true
early_stopping_patience:
resume_from_checkpoint:
local_rank:
logging_steps: 1
xformers_attention:
flash_attention: true
gptq_groupsize:
gptq_model_v1:
warmup_steps: 20
evals_per_epoch: 4
saves_per_epoch: 1
debug:
deepspeed:
weight_decay: 0.1
fsdp:
fsdp_config:
special_tokens:
bos_token: "<s>"
eos_token: "</s>"
unk_token: "<unk>"
LoRa超参数
lora_r:它确定了对权重矩阵应用的秩分解矩阵的数量,以减少内存消耗和计算需求。根据LoRa论文,默认或最小秩值是8。
- 较高的秩通常会带来更好的结果,但需要更高的计算成本。
- 随着训练数据的复杂性增加,它需要更高的秩。
- 为了与完整的微调相匹配,权重矩阵的秩应与基础模型的隐藏层的数量相匹配。可以从config.json里找到模型隐藏大小(“num_hidden_layers”: 32)。
lora_alpha:LoRA的缩放因子决定了在训练过程中对模型进行调整的程度,即调整更新矩阵所贡献的比重。
- 较低的alpha值会给原始数据更多的权重,并且在更大程度上保持模型现有的知识,即它更倾向于模型的原始知识。
lora_target_modules:它决定了哪些特定的权重和矩阵将被训练。最基础的有q_proj(查询向量)和v_proj(值向量)。
- Q投影矩阵适用于Transformer块的注意力机制中的查询向量。它将隐藏状态转换为所需的维度,以实现有效的查询表示。
- V投影矩阵将隐藏状态转换为所需的维度,以实现有效的值表示。
Lora Finetune
! accelerate launch -m axolotl.cli.train examples/openllama-3b/lora.yml
The following values were not passed to `accelerate launch` and had defaults used instead:
`--num_processes` was set to a value of `1`
`--num_machines` was set to a value of `1`
`--mixed_precision` was set to a value of `'no'`
`--dynamo_backend` was set to a value of `'no'`
To avoid this warning pass in values for each of the problematic parameters or run `accelerate config`.
/usr/local/lib/python3.10/dist-packages/transformers/deepspeed.py:23: FutureWarning: transformers.deepspeed module is deprecated and will be removed in a future version. Please import deepspeed modules directly from transformers.integrations
warnings.warn(
[2024-01-01 08:31:18,370] [INFO] [datasets.<module>:58] [PID:2201] PyTorch version 2.0.1+cu118 available.
[2024-01-01 08:31:19,417] [INFO] [axolotl.validate_config:156] [PID:2201] [RANK:0] bf16 support detected, but not enabled for this configuration.
[2024-01-01 08:31:19,417] [WARNING] [axolotl.validate_config:176] [PID:2201] [RANK:0] `pad_to_sequence_len: true` is recommended when using sample_packing
config.json: 100%|█████████████████████████████| 506/506 [00:00<00:00, 2.10MB/s]
[2024-01-01 08:31:19,656] [INFO] [axolotl.normalize_config:150] [PID:2201] [RANK:0] GPU memory usage baseline: 0.000GB (+0.811GB misc)
dP dP dP
88 88 88
.d8888b. dP. .dP .d8888b. 88 .d8888b. d8888P 88
88' `88 `8bd8' 88' `88 88 88' `88 88 88
88. .88 .d88b. 88. .88 88 88. .88 88 88
`88888P8 dP' `dP `88888P' dP `88888P' dP dP
[2024-01-01 08:31:19,660] [WARNING] [axolotl.scripts.check_user_token:342] [PID:2201] [RANK:0] Error verifying HuggingFace token. Remember to log in using `huggingface-cli login` and get your access token from https://huggingface.co/settings/tokens if you want to use gated models or datasets.
tokenizer_config.json: 100%|███████████████████| 593/593 [00:00<00:00, 2.69MB/s]
tokenizer.model: 100%|███████████████████████| 512k/512k [00:00<00:00, 36.7MB/s]
special_tokens_map.json: 100%|█████████████████| 330/330 [00:00<00:00, 1.01MB/s]
You are using the default legacy behaviour of the <class 'transformers.models.llama.tokenization_llama.LlamaTokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
[2024-01-01 08:31:20,716] [DEBUG] [axolotl.load_tokenizer:185] [PID:2201] [RANK:0] EOS: 2 / </s>
[2024-01-01 08:31:20,716] [DEBUG] [axolotl.load_tokenizer:186] [PID:2201] [RANK:0] BOS: 1 / <s>
[2024-01-01 08:31:20,717] [DEBUG] [axolotl.load_tokenizer:187] [PID:2201] [RANK:0] PAD: 2 / </s>
[2024-01-01 08:31:20,717] [DEBUG] [axolotl.load_tokenizer:188] [PID:2201] [RANK:0] UNK: 0 / <unk>
[2024-01-01 08:31:20,717] [INFO] [axolotl.load_tokenizer:193] [PID:2201] [RANK:0] No Chat template selected. Consider adding a chat template for easier inference.
[2024-01-01 08:31:20,717] [INFO] [axolotl.load_tokenized_prepared_datasets:147] [PID:2201] [RANK:0] Unable to find prepared dataset in last_run_prepared/f9e5091071bf5ab6f7287bd5565a5f24
[2024-01-01 08:31:20,717] [INFO] [axolotl.load_tokenized_prepared_datasets:148] [PID:2201] [RANK:0] Loading raw datasets...
[2024-01-01 08:31:20,717] [INFO] [axolotl.load_tokenized_prepared_datasets:153] [PID:2201] [RANK:0] No seed provided, using default seed of 42
Downloading readme: 100%|███████████████████████| 501/501 [00:00<00:00, 343kB/s]
/usr/local/lib/python3.10/dist-packages/huggingface_hub/repocard.py:105: UserWarning: Repo card metadata block was not found. Setting CardData to empty.
warnings.warn("Repo card metadata block was not found. Setting CardData to empty.")
Downloading data: 100%|████████████████████| 36.0M/36.0M [00:01<00:00, 27.0MB/s]
Downloading data: 100%|████████████████████| 4.91M/4.91M [00:00<00:00, 9.16MB/s]
Generating train split: 54568 examples [00:00, 187030.30 examples/s]
Map (num_proc=64): 13%|█▍ | 7057/54568 [00:11<03:55, 202.13 examples/s][2024-01-01 08:31:39,365] [WARNING] [axolotl._tokenize:66] [PID:2275] [RANK:0] Empty text requested for tokenization.
Map (num_proc=64): 100%|█████████| 54568/54568 [00:17<00:00, 3180.11 examples/s]
[2024-01-01 08:31:45,017] [INFO] [axolotl.load_tokenized_prepared_datasets:362] [PID:2201] [RANK:0] merging datasets
[2024-01-01 08:31:45,023] [INFO] [axolotl.load_tokenized_prepared_datasets:369] [PID:2201] [RANK:0] Saving merged prepared dataset to disk... last_run_prepared/f9e5091071bf5ab6f7287bd5565a5f24
Saving the dataset (1/1 shards): 100%|█| 54568/54568 [00:00<00:00, 524866.32 exa
Filter (num_proc=64): 100%|█████| 53476/53476 [00:02<00:00, 20761.86 examples/s]
Filter (num_proc=64): 100%|████████| 1092/1092 [00:00<00:00, 2586.61 examples/s]
Map (num_proc=64): 100%|████████| 53476/53476 [00:02<00:00, 19739.44 examples/s]
Map (num_proc=64): 100%|███████████| 1092/1092 [00:00<00:00, 2167.35 examples/s]
[2024-01-01 08:31:54,825] [DEBUG] [axolotl.log:60] [PID:2201] [RANK:0] total_num_tokens: 188373
[2024-01-01 08:31:54,833] [DEBUG] [axolotl.log:60] [PID:2201] [RANK:0] `total_supervised_tokens: 38104`
[2024-01-01 08:32:01,085] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 1.0 total_num_tokens per device: 188373
[2024-01-01 08:32:01,085] [DEBUG] [axolotl.log:60] [PID:2201] [RANK:0] data_loader_len: 181
[2024-01-01 08:32:01,085] [INFO] [axolotl.log:60] [PID:2201] [RANK:0] sample_packing_eff_est across ranks: [0.9017549402573529]
[2024-01-01 08:32:01,086] [DEBUG] [axolotl.log:60] [PID:2201] [RANK:0] sample_packing_eff_est: None
[2024-01-01 08:32:01,086] [DEBUG] [axolotl.log:60] [PID:2201] [RANK:0] total_num_steps: 181
[2024-01-01 08:32:01,132] [DEBUG] [axolotl.log:60] [PID:2201] [RANK:0] total_num_tokens: 10733491
[2024-01-01 08:32:01,495] [DEBUG] [axolotl.log:60] [PID:2201] [RANK:0] `total_supervised_tokens: 6735490`
[2024-01-01 08:32:01,663] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 1.0 total_num_tokens per device: 10733491
[2024-01-01 08:32:01,664] [DEBUG] [axolotl.log:60] [PID:2201] [RANK:0] data_loader_len: 10376
[2024-01-01 08:32:01,664] [INFO] [axolotl.log:60] [PID:2201] [RANK:0] sample_packing_eff_est across ranks: [0.8623549818747429]
[2024-01-01 08:32:01,664] [DEBUG] [axolotl.log:60] [PID:2201] [RANK:0] sample_packing_eff_est: 0.87
[2024-01-01 08:32:01,664] [DEBUG] [axolotl.log:60] [PID:2201] [RANK:0] total_num_steps: 10376
[2024-01-01 08:32:01,671] [DEBUG] [axolotl.train.log:60] [PID:2201] [RANK:0] loading tokenizer... openlm-research/open_llama_3b_v2
[2024-01-01 08:32:01,945] [DEBUG] [axolotl.load_tokenizer:185] [PID:2201] [RANK:0] EOS: 2 / </s>
[2024-01-01 08:32:01,945] [DEBUG] [axolotl.load_tokenizer:186] [PID:2201] [RANK:0] BOS: 1 / <s>
[2024-01-01 08:32:01,945] [DEBUG] [axolotl.load_tokenizer:187] [PID:2201] [RANK:0] PAD: 2 / </s>
[2024-01-01 08:32:01,945] [DEBUG] [axolotl.load_tokenizer:188] [PID:2201] [RANK:0] UNK: 0 / <unk>
[2024-01-01 08:32:01,946] [INFO] [axolotl.load_tokenizer:193] [PID:2201] [RANK:0] No Chat template selected. Consider adding a chat template for easier inference.
[2024-01-01 08:32:01,946] [DEBUG] [axolotl.train.log:60] [PID:2201] [RANK:0] loading model and peft_config...
[2024-01-01 08:32:02,058] [INFO] [axolotl.load_model:239] [PID:2201] [RANK:0] patching with flash attention for sample packing
[2024-01-01 08:32:02,058] [INFO] [axolotl.load_model:285] [PID:2201] [RANK:0] patching _expand_mask
pytorch_model.bin: 100%|████████████████████| 6.85G/6.85G [01:01<00:00, 111MB/s]
generation_config.json: 100%|███████████████████| 137/137 [00:00<00:00, 592kB/s]
[2024-01-01 08:33:13,199] [INFO] [axolotl.load_model:517] [PID:2201] [RANK:0] GPU memory usage after model load: 3.408GB (+0.334GB cache, +1.952GB misc)
[2024-01-01 08:33:13,204] [INFO] [axolotl.load_model:540] [PID:2201] [RANK:0] converting PEFT model w/ prepare_model_for_kbit_training
[2024-01-01 08:33:13,208] [INFO] [axolotl.load_model:552] [PID:2201] [RANK:0] converting modules to torch.float16 for flash attention
[2024-01-01 08:33:13,238] [WARNING] [auto_gptq.nn_modules.qlinear.qlinear_cuda.<module>:16] [PID:2201] CUDA extension not installed.
[2024-01-01 08:33:13,238] [WARNING] [auto_gptq.nn_modules.qlinear.qlinear_cuda_old.<module>:15] [PID:2201] CUDA extension not installed.
trainable params: 12,712,960 || all params: 3,439,186,560 || trainable%: 0.36965020007521776
[2024-01-01 08:33:13,490] [INFO] [axolotl.load_model:582] [PID:2201] [RANK:0] GPU memory usage after adapters: 3.455GB (+1.099GB cache, +1.952GB misc)
[2024-01-01 08:33:13,526] [INFO] [axolotl.train.log:60] [PID:2201] [RANK:0] Pre-saving adapter config to ./lora-out
[2024-01-01 08:33:13,529] [INFO] [axolotl.train.log:60] [PID:2201] [RANK:0] Starting trainer...
[2024-01-01 08:33:13,935] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 10733491
[2024-01-01 08:33:13,982] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 10733491
0%| | 0/1490 [00:00<?, ?it/s][2024-01-01 08:33:14,084] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 10733491
{'loss': 1.3828, 'learning_rate': 1e-05, 'epoch': 0.0}
0%| | 1/1490 [00:05<2:05:44, 5.07s/it][2024-01-01 08:33:19,125] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
[2024-01-01 08:33:19,322] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
[2024-01-01 08:33:19,323] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
0%| | 0/208 [00:00<?, ?it/s][2024-01-01 08:33:19,510] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
1%|▍ | 2/208 [00:00<00:19, 10.70it/s][2024-01-01 08:33:19,697] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
[2024-01-01 08:33:19,878] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
2%|▊ | 4/208 [00:00<00:29, 6.83it/s][2024-01-01 08:33:20,056] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
2%|█ | 5/208 [00:00<00:31, 6.42it/s][2024-01-01 08:33:20,237] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
3%|█▏ | 6/208 [00:00<00:33, 6.12it/s][2024-01-01 08:33:20,418] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
3%|█▍ | 7/208 [00:01<00:33, 5.93it/s][2024-01-01 08:33:20,593] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
4%|█▋ | 8/208 [00:01<00:34, 5.86it/s][2024-01-01 08:33:20,763] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
4%|█▊ | 9/208 [00:01<00:33, 5.87it/s][2024-01-01 08:33:20,936] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
5%|██ | 10/208 [00:01<00:33, 5.84it/s][2024-01-01 08:33:21,110] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
5%|██▏ | 11/208 [00:01<00:33, 5.81it/s][2024-01-01 08:33:21,280] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
6%|██▍ | 12/208 [00:01<00:33, 5.84it/s][2024-01-01 08:33:21,450] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
6%|██▋ | 13/208 [00:02<00:33, 5.85it/s][2024-01-01 08:33:21,618] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
7%|██▊ | 14/208 [00:02<00:32, 5.88it/s][2024-01-01 08:33:21,790] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
7%|███ | 15/208 [00:02<00:32, 5.86it/s][2024-01-01 08:33:21,962] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
8%|███▏ | 16/208 [00:02<00:32, 5.85it/s][2024-01-01 08:33:22,135] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
8%|███▍ | 17/208 [00:02<00:32, 5.83it/s][2024-01-01 08:33:22,307] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
9%|███▋ | 18/208 [00:02<00:32, 5.81it/s][2024-01-01 08:33:22,478] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
9%|███▊ | 19/208 [00:03<00:32, 5.83it/s][2024-01-01 08:33:22,651] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
10%|████ | 20/208 [00:03<00:32, 5.82it/s][2024-01-01 08:33:22,823] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
10%|████▏ | 21/208 [00:03<00:32, 5.82it/s][2024-01-01 08:33:23,000] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
11%|████▍ | 22/208 [00:03<00:32, 5.76it/s][2024-01-01 08:33:23,176] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
11%|████▋ | 23/208 [00:03<00:32, 5.74it/s][2024-01-01 08:33:23,346] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
12%|████▊ | 24/208 [00:04<00:31, 5.78it/s][2024-01-01 08:33:23,514] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
12%|█████ | 25/208 [00:04<00:31, 5.83it/s][2024-01-01 08:33:23,676] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
12%|█████▎ | 26/208 [00:04<00:30, 5.93it/s][2024-01-01 08:33:23,857] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
13%|█████▍ | 27/208 [00:04<00:31, 5.80it/s][2024-01-01 08:33:24,024] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
13%|█████▋ | 28/208 [00:04<00:30, 5.86it/s][2024-01-01 08:33:24,187] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
14%|█████▊ | 29/208 [00:04<00:30, 5.94it/s][2024-01-01 08:33:24,357] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
14%|██████ | 30/208 [00:05<00:30, 5.92it/s][2024-01-01 08:33:24,525] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
15%|██████▎ | 31/208 [00:05<00:29, 5.93it/s][2024-01-01 08:33:24,695] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
15%|██████▍ | 32/208 [00:05<00:29, 5.92it/s][2024-01-01 08:33:24,863] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
16%|██████▋ | 33/208 [00:05<00:29, 5.93it/s][2024-01-01 08:33:25,036] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
16%|██████▊ | 34/208 [00:05<00:29, 5.88it/s][2024-01-01 08:33:25,203] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
17%|███████ | 35/208 [00:05<00:29, 5.91it/s][2024-01-01 08:33:25,369] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
17%|███████▎ | 36/208 [00:06<00:28, 5.94it/s][2024-01-01 08:33:25,544] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
18%|███████▍ | 37/208 [00:06<00:29, 5.88it/s][2024-01-01 08:33:25,712] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
18%|███████▋ | 38/208 [00:06<00:28, 5.90it/s][2024-01-01 08:33:25,878] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
19%|███████▉ | 39/208 [00:06<00:28, 5.93it/s][2024-01-01 08:33:26,068] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
19%|████████ | 40/208 [00:06<00:29, 5.72it/s][2024-01-01 08:33:26,243] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
20%|████████▎ | 41/208 [00:06<00:29, 5.71it/s][2024-01-01 08:33:26,414] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
20%|████████▍ | 42/208 [00:07<00:28, 5.76it/s][2024-01-01 08:33:26,588] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
21%|████████▋ | 43/208 [00:07<00:28, 5.76it/s][2024-01-01 08:33:26,761] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
21%|████████▉ | 44/208 [00:07<00:28, 5.76it/s][2024-01-01 08:33:26,934] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
22%|█████████ | 45/208 [00:07<00:28, 5.76it/s][2024-01-01 08:33:27,106] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
22%|█████████▎ | 46/208 [00:07<00:28, 5.79it/s][2024-01-01 08:33:27,278] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
23%|█████████▍ | 47/208 [00:07<00:27, 5.79it/s][2024-01-01 08:33:27,448] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
23%|█████████▋ | 48/208 [00:08<00:27, 5.81it/s][2024-01-01 08:33:27,630] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
24%|█████████▉ | 49/208 [00:08<00:27, 5.71it/s][2024-01-01 08:33:27,808] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
24%|██████████ | 50/208 [00:08<00:27, 5.69it/s][2024-01-01 08:33:27,979] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
25%|██████████▎ | 51/208 [00:08<00:27, 5.74it/s][2024-01-01 08:33:28,153] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
25%|██████████▌ | 52/208 [00:08<00:27, 5.74it/s][2024-01-01 08:33:28,326] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
25%|██████████▋ | 53/208 [00:09<00:26, 5.76it/s][2024-01-01 08:33:28,497] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
26%|██████████▉ | 54/208 [00:09<00:26, 5.78it/s][2024-01-01 08:33:28,671] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
26%|███████████ | 55/208 [00:09<00:26, 5.77it/s][2024-01-01 08:33:28,841] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
27%|███████████▎ | 56/208 [00:09<00:26, 5.81it/s][2024-01-01 08:33:29,013] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
27%|███████████▌ | 57/208 [00:09<00:26, 5.81it/s][2024-01-01 08:33:29,187] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
28%|███████████▋ | 58/208 [00:09<00:25, 5.79it/s][2024-01-01 08:33:29,356] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
28%|███████████▉ | 59/208 [00:10<00:25, 5.82it/s][2024-01-01 08:33:29,526] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
29%|████████████ | 60/208 [00:10<00:25, 5.84it/s][2024-01-01 08:33:29,698] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
29%|████████████▎ | 61/208 [00:10<00:25, 5.84it/s][2024-01-01 08:33:29,867] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
30%|████████████▌ | 62/208 [00:10<00:24, 5.86it/s][2024-01-01 08:33:30,036] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
30%|████████████▋ | 63/208 [00:10<00:24, 5.87it/s][2024-01-01 08:33:30,200] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
31%|████████████▉ | 64/208 [00:10<00:24, 5.94it/s][2024-01-01 08:33:30,368] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
31%|█████████████▏ | 65/208 [00:11<00:24, 5.94it/s][2024-01-01 08:33:30,538] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
32%|█████████████▎ | 66/208 [00:11<00:23, 5.92it/s][2024-01-01 08:33:30,710] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
32%|█████████████▌ | 67/208 [00:11<00:23, 5.90it/s][2024-01-01 08:33:30,880] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
33%|█████████████▋ | 68/208 [00:11<00:23, 5.89it/s][2024-01-01 08:33:31,056] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
33%|█████████████▉ | 69/208 [00:11<00:23, 5.82it/s][2024-01-01 08:33:31,230] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
34%|██████████████▏ | 70/208 [00:11<00:23, 5.81it/s][2024-01-01 08:33:31,399] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
34%|██████████████▎ | 71/208 [00:12<00:23, 5.84it/s][2024-01-01 08:33:31,569] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
35%|██████████████▌ | 72/208 [00:12<00:23, 5.84it/s][2024-01-01 08:33:31,738] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
35%|██████████████▋ | 73/208 [00:12<00:23, 5.87it/s][2024-01-01 08:33:31,911] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
36%|██████████████▉ | 74/208 [00:12<00:22, 5.85it/s][2024-01-01 08:33:32,083] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
36%|███████████████▏ | 75/208 [00:12<00:22, 5.84it/s][2024-01-01 08:33:32,254] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
37%|███████████████▎ | 76/208 [00:12<00:22, 5.84it/s][2024-01-01 08:33:32,421] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
37%|███████████████▌ | 77/208 [00:13<00:22, 5.88it/s][2024-01-01 08:33:32,589] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
38%|███████████████▊ | 78/208 [00:13<00:22, 5.90it/s][2024-01-01 08:33:32,761] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
38%|███████████████▉ | 79/208 [00:13<00:21, 5.87it/s][2024-01-01 08:33:32,932] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
38%|████████████████▏ | 80/208 [00:13<00:21, 5.87it/s][2024-01-01 08:33:33,101] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
39%|████████████████▎ | 81/208 [00:13<00:21, 5.88it/s][2024-01-01 08:33:33,277] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
39%|████████████████▌ | 82/208 [00:13<00:21, 5.83it/s][2024-01-01 08:33:33,446] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
40%|████████████████▊ | 83/208 [00:14<00:21, 5.85it/s][2024-01-01 08:33:33,623] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
40%|████████████████▉ | 84/208 [00:14<00:21, 5.79it/s][2024-01-01 08:33:33,795] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
41%|█████████████████▏ | 85/208 [00:14<00:21, 5.79it/s][2024-01-01 08:33:33,965] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
41%|█████████████████▎ | 86/208 [00:14<00:20, 5.82it/s][2024-01-01 08:33:34,138] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
42%|█████████████████▌ | 87/208 [00:14<00:20, 5.81it/s][2024-01-01 08:33:34,313] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
42%|█████████████████▊ | 88/208 [00:14<00:20, 5.78it/s][2024-01-01 08:33:34,492] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
43%|█████████████████▉ | 89/208 [00:15<00:20, 5.72it/s][2024-01-01 08:33:34,657] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
43%|██████████████████▏ | 90/208 [00:15<00:20, 5.82it/s][2024-01-01 08:33:34,826] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
44%|██████████████████▍ | 91/208 [00:15<00:20, 5.85it/s][2024-01-01 08:33:34,997] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
44%|██████████████████▌ | 92/208 [00:15<00:19, 5.84it/s][2024-01-01 08:33:35,169] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
45%|██████████████████▊ | 93/208 [00:15<00:19, 5.84it/s][2024-01-01 08:33:35,339] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
45%|██████████████████▉ | 94/208 [00:16<00:19, 5.86it/s][2024-01-01 08:33:35,508] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
46%|███████████████████▏ | 95/208 [00:16<00:19, 5.87it/s][2024-01-01 08:33:35,678] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
46%|███████████████████▍ | 96/208 [00:16<00:19, 5.87it/s][2024-01-01 08:33:35,853] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
47%|███████████████████▌ | 97/208 [00:16<00:19, 5.82it/s][2024-01-01 08:33:36,021] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
47%|███████████████████▊ | 98/208 [00:16<00:18, 5.86it/s][2024-01-01 08:33:36,193] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
48%|███████████████████▉ | 99/208 [00:16<00:18, 5.85it/s][2024-01-01 08:33:36,365] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
48%|███████████████████▋ | 100/208 [00:17<00:18, 5.83it/s][2024-01-01 08:33:36,541] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
49%|███████████████████▉ | 101/208 [00:17<00:18, 5.79it/s][2024-01-01 08:33:36,717] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
49%|████████████████████ | 102/208 [00:17<00:18, 5.76it/s][2024-01-01 08:33:36,885] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
50%|████████████████████▎ | 103/208 [00:17<00:18, 5.82it/s][2024-01-01 08:33:37,054] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
50%|████████████████████▌ | 104/208 [00:17<00:17, 5.84it/s][2024-01-01 08:33:37,218] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
50%|████████████████████▋ | 105/208 [00:17<00:17, 5.92it/s][2024-01-01 08:33:37,388] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
51%|████████████████████▉ | 106/208 [00:18<00:17, 5.91it/s][2024-01-01 08:33:37,560] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
51%|█████████████████████ | 107/208 [00:18<00:17, 5.88it/s][2024-01-01 08:33:37,732] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
52%|█████████████████████▎ | 108/208 [00:18<00:17, 5.86it/s][2024-01-01 08:33:37,902] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
52%|█████████████████████▍ | 109/208 [00:18<00:16, 5.86it/s][2024-01-01 08:33:38,070] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
53%|█████████████████████▋ | 110/208 [00:18<00:16, 5.89it/s][2024-01-01 08:33:38,246] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
53%|█████████████████████▉ | 111/208 [00:18<00:16, 5.83it/s][2024-01-01 08:33:38,424] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
54%|██████████████████████ | 112/208 [00:19<00:16, 5.76it/s][2024-01-01 08:33:38,603] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
54%|██████████████████████▎ | 113/208 [00:19<00:16, 5.71it/s][2024-01-01 08:33:38,773] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
55%|██████████████████████▍ | 114/208 [00:19<00:16, 5.76it/s][2024-01-01 08:33:38,949] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
55%|██████████████████████▋ | 115/208 [00:19<00:16, 5.73it/s][2024-01-01 08:33:39,128] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
56%|██████████████████████▊ | 116/208 [00:19<00:16, 5.69it/s][2024-01-01 08:33:39,296] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
56%|███████████████████████ | 117/208 [00:19<00:15, 5.77it/s][2024-01-01 08:33:39,471] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
57%|███████████████████████▎ | 118/208 [00:20<00:15, 5.75it/s][2024-01-01 08:33:39,642] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
57%|███████████████████████▍ | 119/208 [00:20<00:15, 5.77it/s][2024-01-01 08:33:39,818] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
58%|███████████████████████▋ | 120/208 [00:20<00:15, 5.75it/s][2024-01-01 08:33:39,988] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
58%|███████████████████████▊ | 121/208 [00:20<00:15, 5.79it/s][2024-01-01 08:33:40,158] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
59%|████████████████████████ | 122/208 [00:20<00:14, 5.82it/s][2024-01-01 08:33:40,328] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
59%|████████████████████████▏ | 123/208 [00:21<00:14, 5.84it/s][2024-01-01 08:33:40,498] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
60%|████████████████████████▍ | 124/208 [00:21<00:14, 5.85it/s][2024-01-01 08:33:40,669] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
60%|████████████████████████▋ | 125/208 [00:21<00:14, 5.85it/s][2024-01-01 08:33:40,838] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
61%|████████████████████████▊ | 126/208 [00:21<00:13, 5.87it/s][2024-01-01 08:33:41,008] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
61%|█████████████████████████ | 127/208 [00:21<00:13, 5.87it/s][2024-01-01 08:33:41,175] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
62%|█████████████████████████▏ | 128/208 [00:21<00:13, 5.90it/s][2024-01-01 08:33:41,345] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
62%|█████████████████████████▍ | 129/208 [00:22<00:13, 5.90it/s][2024-01-01 08:33:41,511] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
62%|█████████████████████████▋ | 130/208 [00:22<00:13, 5.94it/s][2024-01-01 08:33:41,680] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
63%|█████████████████████████▊ | 131/208 [00:22<00:12, 5.93it/s][2024-01-01 08:33:41,853] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
63%|██████████████████████████ | 132/208 [00:22<00:12, 5.88it/s][2024-01-01 08:33:42,031] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
64%|██████████████████████████▏ | 133/208 [00:22<00:12, 5.81it/s][2024-01-01 08:33:42,197] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
64%|██████████████████████████▍ | 134/208 [00:22<00:12, 5.87it/s][2024-01-01 08:33:42,374] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
65%|██████████████████████████▌ | 135/208 [00:23<00:12, 5.79it/s][2024-01-01 08:33:42,544] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
65%|██████████████████████████▊ | 136/208 [00:23<00:12, 5.82it/s][2024-01-01 08:33:42,717] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
66%|███████████████████████████ | 137/208 [00:23<00:12, 5.81it/s][2024-01-01 08:33:42,885] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
66%|███████████████████████████▏ | 138/208 [00:23<00:11, 5.86it/s][2024-01-01 08:33:43,051] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
67%|███████████████████████████▍ | 139/208 [00:23<00:11, 5.90it/s][2024-01-01 08:33:43,218] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
67%|███████████████████████████▌ | 140/208 [00:23<00:11, 5.93it/s][2024-01-01 08:33:43,386] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
68%|███████████████████████████▊ | 141/208 [00:24<00:11, 5.93it/s][2024-01-01 08:33:43,558] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
68%|███████████████████████████▉ | 142/208 [00:24<00:11, 5.90it/s][2024-01-01 08:33:43,737] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
69%|████████████████████████████▏ | 143/208 [00:24<00:11, 5.80it/s][2024-01-01 08:33:43,920] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
69%|████████████████████████████▍ | 144/208 [00:24<00:11, 5.70it/s][2024-01-01 08:33:44,095] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
70%|████████████████████████████▌ | 145/208 [00:24<00:11, 5.70it/s][2024-01-01 08:33:44,268] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
70%|████████████████████████████▊ | 146/208 [00:24<00:10, 5.73it/s][2024-01-01 08:33:44,442] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
71%|████████████████████████████▉ | 147/208 [00:25<00:10, 5.74it/s][2024-01-01 08:33:44,611] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
71%|█████████████████████████████▏ | 148/208 [00:25<00:10, 5.79it/s][2024-01-01 08:33:44,785] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
72%|█████████████████████████████▎ | 149/208 [00:25<00:10, 5.77it/s][2024-01-01 08:33:44,962] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
72%|█████████████████████████████▌ | 150/208 [00:25<00:10, 5.73it/s][2024-01-01 08:33:45,135] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
73%|█████████████████████████████▊ | 151/208 [00:25<00:09, 5.75it/s][2024-01-01 08:33:45,307] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
73%|█████████████████████████████▉ | 152/208 [00:25<00:09, 5.77it/s][2024-01-01 08:33:45,476] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
74%|██████████████████████████████▏ | 153/208 [00:26<00:09, 5.81it/s][2024-01-01 08:33:45,648] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
74%|██████████████████████████████▎ | 154/208 [00:26<00:09, 5.82it/s][2024-01-01 08:33:45,818] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
75%|██████████████████████████████▌ | 155/208 [00:26<00:09, 5.83it/s][2024-01-01 08:33:45,989] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
75%|██████████████████████████████▊ | 156/208 [00:26<00:08, 5.84it/s][2024-01-01 08:33:46,158] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
75%|██████████████████████████████▉ | 157/208 [00:26<00:08, 5.86it/s][2024-01-01 08:33:46,328] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
76%|███████████████████████████████▏ | 158/208 [00:27<00:08, 5.87it/s][2024-01-01 08:33:46,500] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
76%|███████████████████████████████▎ | 159/208 [00:27<00:08, 5.85it/s][2024-01-01 08:33:46,673] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
77%|███████████████████████████████▌ | 160/208 [00:27<00:08, 5.83it/s][2024-01-01 08:33:46,844] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
77%|███████████████████████████████▋ | 161/208 [00:27<00:08, 5.83it/s][2024-01-01 08:33:47,016] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
78%|███████████████████████████████▉ | 162/208 [00:27<00:07, 5.83it/s][2024-01-01 08:33:47,189] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
78%|████████████████████████████████▏ | 163/208 [00:27<00:07, 5.81it/s][2024-01-01 08:33:47,365] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
79%|████████████████████████████████▎ | 164/208 [00:28<00:07, 5.78it/s][2024-01-01 08:33:47,537] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
79%|████████████████████████████████▌ | 165/208 [00:28<00:07, 5.79it/s][2024-01-01 08:33:47,706] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
80%|████████████████████████████████▋ | 166/208 [00:28<00:07, 5.82it/s][2024-01-01 08:33:47,876] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
80%|████████████████████████████████▉ | 167/208 [00:28<00:07, 5.84it/s][2024-01-01 08:33:48,041] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
81%|█████████████████████████████████ | 168/208 [00:28<00:06, 5.91it/s][2024-01-01 08:33:48,214] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
81%|█████████████████████████████████▎ | 169/208 [00:28<00:06, 5.87it/s][2024-01-01 08:33:48,383] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
82%|█████████████████████████████████▌ | 170/208 [00:29<00:06, 5.88it/s][2024-01-01 08:33:48,555] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
82%|█████████████████████████████████▋ | 171/208 [00:29<00:06, 5.86it/s][2024-01-01 08:33:48,724] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
83%|█████████████████████████████████▉ | 172/208 [00:29<00:06, 5.88it/s][2024-01-01 08:33:48,898] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
83%|██████████████████████████████████ | 173/208 [00:29<00:05, 5.84it/s][2024-01-01 08:33:49,065] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
84%|██████████████████████████████████▎ | 174/208 [00:29<00:05, 5.88it/s][2024-01-01 08:33:49,233] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
84%|██████████████████████████████████▍ | 175/208 [00:29<00:05, 5.90it/s][2024-01-01 08:33:49,406] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
85%|██████████████████████████████████▋ | 176/208 [00:30<00:05, 5.87it/s][2024-01-01 08:33:49,587] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
85%|██████████████████████████████████▉ | 177/208 [00:30<00:05, 5.76it/s][2024-01-01 08:33:49,766] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
86%|███████████████████████████████████ | 178/208 [00:30<00:05, 5.70it/s][2024-01-01 08:33:49,942] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
86%|███████████████████████████████████▎ | 179/208 [00:30<00:05, 5.70it/s][2024-01-01 08:33:50,115] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
87%|███████████████████████████████████▍ | 180/208 [00:30<00:04, 5.72it/s][2024-01-01 08:33:50,285] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
87%|███████████████████████████████████▋ | 181/208 [00:30<00:04, 5.77it/s][2024-01-01 08:33:50,454] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
88%|███████████████████████████████████▉ | 182/208 [00:31<00:04, 5.82it/s][2024-01-01 08:33:50,624] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
88%|████████████████████████████████████ | 183/208 [00:31<00:04, 5.84it/s][2024-01-01 08:33:50,793] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
88%|████████████████████████████████████▎ | 184/208 [00:31<00:04, 5.85it/s][2024-01-01 08:33:50,964] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
89%|████████████████████████████████████▍ | 185/208 [00:31<00:03, 5.86it/s][2024-01-01 08:33:51,138] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
89%|████████████████████████████████████▋ | 186/208 [00:31<00:03, 5.82it/s][2024-01-01 08:33:51,309] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
90%|████████████████████████████████████▊ | 187/208 [00:31<00:03, 5.82it/s][2024-01-01 08:33:51,495] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
90%|█████████████████████████████████████ | 188/208 [00:32<00:03, 5.69it/s][2024-01-01 08:33:51,671] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
91%|█████████████████████████████████████▎ | 189/208 [00:32<00:03, 5.69it/s][2024-01-01 08:33:51,843] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
91%|█████████████████████████████████████▍ | 190/208 [00:32<00:03, 5.72it/s][2024-01-01 08:33:52,019] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
92%|█████████████████████████████████████▋ | 191/208 [00:32<00:02, 5.72it/s][2024-01-01 08:33:52,192] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
92%|█████████████████████████████████████▊ | 192/208 [00:32<00:02, 5.73it/s][2024-01-01 08:33:52,363] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
93%|██████████████████████████████████████ | 193/208 [00:33<00:02, 5.76it/s][2024-01-01 08:33:52,535] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
93%|██████████████████████████████████████▏ | 194/208 [00:33<00:02, 5.78it/s][2024-01-01 08:33:52,700] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
94%|██████████████████████████████████████▍ | 195/208 [00:33<00:02, 5.86it/s][2024-01-01 08:33:52,870] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
94%|██████████████████████████████████████▋ | 196/208 [00:33<00:02, 5.87it/s][2024-01-01 08:33:53,039] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
95%|██████████████████████████████████████▊ | 197/208 [00:33<00:01, 5.89it/s][2024-01-01 08:33:53,217] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
95%|███████████████████████████████████████ | 198/208 [00:33<00:01, 5.80it/s][2024-01-01 08:33:53,402] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
96%|███████████████████████████████████████▏ | 199/208 [00:34<00:01, 5.68it/s][2024-01-01 08:33:53,586] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
96%|███████████████████████████████████████▍ | 200/208 [00:34<00:01, 5.60it/s][2024-01-01 08:33:53,759] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
97%|███████████████████████████████████████▌ | 201/208 [00:34<00:01, 5.65it/s][2024-01-01 08:33:53,930] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
97%|███████████████████████████████████████▊ | 202/208 [00:34<00:01, 5.71it/s][2024-01-01 08:33:54,100] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
98%|████████████████████████████████████████ | 203/208 [00:34<00:00, 5.76it/s][2024-01-01 08:33:54,274] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
98%|████████████████████████████████████████▏| 204/208 [00:34<00:00, 5.76it/s][2024-01-01 08:33:54,436] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
{'eval_loss': 1.7242642641067505, 'eval_runtime': 35.3126, 'eval_samples_per_second': 30.924, 'eval_steps_per_second': 30.924, 'epoch': 0.0}
0%| | 1/1490 [00:40<2:05:44, 5.07s/it]
99%|████████████████████████████████████████▍| 205/208 [00:35<00:00, 5.87it/s]
[2024-01-01 08:33:58,624] [INFO] [axolotl.callbacks.on_step_end:124] [PID:2201] [RANK:0] GPU memory usage while training: 3.502GB (+1.607GB cache, +2.321GB misc)
{'loss': 1.4792, 'learning_rate': 2e-05, 'epoch': 0.0}
{'loss': 1.3653, 'learning_rate': 3e-05, 'epoch': 0.0}
{'loss': 1.3331, 'learning_rate': 4e-05, 'epoch': 0.0}
{'loss': 1.394, 'learning_rate': 5e-05, 'epoch': 0.0}
{'loss': 1.2568, 'learning_rate': 6e-05, 'epoch': 0.0}
{'loss': 1.5134, 'learning_rate': 7e-05, 'epoch': 0.0}
{'loss': 1.4683, 'learning_rate': 8e-05, 'epoch': 0.01}
{'loss': 1.3634, 'learning_rate': 9e-05, 'epoch': 0.01}
{'loss': 1.4318, 'learning_rate': 0.0001, 'epoch': 0.01}
{'loss': 1.2936, 'learning_rate': 0.00011000000000000002, 'epoch': 0.01}
{'loss': 1.314, 'learning_rate': 0.00012, 'epoch': 0.01}
{'loss': 1.1502, 'learning_rate': 0.00013000000000000002, 'epoch': 0.01}
{'loss': 1.2088, 'learning_rate': 0.00014, 'epoch': 0.01}
{'loss': 1.3414, 'learning_rate': 0.00015000000000000001, 'epoch': 0.01}
{'loss': 1.1677, 'learning_rate': 0.00016, 'epoch': 0.01}
{'loss': 1.1912, 'learning_rate': 0.00017, 'epoch': 0.01}
{'loss': 1.2388, 'learning_rate': 0.00018, 'epoch': 0.01}
{'loss': 1.2312, 'learning_rate': 0.00019, 'epoch': 0.01}
{'loss': 1.2424, 'learning_rate': 0.0002, 'epoch': 0.01}
{'loss': 1.1186, 'learning_rate': 0.00019999977163217539, 'epoch': 0.01}
{'loss': 1.2261, 'learning_rate': 0.00019999908652974455, 'epoch': 0.01}
{'loss': 1.142, 'learning_rate': 0.0001999979446958366, 'epoch': 0.02}
{'loss': 1.2663, 'learning_rate': 0.00019999634613566673, 'epoch': 0.02}
{'loss': 1.214, 'learning_rate': 0.00019999429085653612, 'epoch': 0.02}
{'loss': 1.0702, 'learning_rate': 0.00019999177886783194, 'epoch': 0.02}
{'loss': 1.0896, 'learning_rate': 0.00019998881018102737, 'epoch': 0.02}
{'loss': 1.0614, 'learning_rate': 0.0001999853848096814, 'epoch': 0.02}
{'loss': 1.2197, 'learning_rate': 0.00019998150276943902, 'epoch': 0.02}
{'loss': 1.1162, 'learning_rate': 0.0001999771640780308, 'epoch': 0.02}
{'loss': 1.195, 'learning_rate': 0.00019997236875527317, 'epoch': 0.02}
{'loss': 1.2257, 'learning_rate': 0.000199967116823068, 'epoch': 0.02}
{'loss': 1.201, 'learning_rate': 0.00019996140830540277, 'epoch': 0.02}
{'loss': 1.0558, 'learning_rate': 0.00019995524322835034, 'epoch': 0.02}
{'loss': 1.1975, 'learning_rate': 0.0001999486216200688, 'epoch': 0.02}
{'loss': 1.0878, 'learning_rate': 0.00019994154351080136, 'epoch': 0.02}
{'loss': 1.1892, 'learning_rate': 0.00019993400893287633, 'epoch': 0.02}
{'loss': 1.2264, 'learning_rate': 0.00019992601792070679, 'epoch': 0.03}
{'loss': 1.2106, 'learning_rate': 0.0001999175705107905, 'epoch': 0.03}
{'loss': 1.1682, 'learning_rate': 0.00019990866674170983, 'epoch': 0.03}
{'loss': 1.231, 'learning_rate': 0.00019989930665413147, 'epoch': 0.03}
{'loss': 1.1647, 'learning_rate': 0.00019988949029080627, 'epoch': 0.03}
{'loss': 1.1256, 'learning_rate': 0.00019987921769656905, 'epoch': 0.03}
{'loss': 1.1608, 'learning_rate': 0.00019986848891833845, 'epoch': 0.03}
{'loss': 1.1848, 'learning_rate': 0.00019985730400511658, 'epoch': 0.03}
{'loss': 1.041, 'learning_rate': 0.00019984566300798893, 'epoch': 0.03}
{'loss': 1.1937, 'learning_rate': 0.0001998335659801241, 'epoch': 0.03}
{'loss': 1.1441, 'learning_rate': 0.0001998210129767735, 'epoch': 0.03}
{'loss': 1.3662, 'learning_rate': 0.00019980800405527125, 'epoch': 0.03}
{'loss': 1.0838, 'learning_rate': 0.00019979453927503364, 'epoch': 0.03}
{'loss': 1.2006, 'learning_rate': 0.00019978061869755918, 'epoch': 0.03}
{'loss': 1.1031, 'learning_rate': 0.00019976624238642808, 'epoch': 0.03}
{'loss': 1.1347, 'learning_rate': 0.00019975141040730207, 'epoch': 0.04}
{'loss': 1.1403, 'learning_rate': 0.0001997361228279241, 'epoch': 0.04}
{'loss': 1.2115, 'learning_rate': 0.00019972037971811802, 'epoch': 0.04}
{'loss': 1.1832, 'learning_rate': 0.0001997041811497882, 'epoch': 0.04}
{'loss': 1.176, 'learning_rate': 0.00019968752719691927, 'epoch': 0.04}
{'loss': 1.0294, 'learning_rate': 0.00019967041793557576, 'epoch': 0.04}
{'loss': 1.0432, 'learning_rate': 0.00019965285344390184, 'epoch': 0.04}
{'loss': 1.1634, 'learning_rate': 0.00019963483380212068, 'epoch': 0.04}
{'loss': 1.2435, 'learning_rate': 0.00019961635909253452, 'epoch': 0.04}
{'loss': 1.2428, 'learning_rate': 0.00019959742939952392, 'epoch': 0.04}
{'loss': 1.1253, 'learning_rate': 0.0001995780448095475, 'epoch': 0.04}
{'loss': 1.18, 'learning_rate': 0.0001995582054111416, 'epoch': 0.04}
{'loss': 1.0574, 'learning_rate': 0.00019953791129491983, 'epoch': 0.04}
{'loss': 1.1472, 'learning_rate': 0.00019951716255357267, 'epoch': 0.04}
{'loss': 1.144, 'learning_rate': 0.000199495959281867, 'epoch': 0.04}
{'loss': 1.1216, 'learning_rate': 0.00019947430157664576, 'epoch': 0.05}
{'loss': 1.1173, 'learning_rate': 0.00019945218953682734, 'epoch': 0.05}
{'loss': 1.0633, 'learning_rate': 0.00019942962326340537, 'epoch': 0.05}
{'loss': 1.0738, 'learning_rate': 0.00019940660285944803, 'epoch': 0.05}
{'loss': 0.9982, 'learning_rate': 0.00019938312843009775, 'epoch': 0.05}
{'loss': 1.0268, 'learning_rate': 0.00019935920008257057, 'epoch': 0.05}
{'loss': 1.2165, 'learning_rate': 0.00019933481792615583, 'epoch': 0.05}
{'loss': 1.1611, 'learning_rate': 0.00019930998207221549, 'epoch': 0.05}
{'loss': 1.0897, 'learning_rate': 0.00019928469263418374, 'epoch': 0.05}
{'loss': 1.1326, 'learning_rate': 0.0001992589497275665, 'epoch': 0.05}
{'loss': 1.0662, 'learning_rate': 0.0001992327534699408, 'epoch': 0.05}
{'loss': 1.2083, 'learning_rate': 0.00019920610398095425, 'epoch': 0.05}
{'loss': 1.1439, 'learning_rate': 0.0001991790013823246, 'epoch': 0.05}
{'loss': 1.1434, 'learning_rate': 0.00019915144579783908, 'epoch': 0.05}
{'loss': 1.2576, 'learning_rate': 0.0001991234373533539, 'epoch': 0.06}
{'loss': 1.1563, 'learning_rate': 0.00019909497617679348, 'epoch': 0.06}
{'loss': 1.2004, 'learning_rate': 0.00019906606239815028, 'epoch': 0.06}
{'loss': 1.0728, 'learning_rate': 0.00019903669614948383, 'epoch': 0.06}
{'loss': 1.0422, 'learning_rate': 0.0001990068775649202, 'epoch': 0.06}
{'loss': 1.0225, 'learning_rate': 0.00019897660678065154, 'epoch': 0.06}
{'loss': 1.1186, 'learning_rate': 0.00019894588393493527, 'epoch': 0.06}
{'loss': 1.011, 'learning_rate': 0.00019891470916809362, 'epoch': 0.06}
{'loss': 1.0916, 'learning_rate': 0.00019888308262251285, 'epoch': 0.06}
{'loss': 1.1494, 'learning_rate': 0.00019885100444264268, 'epoch': 0.06}
{'loss': 1.2153, 'learning_rate': 0.00019881847477499557, 'epoch': 0.06}
{'loss': 1.0526, 'learning_rate': 0.00019878549376814615, 'epoch': 0.06}
{'loss': 1.1571, 'learning_rate': 0.00019875206157273035, 'epoch': 0.06}
{'loss': 0.9654, 'learning_rate': 0.00019871817834144504, 'epoch': 0.06}
{'loss': 1.0178, 'learning_rate': 0.00019868384422904692, 'epoch': 0.06}
{'loss': 1.1435, 'learning_rate': 0.00019864905939235214, 'epoch': 0.07}
{'loss': 1.0701, 'learning_rate': 0.0001986138239902355, 'epoch': 0.07}
{'loss': 1.1805, 'learning_rate': 0.00019857813818362961, 'epoch': 0.07}
{'loss': 1.207, 'learning_rate': 0.00019854200213552424, 'epoch': 0.07}
{'loss': 0.988, 'learning_rate': 0.0001985054160109657, 'epoch': 0.07}
{'loss': 1.1304, 'learning_rate': 0.00019846837997705575, 'epoch': 0.07}
{'loss': 1.0504, 'learning_rate': 0.00019843089420295122, 'epoch': 0.07}
{'loss': 1.0269, 'learning_rate': 0.00019839295885986296, 'epoch': 0.07}
{'loss': 1.1577, 'learning_rate': 0.00019835457412105528, 'epoch': 0.07}
{'loss': 0.9673, 'learning_rate': 0.00019831574016184491, 'epoch': 0.07}
{'loss': 1.1441, 'learning_rate': 0.0001982764571596004, 'epoch': 0.07}
{'loss': 1.1128, 'learning_rate': 0.0001982367252937412, 'epoch': 0.07}
{'loss': 0.9972, 'learning_rate': 0.00019819654474573697, 'epoch': 0.07}
{'loss': 1.0781, 'learning_rate': 0.00019815591569910654, 'epoch': 0.07}
{'loss': 1.1594, 'learning_rate': 0.00019811483833941728, 'epoch': 0.07}
{'loss': 1.1188, 'learning_rate': 0.0001980733128542841, 'epoch': 0.08}
{'loss': 1.1551, 'learning_rate': 0.00019803133943336874, 'epoch': 0.08}
{'loss': 1.2245, 'learning_rate': 0.00019798891826837872, 'epoch': 0.08}
{'loss': 1.0848, 'learning_rate': 0.00019794604955306668, 'epoch': 0.08}
{'loss': 1.089, 'learning_rate': 0.0001979027334832293, 'epoch': 0.08}
{'loss': 1.2984, 'learning_rate': 0.0001978589702567065, 'epoch': 0.08}
{'loss': 1.1585, 'learning_rate': 0.00019781476007338058, 'epoch': 0.08}
{'loss': 1.1299, 'learning_rate': 0.00019777010313517518, 'epoch': 0.08}
{'loss': 1.1948, 'learning_rate': 0.0001977249996460544, 'epoch': 0.08}
{'loss': 1.1144, 'learning_rate': 0.00019767944981202208, 'epoch': 0.08}
{'loss': 1.004, 'learning_rate': 0.00019763345384112043, 'epoch': 0.08}
{'loss': 1.1217, 'learning_rate': 0.0001975870119434295, 'epoch': 0.08}
{'loss': 1.0854, 'learning_rate': 0.00019754012433106601, 'epoch': 0.08}
{'loss': 1.0487, 'learning_rate': 0.00019749279121818235, 'epoch': 0.08}
{'loss': 1.2774, 'learning_rate': 0.00019744501282096578, 'epoch': 0.08}
{'loss': 1.2551, 'learning_rate': 0.00019739678935763727, 'epoch': 0.09}
{'loss': 0.9281, 'learning_rate': 0.00019734812104845047, 'epoch': 0.09}
{'loss': 1.0954, 'learning_rate': 0.00019729900811569102, 'epoch': 0.09}
{'loss': 1.0986, 'learning_rate': 0.00019724945078367513, 'epoch': 0.09}
{'loss': 1.2252, 'learning_rate': 0.00019719944927874881, 'epoch': 0.09}
{'loss': 1.1887, 'learning_rate': 0.00019714900382928675, 'epoch': 0.09}
{'loss': 1.1003, 'learning_rate': 0.00019709811466569132, 'epoch': 0.09}
{'loss': 1.1516, 'learning_rate': 0.0001970467820203915, 'epoch': 0.09}
{'loss': 1.2158, 'learning_rate': 0.0001969950061278417, 'epoch': 0.09}
{'loss': 1.0387, 'learning_rate': 0.00019694278722452092, 'epoch': 0.09}
{'loss': 1.0262, 'learning_rate': 0.00019689012554893154, 'epoch': 0.09}
{'loss': 1.1051, 'learning_rate': 0.00019683702134159817, 'epoch': 0.09}
{'loss': 1.1394, 'learning_rate': 0.00019678347484506669, 'epoch': 0.09}
{'loss': 1.0672, 'learning_rate': 0.00019672948630390294, 'epoch': 0.09}
{'loss': 1.0702, 'learning_rate': 0.00019667505596469197, 'epoch': 0.09}
{'loss': 1.1451, 'learning_rate': 0.00019662018407603645, 'epoch': 0.1}
{'loss': 1.0678, 'learning_rate': 0.00019656487088855592, 'epoch': 0.1}
{'loss': 1.0124, 'learning_rate': 0.00019650911665488533, 'epoch': 0.1}
{'loss': 1.064, 'learning_rate': 0.00019645292162967425, 'epoch': 0.1}
{'loss': 1.112, 'learning_rate': 0.00019639628606958533, 'epoch': 0.1}
{'loss': 0.8165, 'learning_rate': 0.0001963392102332934, 'epoch': 0.1}
{'loss': 1.0996, 'learning_rate': 0.00019628169438148412, 'epoch': 0.1}
{'loss': 0.9143, 'learning_rate': 0.0001962237387768529, 'epoch': 0.1}
{'loss': 1.0805, 'learning_rate': 0.00019616534368410365, 'epoch': 0.1}
{'loss': 1.0663, 'learning_rate': 0.00019610650936994754, 'epoch': 0.1}
{'loss': 0.986, 'learning_rate': 0.00019604723610310194, 'epoch': 0.1}
{'loss': 1.1905, 'learning_rate': 0.0001959875241542889, 'epoch': 0.1}
{'loss': 1.1866, 'learning_rate': 0.00019592737379623424, 'epoch': 0.1}
{'loss': 1.0749, 'learning_rate': 0.00019586678530366606, 'epoch': 0.1}
{'loss': 0.9262, 'learning_rate': 0.00019580575895331365, 'epoch': 0.1}
{'loss': 1.1616, 'learning_rate': 0.00019574429502390602, 'epoch': 0.11}
{'loss': 1.1246, 'learning_rate': 0.00019568239379617088, 'epoch': 0.11}
{'loss': 1.0973, 'learning_rate': 0.00019562005555283328, 'epoch': 0.11}
{'loss': 1.1405, 'learning_rate': 0.0001955572805786141, 'epoch': 0.11}
{'loss': 1.004, 'learning_rate': 0.00019549406916022905, 'epoch': 0.11}
{'loss': 1.1796, 'learning_rate': 0.00019543042158638726, 'epoch': 0.11}
{'loss': 1.0712, 'learning_rate': 0.00019536633814778984, 'epoch': 0.11}
{'loss': 1.1163, 'learning_rate': 0.00019530181913712872, 'epoch': 0.11}
{'loss': 1.1101, 'learning_rate': 0.00019523686484908522, 'epoch': 0.11}
{'loss': 1.0568, 'learning_rate': 0.00019517147558032876, 'epoch': 0.11}
{'loss': 1.1264, 'learning_rate': 0.00019510565162951537, 'epoch': 0.11}
{'loss': 1.1926, 'learning_rate': 0.00019503939329728654, 'epoch': 0.11}
{'loss': 1.0787, 'learning_rate': 0.00019497270088626771, 'epoch': 0.11}
{'loss': 1.0652, 'learning_rate': 0.00019490557470106686, 'epoch': 0.11}
{'loss': 1.1454, 'learning_rate': 0.00019483801504827325, 'epoch': 0.11}
{'loss': 1.0093, 'learning_rate': 0.00019477002223645587, 'epoch': 0.12}
{'loss': 1.1485, 'learning_rate': 0.00019470159657616215, 'epoch': 0.12}
{'loss': 1.1064, 'learning_rate': 0.00019463273837991643, 'epoch': 0.12}
{'loss': 1.0949, 'learning_rate': 0.00019456344796221867, 'epoch': 0.12}
{'loss': 1.0736, 'learning_rate': 0.00019449372563954293, 'epoch': 0.12}
{'loss': 1.0986, 'learning_rate': 0.0001944235717303359, 'epoch': 0.12}
{'loss': 1.1897, 'learning_rate': 0.00019435298655501545, 'epoch': 0.12}
{'loss': 1.1689, 'learning_rate': 0.0001942819704359693, 'epoch': 0.12}
{'loss': 1.1004, 'learning_rate': 0.00019421052369755334, 'epoch': 0.12}
{'loss': 1.2589, 'learning_rate': 0.00019413864666609034, 'epoch': 0.12}
{'loss': 1.2032, 'learning_rate': 0.00019406633966986828, 'epoch': 0.12}
{'loss': 1.159, 'learning_rate': 0.000193993603039139, 'epoch': 0.12}
{'loss': 1.1515, 'learning_rate': 0.00019392043710611662, 'epoch': 0.12}
{'loss': 1.141, 'learning_rate': 0.00019384684220497605, 'epoch': 0.12}
{'loss': 1.0748, 'learning_rate': 0.00019377281867185143, 'epoch': 0.12}
{'loss': 1.2246, 'learning_rate': 0.00019369836684483466, 'epoch': 0.13}
{'loss': 1.1019, 'learning_rate': 0.00019362348706397373, 'epoch': 0.13}
{'loss': 1.1683, 'learning_rate': 0.0001935481796712713, 'epoch': 0.13}
{'loss': 1.1546, 'learning_rate': 0.00019347244501068312, 'epoch': 0.13}
{'loss': 1.0806, 'learning_rate': 0.00019339628342811632, 'epoch': 0.13}
{'loss': 1.1626, 'learning_rate': 0.00019331969527142806, 'epoch': 0.13}
{'loss': 1.0113, 'learning_rate': 0.0001932426808904237, 'epoch': 0.13}
{'loss': 1.0553, 'learning_rate': 0.0001931652406368554, 'epoch': 0.13}
{'loss': 0.963, 'learning_rate': 0.00019308737486442045, 'epoch': 0.13}
{'loss': 1.1843, 'learning_rate': 0.00019300908392875949, 'epoch': 0.13}
{'loss': 1.0473, 'learning_rate': 0.0001929303681874552, 'epoch': 0.13}
{'loss': 1.0143, 'learning_rate': 0.00019285122800003044, 'epoch': 0.13}
{'loss': 1.0738, 'learning_rate': 0.00019277166372794663, 'epoch': 0.13}
{'loss': 1.1805, 'learning_rate': 0.0001926916757346022, 'epoch': 0.13}
{'loss': 1.2238, 'learning_rate': 0.00019261126438533077, 'epoch': 0.13}
{'loss': 1.0052, 'learning_rate': 0.00019253043004739968, 'epoch': 0.14}
{'loss': 1.236, 'learning_rate': 0.00019244917309000817, 'epoch': 0.14}
{'loss': 1.0891, 'learning_rate': 0.0001923674938842857, 'epoch': 0.14}
{'loss': 1.0968, 'learning_rate': 0.00019228539280329038, 'epoch': 0.14}
{'loss': 0.9934, 'learning_rate': 0.00019220287022200707, 'epoch': 0.14}
{'loss': 1.0694, 'learning_rate': 0.00019211992651734582, 'epoch': 0.14}
{'loss': 1.1381, 'learning_rate': 0.00019203656206814008, 'epoch': 0.14}
{'loss': 0.9649, 'learning_rate': 0.0001919527772551451, 'epoch': 0.14}
{'loss': 1.1892, 'learning_rate': 0.00019186857246103584, 'epoch': 0.14}
{'loss': 1.0855, 'learning_rate': 0.00019178394807040574, 'epoch': 0.14}
{'loss': 1.095, 'learning_rate': 0.00019169890446976454, 'epoch': 0.14}
{'loss': 1.098, 'learning_rate': 0.0001916134420475366, 'epoch': 0.14}
{'loss': 1.0412, 'learning_rate': 0.00019152756119405936, 'epoch': 0.14}
{'loss': 1.0469, 'learning_rate': 0.00019144126230158127, 'epoch': 0.14}
{'loss': 1.159, 'learning_rate': 0.0001913545457642601, 'epoch': 0.14}
{'loss': 1.1288, 'learning_rate': 0.00019126741197816123, 'epoch': 0.15}
{'loss': 1.1749, 'learning_rate': 0.0001911798613412557, 'epoch': 0.15}
{'loss': 1.07, 'learning_rate': 0.00019109189425341853, 'epoch': 0.15}
{'loss': 1.0399, 'learning_rate': 0.00019100351111642666, 'epoch': 0.15}
{'loss': 1.0772, 'learning_rate': 0.0001909147123339575, 'epoch': 0.15}
{'loss': 1.1235, 'learning_rate': 0.0001908254983115867, 'epoch': 0.15}
{'loss': 1.0463, 'learning_rate': 0.0001907358694567865, 'epoch': 0.15}
{'loss': 1.2275, 'learning_rate': 0.0001906458261789238, 'epoch': 0.15}
{'loss': 0.9892, 'learning_rate': 0.00019055536888925844, 'epoch': 0.15}
{'loss': 0.8857, 'learning_rate': 0.00019046449800094105, 'epoch': 0.15}
{'loss': 1.2023, 'learning_rate': 0.00019037321392901136, 'epoch': 0.15}
{'loss': 1.0429, 'learning_rate': 0.0001902815170903963, 'epoch': 0.15}
{'loss': 1.1273, 'learning_rate': 0.00019018940790390798, 'epoch': 0.15}
{'loss': 0.9864, 'learning_rate': 0.0001900968867902419, 'epoch': 0.15}
{'loss': 1.0305, 'learning_rate': 0.00019000395417197505, 'epoch': 0.15}
{'loss': 1.0673, 'learning_rate': 0.00018991061047356374, 'epoch': 0.16}
{'loss': 1.2374, 'learning_rate': 0.0001898168561213419, 'epoch': 0.16}
{'loss': 1.076, 'learning_rate': 0.00018972269154351917, 'epoch': 0.16}
{'loss': 1.1004, 'learning_rate': 0.00018962811717017868, 'epoch': 0.16}
{'loss': 0.9623, 'learning_rate': 0.0001895331334332753, 'epoch': 0.16}
{'loss': 1.2514, 'learning_rate': 0.0001894377407666337, 'epoch': 0.16}
{'loss': 1.198, 'learning_rate': 0.0001893419396059461, 'epoch': 0.16}
{'loss': 1.0836, 'learning_rate': 0.0001892457303887706, 'epoch': 0.16}
{'loss': 1.0269, 'learning_rate': 0.00018914911355452895, 'epoch': 0.16}
{'loss': 1.1436, 'learning_rate': 0.00018905208954450475, 'epoch': 0.16}
{'loss': 1.0137, 'learning_rate': 0.0001889546588018412, 'epoch': 0.16}
{'loss': 1.0381, 'learning_rate': 0.00018885682177153924, 'epoch': 0.16}
{'loss': 1.203, 'learning_rate': 0.00018875857890045543, 'epoch': 0.16}
{'loss': 1.1207, 'learning_rate': 0.00018865993063730004, 'epoch': 0.16}
{'loss': 1.1358, 'learning_rate': 0.0001885608774326348, 'epoch': 0.17}
{'loss': 1.1707, 'learning_rate': 0.00018846141973887106, 'epoch': 0.17}
{'loss': 1.1931, 'learning_rate': 0.00018836155801026753, 'epoch': 0.17}
{'loss': 1.063, 'learning_rate': 0.00018826129270292836, 'epoch': 0.17}
{'loss': 1.0381, 'learning_rate': 0.0001881606242748009, 'epoch': 0.17}
{'loss': 1.076, 'learning_rate': 0.0001880595531856738, 'epoch': 0.17}
{'loss': 1.0596, 'learning_rate': 0.00018795807989717474, 'epoch': 0.17}
{'loss': 1.0539, 'learning_rate': 0.00018785620487276838, 'epoch': 0.17}
{'loss': 1.1722, 'learning_rate': 0.00018775392857775432, 'epoch': 0.17}
{'loss': 1.1302, 'learning_rate': 0.00018765125147926476, 'epoch': 0.17}
{'loss': 1.0593, 'learning_rate': 0.00018754817404626275, 'epoch': 0.17}
{'loss': 1.0734, 'learning_rate': 0.00018744469674953956, 'epoch': 0.17}
{'loss': 1.03, 'learning_rate': 0.00018734082006171299, 'epoch': 0.17}
{'loss': 1.2045, 'learning_rate': 0.00018723654445722482, 'epoch': 0.17}
{'loss': 1.1372, 'learning_rate': 0.00018713187041233896, 'epoch': 0.17}
{'loss': 1.0737, 'learning_rate': 0.00018702679840513903, 'epoch': 0.18}
{'loss': 1.2459, 'learning_rate': 0.00018692132891552643, 'epoch': 0.18}
{'loss': 1.1569, 'learning_rate': 0.00018681546242521786, 'epoch': 0.18}
{'loss': 1.2074, 'learning_rate': 0.00018670919941774332, 'epoch': 0.18}
{'loss': 1.0985, 'learning_rate': 0.00018660254037844388, 'epoch': 0.18}
{'loss': 0.9715, 'learning_rate': 0.00018649548579446936, 'epoch': 0.18}
{'loss': 1.0717, 'learning_rate': 0.00018638803615477625, 'epoch': 0.18}
{'loss': 1.1673, 'learning_rate': 0.00018628019195012532, 'epoch': 0.18}
{'loss': 1.0697, 'learning_rate': 0.0001861719536730795, 'epoch': 0.18}
{'loss': 1.0818, 'learning_rate': 0.00018606332181800165, 'epoch': 0.18}
{'loss': 1.0697, 'learning_rate': 0.00018595429688105208, 'epoch': 0.18}
{'loss': 1.1888, 'learning_rate': 0.00018584487936018661, 'epoch': 0.18}
{'loss': 1.1669, 'learning_rate': 0.00018573506975515407, 'epoch': 0.18}
{'loss': 1.1867, 'learning_rate': 0.00018562486856749403, 'epoch': 0.18}
{'loss': 1.1612, 'learning_rate': 0.00018551427630053463, 'epoch': 0.18}
{'loss': 1.1252, 'learning_rate': 0.00018540329345939017, 'epoch': 0.19}
{'loss': 0.9638, 'learning_rate': 0.00018529192055095886, 'epoch': 0.19}
{'loss': 1.1245, 'learning_rate': 0.00018518015808392045, 'epoch': 0.19}
{'loss': 1.1724, 'learning_rate': 0.00018506800656873398, 'epoch': 0.19}
{'loss': 1.039, 'learning_rate': 0.0001849554665176354, 'epoch': 0.19}
{'loss': 1.1023, 'learning_rate': 0.00018484253844463526, 'epoch': 0.19}
{'loss': 1.0562, 'learning_rate': 0.00018472922286551634, 'epoch': 0.19}
{'loss': 1.0792, 'learning_rate': 0.00018461552029783122, 'epoch': 0.19}
{'loss': 1.0318, 'learning_rate': 0.00018450143126090015, 'epoch': 0.19}
{'loss': 1.1645, 'learning_rate': 0.00018438695627580833, 'epoch': 0.19}
{'loss': 1.0619, 'learning_rate': 0.0001842720958654039, 'epoch': 0.19}
{'loss': 1.2149, 'learning_rate': 0.00018415685055429533, 'epoch': 0.19}
{'loss': 1.09, 'learning_rate': 0.00018404122086884898, 'epoch': 0.19}
{'loss': 1.1745, 'learning_rate': 0.00018392520733718685, 'epoch': 0.19}
{'loss': 1.0795, 'learning_rate': 0.00018380881048918405, 'epoch': 0.19}
{'loss': 0.9729, 'learning_rate': 0.0001836920308564666, 'epoch': 0.2}
{'loss': 1.2637, 'learning_rate': 0.00018357486897240867, 'epoch': 0.2}
{'loss': 0.9682, 'learning_rate': 0.00018345732537213027, 'epoch': 0.2}
{'loss': 0.9056, 'learning_rate': 0.00018333940059249502, 'epoch': 0.2}
{'loss': 1.147, 'learning_rate': 0.0001832210951721074, 'epoch': 0.2}
{'loss': 1.1847, 'learning_rate': 0.00018310240965131041, 'epoch': 0.2}
{'loss': 1.0949, 'learning_rate': 0.00018298334457218318, 'epoch': 0.2}
{'loss': 1.0994, 'learning_rate': 0.00018286390047853835, 'epoch': 0.2}
{'loss': 1.0974, 'learning_rate': 0.00018274407791591966, 'epoch': 0.2}
{'loss': 1.0942, 'learning_rate': 0.0001826238774315995, 'epoch': 0.2}
{'loss': 1.0722, 'learning_rate': 0.0001825032995745763, 'epoch': 0.2}
{'loss': 1.2205, 'learning_rate': 0.00018238234489557215, 'epoch': 0.2}
{'loss': 1.1576, 'learning_rate': 0.0001822610139470302, 'epoch': 0.2}
{'loss': 1.078, 'learning_rate': 0.0001821393072831121, 'epoch': 0.2}
{'loss': 1.1328, 'learning_rate': 0.0001820172254596956, 'epoch': 0.2}
{'loss': 1.0857, 'learning_rate': 0.00018189476903437187, 'epoch': 0.21}
{'loss': 1.0747, 'learning_rate': 0.00018177193856644316, 'epoch': 0.21}
{'loss': 1.1153, 'learning_rate': 0.00018164873461691986, 'epoch': 0.21}
{'loss': 1.1274, 'learning_rate': 0.00018152515774851847, 'epoch': 0.21}
{'loss': 1.2185, 'learning_rate': 0.0001814012085256585, 'epoch': 0.21}
{'loss': 0.9999, 'learning_rate': 0.00018127688751446027, 'epoch': 0.21}
{'loss': 1.1303, 'learning_rate': 0.0001811521952827422, 'epoch': 0.21}
{'loss': 1.1775, 'learning_rate': 0.0001810271324000181, 'epoch': 0.21}
{'loss': 1.1474, 'learning_rate': 0.00018090169943749476, 'epoch': 0.21}
{'loss': 1.0884, 'learning_rate': 0.00018077589696806925, 'epoch': 0.21}
{'loss': 1.1056, 'learning_rate': 0.0001806497255663263, 'epoch': 0.21}
{'loss': 1.0403, 'learning_rate': 0.0001805231858085356, 'epoch': 0.21}
{'loss': 1.0193, 'learning_rate': 0.0001803962782726495, 'epoch': 0.21}
{'loss': 0.934, 'learning_rate': 0.0001802690035382998, 'epoch': 0.21}
{'loss': 1.1498, 'learning_rate': 0.00018014136218679567, 'epoch': 0.21}
{'loss': 1.022, 'learning_rate': 0.00018001335480112064, 'epoch': 0.22}
{'loss': 0.9944, 'learning_rate': 0.00017988498196593007, 'epoch': 0.22}
{'loss': 1.0796, 'learning_rate': 0.00017975624426754848, 'epoch': 0.22}
{'loss': 1.1117, 'learning_rate': 0.00017962714229396678, 'epoch': 0.22}
{'loss': 1.1473, 'learning_rate': 0.00017949767663483977, 'epoch': 0.22}
{'loss': 1.1421, 'learning_rate': 0.00017936784788148328, 'epoch': 0.22}
{'loss': 1.0643, 'learning_rate': 0.00017923765662687142, 'epoch': 0.22}
{'loss': 1.0059, 'learning_rate': 0.00017910710346563416, 'epoch': 0.22}
{'loss': 1.094, 'learning_rate': 0.00017897618899405423, 'epoch': 0.22}
{'loss': 1.2104, 'learning_rate': 0.00017884491381006478, 'epoch': 0.22}
{'loss': 1.2264, 'learning_rate': 0.00017871327851324634, 'epoch': 0.22}
{'loss': 1.1068, 'learning_rate': 0.00017858128370482426, 'epoch': 0.22}
{'loss': 1.1767, 'learning_rate': 0.0001784489299876658, 'epoch': 0.22}
{'loss': 0.9937, 'learning_rate': 0.0001783162179662777, 'epoch': 0.22}
{'loss': 1.1249, 'learning_rate': 0.000178183148246803, 'epoch': 0.22}
{'loss': 1.0837, 'learning_rate': 0.00017804972143701853, 'epoch': 0.23}
{'loss': 1.0591, 'learning_rate': 0.00017791593814633214, 'epoch': 0.23}
{'loss': 1.0271, 'learning_rate': 0.00017778179898577973, 'epoch': 0.23}
{'loss': 1.1217, 'learning_rate': 0.00017764730456802278, 'epoch': 0.23}
{'loss': 1.1248, 'learning_rate': 0.0001775124555073452, 'epoch': 0.23}
{'loss': 1.0248, 'learning_rate': 0.00017737725241965069, 'epoch': 0.23}
{'loss': 1.0633, 'learning_rate': 0.00017724169592245995, 'epoch': 0.23}
{'loss': 1.0686, 'learning_rate': 0.0001771057866349079, 'epoch': 0.23}
{'loss': 1.0321, 'learning_rate': 0.00017696952517774062, 'epoch': 0.23}
{'loss': 1.2815, 'learning_rate': 0.0001768329121733128, 'epoch': 0.23}
{'loss': 1.0551, 'learning_rate': 0.00017669594824558474, 'epoch': 0.23}
{'loss': 1.1591, 'learning_rate': 0.00017655863402011947, 'epoch': 0.23}
{'loss': 1.0077, 'learning_rate': 0.00017642097012408013, 'epoch': 0.23}
{'loss': 1.1754, 'learning_rate': 0.00017628295718622665, 'epoch': 0.23}
{'loss': 0.9827, 'learning_rate': 0.00017614459583691346, 'epoch': 0.23}
{'loss': 1.1723, 'learning_rate': 0.0001760058867080861, 'epoch': 0.24}
{'loss': 1.2122, 'learning_rate': 0.0001758668304332786, 'epoch': 0.24}
{'loss': 1.118, 'learning_rate': 0.00017572742764761055, 'epoch': 0.24}
{'loss': 1.0316, 'learning_rate': 0.00017558767898778418, 'epoch': 0.24}
{'loss': 1.0868, 'learning_rate': 0.00017544758509208146, 'epoch': 0.24}
{'loss': 1.2878, 'learning_rate': 0.00017530714660036112, 'epoch': 0.24}
{'loss': 1.0189, 'learning_rate': 0.0001751663641540558, 'epoch': 0.24}
{'loss': 1.0119, 'learning_rate': 0.00017502523839616916, 'epoch': 0.24}
{'loss': 1.0907, 'learning_rate': 0.00017488376997127283, 'epoch': 0.24}
{'loss': 1.0386, 'learning_rate': 0.00017474195952550355, 'epoch': 0.24}
{'loss': 1.0658, 'learning_rate': 0.00017459980770656016, 'epoch': 0.24}
{'loss': 1.0672, 'learning_rate': 0.0001744573151637007, 'epoch': 0.24}
{'loss': 1.0158, 'learning_rate': 0.00017431448254773944, 'epoch': 0.24}
{'loss': 1.1225, 'learning_rate': 0.0001741713105110438, 'epoch': 0.24}
{'loss': 1.0321, 'learning_rate': 0.00017402779970753155, 'epoch': 0.24}
{'loss': 1.1508, 'learning_rate': 0.00017388395079266772, 'epoch': 0.25}
{'loss': 1.103, 'learning_rate': 0.0001737397644234615, 'epoch': 0.25}
{'loss': 1.0693, 'learning_rate': 0.0001735952412584635, 'epoch': 0.25}
{'loss': 1.1386, 'learning_rate': 0.00017345038195776253, 'epoch': 0.25}
{'loss': 1.1303, 'learning_rate': 0.00017330518718298264, 'epoch': 0.25}
{'loss': 1.134, 'learning_rate': 0.00017315965759728014, 'epoch': 0.25}
{'loss': 1.1553, 'learning_rate': 0.00017301379386534054, 'epoch': 0.25}
{'loss': 1.0537, 'learning_rate': 0.0001728675966533755, 'epoch': 0.25}
25%|█████████▌ | 373/1490 [26:25<1:17:08, 4.14s/it][2024-01-01 08:59:39,715] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
[2024-01-01 08:59:39,894] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
[2024-01-01 08:59:39,894] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
0%| | 0/208 [00:00<?, ?it/s][2024-01-01 08:59:40,062] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
1%|▍ | 2/208 [00:00<00:17, 11.94it/s][2024-01-01 08:59:40,232] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
[2024-01-01 08:59:40,400] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
2%|▊ | 4/208 [00:00<00:27, 7.47it/s][2024-01-01 08:59:40,568] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
2%|█ | 5/208 [00:00<00:29, 6.95it/s][2024-01-01 08:59:40,735] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
3%|█▏ | 6/208 [00:00<00:30, 6.63it/s][2024-01-01 08:59:40,905] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
3%|█▍ | 7/208 [00:01<00:31, 6.39it/s][2024-01-01 08:59:41,066] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
4%|█▋ | 8/208 [00:01<00:31, 6.33it/s][2024-01-01 08:59:41,233] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
4%|█▊ | 9/208 [00:01<00:31, 6.23it/s][2024-01-01 08:59:41,402] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
5%|██ | 10/208 [00:01<00:32, 6.13it/s][2024-01-01 08:59:41,571] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
5%|██▏ | 11/208 [00:01<00:32, 6.06it/s][2024-01-01 08:59:41,738] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
6%|██▍ | 12/208 [00:01<00:32, 6.04it/s][2024-01-01 08:59:41,905] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
6%|██▋ | 13/208 [00:02<00:32, 6.03it/s][2024-01-01 08:59:42,067] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
7%|██▊ | 14/208 [00:02<00:31, 6.07it/s][2024-01-01 08:59:42,234] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
7%|███ | 15/208 [00:02<00:31, 6.04it/s][2024-01-01 08:59:42,401] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
8%|███▏ | 16/208 [00:02<00:31, 6.03it/s][2024-01-01 08:59:42,574] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
8%|███▍ | 17/208 [00:02<00:32, 5.96it/s][2024-01-01 08:59:42,744] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
9%|███▋ | 18/208 [00:02<00:32, 5.93it/s][2024-01-01 08:59:42,912] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
9%|███▊ | 19/208 [00:03<00:31, 5.94it/s][2024-01-01 08:59:43,082] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
10%|████ | 20/208 [00:03<00:31, 5.92it/s][2024-01-01 08:59:43,252] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
10%|████▏ | 21/208 [00:03<00:31, 5.91it/s][2024-01-01 08:59:43,422] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
11%|████▍ | 22/208 [00:03<00:31, 5.91it/s][2024-01-01 08:59:43,590] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
11%|████▋ | 23/208 [00:03<00:31, 5.91it/s][2024-01-01 08:59:43,759] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
12%|████▊ | 24/208 [00:03<00:31, 5.92it/s][2024-01-01 08:59:43,925] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
12%|█████ | 25/208 [00:04<00:30, 5.95it/s][2024-01-01 08:59:44,087] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
12%|█████▎ | 26/208 [00:04<00:30, 6.02it/s][2024-01-01 08:59:44,258] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
13%|█████▍ | 27/208 [00:04<00:30, 5.96it/s][2024-01-01 08:59:44,425] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
13%|█████▋ | 28/208 [00:04<00:30, 5.97it/s][2024-01-01 08:59:44,590] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
14%|█████▊ | 29/208 [00:04<00:29, 6.00it/s][2024-01-01 08:59:44,759] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
14%|██████ | 30/208 [00:04<00:29, 5.97it/s][2024-01-01 08:59:44,928] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
15%|██████▎ | 31/208 [00:05<00:29, 5.95it/s][2024-01-01 08:59:45,098] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
15%|██████▍ | 32/208 [00:05<00:29, 5.94it/s][2024-01-01 08:59:45,266] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
16%|██████▋ | 33/208 [00:05<00:29, 5.94it/s][2024-01-01 08:59:45,435] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
16%|██████▊ | 34/208 [00:05<00:29, 5.93it/s][2024-01-01 08:59:45,602] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
17%|███████ | 35/208 [00:05<00:29, 5.95it/s][2024-01-01 08:59:45,769] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
17%|███████▎ | 36/208 [00:05<00:28, 5.96it/s][2024-01-01 08:59:45,938] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
18%|███████▍ | 37/208 [00:06<00:28, 5.95it/s][2024-01-01 08:59:46,105] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
18%|███████▋ | 38/208 [00:06<00:28, 5.96it/s][2024-01-01 08:59:46,270] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
19%|███████▉ | 39/208 [00:06<00:28, 5.99it/s][2024-01-01 08:59:46,438] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
19%|████████ | 40/208 [00:06<00:28, 5.98it/s][2024-01-01 08:59:46,614] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
20%|████████▎ | 41/208 [00:06<00:28, 5.89it/s][2024-01-01 08:59:46,784] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
20%|████████▍ | 42/208 [00:06<00:28, 5.88it/s][2024-01-01 08:59:46,954] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
21%|████████▋ | 43/208 [00:07<00:28, 5.89it/s][2024-01-01 08:59:47,124] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
21%|████████▉ | 44/208 [00:07<00:27, 5.88it/s][2024-01-01 08:59:47,296] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
22%|█████████ | 45/208 [00:07<00:27, 5.87it/s][2024-01-01 08:59:47,464] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
22%|█████████▎ | 46/208 [00:07<00:27, 5.89it/s][2024-01-01 08:59:47,632] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
23%|█████████▍ | 47/208 [00:07<00:27, 5.91it/s][2024-01-01 08:59:47,796] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
23%|█████████▋ | 48/208 [00:07<00:26, 5.97it/s][2024-01-01 08:59:47,963] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
24%|█████████▉ | 49/208 [00:08<00:26, 5.98it/s][2024-01-01 08:59:48,133] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
24%|██████████ | 50/208 [00:08<00:26, 5.94it/s][2024-01-01 08:59:48,298] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
25%|██████████▎ | 51/208 [00:08<00:26, 5.98it/s][2024-01-01 08:59:48,466] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
25%|██████████▌ | 52/208 [00:08<00:26, 5.97it/s][2024-01-01 08:59:48,633] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
25%|██████████▋ | 53/208 [00:08<00:25, 5.98it/s][2024-01-01 08:59:48,797] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
26%|██████████▉ | 54/208 [00:08<00:25, 6.02it/s][2024-01-01 08:59:48,965] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
26%|███████████ | 55/208 [00:09<00:25, 6.00it/s][2024-01-01 08:59:49,132] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
27%|███████████▎ | 56/208 [00:09<00:25, 5.99it/s][2024-01-01 08:59:49,304] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
27%|███████████▌ | 57/208 [00:09<00:25, 5.94it/s][2024-01-01 08:59:49,475] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
28%|███████████▋ | 58/208 [00:09<00:25, 5.91it/s][2024-01-01 08:59:49,643] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
28%|███████████▉ | 59/208 [00:09<00:25, 5.92it/s][2024-01-01 08:59:49,817] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
29%|████████████ | 60/208 [00:09<00:25, 5.87it/s][2024-01-01 08:59:49,989] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
29%|████████████▎ | 61/208 [00:10<00:25, 5.86it/s][2024-01-01 08:59:50,156] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
30%|████████████▌ | 62/208 [00:10<00:24, 5.90it/s][2024-01-01 08:59:50,324] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
30%|████████████▋ | 63/208 [00:10<00:24, 5.91it/s][2024-01-01 08:59:50,488] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
31%|████████████▉ | 64/208 [00:10<00:24, 5.97it/s][2024-01-01 08:59:50,655] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
31%|█████████████▏ | 65/208 [00:10<00:23, 5.97it/s][2024-01-01 08:59:50,822] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
32%|█████████████▎ | 66/208 [00:10<00:23, 5.98it/s][2024-01-01 08:59:50,991] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
32%|█████████████▌ | 67/208 [00:11<00:23, 5.96it/s][2024-01-01 08:59:51,157] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
33%|█████████████▋ | 68/208 [00:11<00:23, 5.98it/s][2024-01-01 08:59:51,330] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
33%|█████████████▉ | 69/208 [00:11<00:23, 5.92it/s][2024-01-01 08:59:51,500] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
34%|██████████████▏ | 70/208 [00:11<00:23, 5.91it/s][2024-01-01 08:59:51,667] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
34%|██████████████▎ | 71/208 [00:11<00:23, 5.93it/s][2024-01-01 08:59:51,836] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
35%|██████████████▌ | 72/208 [00:11<00:22, 5.93it/s][2024-01-01 08:59:52,002] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
35%|██████████████▋ | 73/208 [00:12<00:22, 5.95it/s][2024-01-01 08:59:52,168] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
36%|██████████████▉ | 74/208 [00:12<00:22, 5.97it/s][2024-01-01 08:59:52,338] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
36%|███████████████▏ | 75/208 [00:12<00:22, 5.95it/s][2024-01-01 08:59:52,505] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
37%|███████████████▎ | 76/208 [00:12<00:22, 5.95it/s][2024-01-01 08:59:52,670] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
37%|███████████████▌ | 77/208 [00:12<00:21, 5.99it/s][2024-01-01 08:59:52,837] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
38%|███████████████▊ | 78/208 [00:12<00:21, 5.99it/s][2024-01-01 08:59:53,009] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
38%|███████████████▉ | 79/208 [00:13<00:21, 5.94it/s][2024-01-01 08:59:53,179] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
38%|████████████████▏ | 80/208 [00:13<00:21, 5.92it/s][2024-01-01 08:59:53,345] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
39%|████████████████▎ | 81/208 [00:13<00:21, 5.94it/s][2024-01-01 08:59:53,514] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
39%|████████████████▌ | 82/208 [00:13<00:21, 5.94it/s][2024-01-01 08:59:53,681] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
40%|████████████████▊ | 83/208 [00:13<00:20, 5.95it/s][2024-01-01 08:59:53,850] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
40%|████████████████▉ | 84/208 [00:13<00:20, 5.94it/s][2024-01-01 08:59:54,020] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
41%|█████████████████▏ | 85/208 [00:14<00:20, 5.92it/s][2024-01-01 08:59:54,187] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
41%|█████████████████▎ | 86/208 [00:14<00:20, 5.94it/s][2024-01-01 08:59:54,357] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
42%|█████████████████▌ | 87/208 [00:14<00:20, 5.93it/s][2024-01-01 08:59:54,526] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
42%|█████████████████▊ | 88/208 [00:14<00:20, 5.93it/s][2024-01-01 08:59:54,696] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
43%|█████████████████▉ | 89/208 [00:14<00:20, 5.90it/s][2024-01-01 08:59:54,857] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
43%|██████████████████▏ | 90/208 [00:14<00:19, 5.99it/s][2024-01-01 08:59:55,025] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
44%|██████████████████▍ | 91/208 [00:15<00:19, 5.99it/s][2024-01-01 08:59:55,193] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
44%|██████████████████▌ | 92/208 [00:15<00:19, 5.97it/s][2024-01-01 08:59:55,362] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
45%|██████████████████▊ | 93/208 [00:15<00:19, 5.96it/s][2024-01-01 08:59:55,529] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
45%|██████████████████▉ | 94/208 [00:15<00:19, 5.97it/s][2024-01-01 08:59:55,698] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
46%|███████████████████▏ | 95/208 [00:15<00:18, 5.95it/s][2024-01-01 08:59:55,868] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
46%|███████████████████▍ | 96/208 [00:15<00:18, 5.93it/s][2024-01-01 08:59:56,039] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
47%|███████████████████▌ | 97/208 [00:16<00:18, 5.90it/s][2024-01-01 08:59:56,215] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
47%|███████████████████▊ | 98/208 [00:16<00:18, 5.84it/s][2024-01-01 08:59:56,387] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
48%|███████████████████▉ | 99/208 [00:16<00:18, 5.83it/s][2024-01-01 08:59:56,557] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
48%|███████████████████▋ | 100/208 [00:16<00:18, 5.85it/s][2024-01-01 08:59:56,724] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
49%|███████████████████▉ | 101/208 [00:16<00:18, 5.88it/s][2024-01-01 08:59:56,895] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
49%|████████████████████ | 102/208 [00:17<00:18, 5.88it/s][2024-01-01 08:59:57,061] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
50%|████████████████████▎ | 103/208 [00:17<00:17, 5.92it/s][2024-01-01 08:59:57,231] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
50%|████████████████████▌ | 104/208 [00:17<00:17, 5.90it/s][2024-01-01 08:59:57,396] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
50%|████████████████████▋ | 105/208 [00:17<00:17, 5.96it/s][2024-01-01 08:59:57,567] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
51%|████████████████████▉ | 106/208 [00:17<00:17, 5.93it/s][2024-01-01 08:59:57,738] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
51%|█████████████████████ | 107/208 [00:17<00:17, 5.90it/s][2024-01-01 08:59:57,910] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
52%|█████████████████████▎ | 108/208 [00:18<00:17, 5.87it/s][2024-01-01 08:59:58,080] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
52%|█████████████████████▍ | 109/208 [00:18<00:16, 5.87it/s][2024-01-01 08:59:58,246] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
53%|█████████████████████▋ | 110/208 [00:18<00:16, 5.92it/s][2024-01-01 08:59:58,409] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
53%|█████████████████████▉ | 111/208 [00:18<00:16, 5.99it/s][2024-01-01 08:59:58,577] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
54%|██████████████████████ | 112/208 [00:18<00:16, 5.98it/s][2024-01-01 08:59:58,747] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
54%|██████████████████████▎ | 113/208 [00:18<00:15, 5.95it/s][2024-01-01 08:59:58,916] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
55%|██████████████████████▍ | 114/208 [00:19<00:15, 5.94it/s][2024-01-01 08:59:59,083] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
55%|██████████████████████▋ | 115/208 [00:19<00:15, 5.95it/s][2024-01-01 08:59:59,253] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
56%|██████████████████████▊ | 116/208 [00:19<00:15, 5.93it/s][2024-01-01 08:59:59,414] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
56%|███████████████████████ | 117/208 [00:19<00:15, 6.01it/s][2024-01-01 08:59:59,581] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
57%|███████████████████████▎ | 118/208 [00:19<00:15, 6.00it/s][2024-01-01 08:59:59,752] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
57%|███████████████████████▍ | 119/208 [00:19<00:14, 5.96it/s][2024-01-01 08:59:59,921] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
58%|███████████████████████▋ | 120/208 [00:20<00:14, 5.94it/s][2024-01-01 09:00:00,086] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
58%|███████████████████████▊ | 121/208 [00:20<00:14, 5.98it/s][2024-01-01 09:00:00,253] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
59%|████████████████████████ | 122/208 [00:20<00:14, 5.98it/s][2024-01-01 09:00:00,422] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
59%|████████████████████████▏ | 123/208 [00:20<00:14, 5.97it/s][2024-01-01 09:00:00,589] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
60%|████████████████████████▍ | 124/208 [00:20<00:14, 5.97it/s][2024-01-01 09:00:00,756] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
60%|████████████████████████▋ | 125/208 [00:20<00:13, 5.97it/s][2024-01-01 09:00:00,923] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
61%|████████████████████████▊ | 126/208 [00:21<00:13, 5.97it/s][2024-01-01 09:00:01,091] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
61%|█████████████████████████ | 127/208 [00:21<00:13, 5.98it/s][2024-01-01 09:00:01,258] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
62%|█████████████████████████▏ | 128/208 [00:21<00:13, 5.98it/s][2024-01-01 09:00:01,425] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
62%|█████████████████████████▍ | 129/208 [00:21<00:13, 5.98it/s][2024-01-01 09:00:01,592] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
62%|█████████████████████████▋ | 130/208 [00:21<00:13, 5.98it/s][2024-01-01 09:00:01,763] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
63%|█████████████████████████▊ | 131/208 [00:21<00:12, 5.94it/s][2024-01-01 09:00:01,931] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
63%|██████████████████████████ | 132/208 [00:22<00:12, 5.94it/s][2024-01-01 09:00:02,098] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
64%|██████████████████████████▏ | 133/208 [00:22<00:12, 5.96it/s][2024-01-01 09:00:02,263] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
64%|██████████████████████████▍ | 134/208 [00:22<00:12, 5.99it/s][2024-01-01 09:00:02,433] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
65%|██████████████████████████▌ | 135/208 [00:22<00:12, 5.96it/s][2024-01-01 09:00:02,600] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
65%|██████████████████████████▊ | 136/208 [00:22<00:12, 5.96it/s][2024-01-01 09:00:02,770] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
66%|███████████████████████████ | 137/208 [00:22<00:11, 5.94it/s][2024-01-01 09:00:02,935] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
66%|███████████████████████████▏ | 138/208 [00:23<00:11, 5.98it/s][2024-01-01 09:00:03,099] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
67%|███████████████████████████▍ | 139/208 [00:23<00:11, 6.01it/s][2024-01-01 09:00:03,264] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
67%|███████████████████████████▌ | 140/208 [00:23<00:11, 6.03it/s][2024-01-01 09:00:03,430] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
68%|███████████████████████████▊ | 141/208 [00:23<00:11, 6.02it/s][2024-01-01 09:00:03,600] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
68%|███████████████████████████▉ | 142/208 [00:23<00:11, 5.98it/s][2024-01-01 09:00:03,771] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
69%|████████████████████████████▏ | 143/208 [00:23<00:10, 5.94it/s][2024-01-01 09:00:03,943] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
69%|████████████████████████████▍ | 144/208 [00:24<00:10, 5.91it/s][2024-01-01 09:00:04,112] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
70%|████████████████████████████▌ | 145/208 [00:24<00:10, 5.91it/s][2024-01-01 09:00:04,280] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
70%|████████████████████████████▊ | 146/208 [00:24<00:10, 5.92it/s][2024-01-01 09:00:04,451] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
71%|████████████████████████████▉ | 147/208 [00:24<00:10, 5.90it/s][2024-01-01 09:00:04,618] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
71%|█████████████████████████████▏ | 148/208 [00:24<00:10, 5.92it/s][2024-01-01 09:00:04,789] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
72%|█████████████████████████████▎ | 149/208 [00:24<00:09, 5.90it/s][2024-01-01 09:00:04,958] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
72%|█████████████████████████████▌ | 150/208 [00:25<00:09, 5.90it/s][2024-01-01 09:00:05,129] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
73%|█████████████████████████████▊ | 151/208 [00:25<00:09, 5.89it/s][2024-01-01 09:00:05,298] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
73%|█████████████████████████████▉ | 152/208 [00:25<00:09, 5.90it/s][2024-01-01 09:00:05,464] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
74%|██████████████████████████████▏ | 153/208 [00:25<00:09, 5.93it/s][2024-01-01 09:00:05,634] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
74%|██████████████████████████████▎ | 154/208 [00:25<00:09, 5.92it/s][2024-01-01 09:00:05,803] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
75%|██████████████████████████████▌ | 155/208 [00:25<00:08, 5.92it/s][2024-01-01 09:00:05,972] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
75%|██████████████████████████████▊ | 156/208 [00:26<00:08, 5.92it/s][2024-01-01 09:00:06,136] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
75%|██████████████████████████████▉ | 157/208 [00:26<00:08, 5.97it/s][2024-01-01 09:00:06,301] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
76%|███████████████████████████████▏ | 158/208 [00:26<00:08, 5.99it/s][2024-01-01 09:00:06,470] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
76%|███████████████████████████████▎ | 159/208 [00:26<00:08, 5.97it/s][2024-01-01 09:00:06,640] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
77%|███████████████████████████████▌ | 160/208 [00:26<00:08, 5.95it/s][2024-01-01 09:00:06,808] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
77%|███████████████████████████████▋ | 161/208 [00:26<00:07, 5.95it/s][2024-01-01 09:00:06,974] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
78%|███████████████████████████████▉ | 162/208 [00:27<00:07, 5.97it/s][2024-01-01 09:00:07,143] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
78%|████████████████████████████████▏ | 163/208 [00:27<00:07, 5.95it/s][2024-01-01 09:00:07,314] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
79%|████████████████████████████████▎ | 164/208 [00:27<00:07, 5.93it/s][2024-01-01 09:00:07,485] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
79%|████████████████████████████████▌ | 165/208 [00:27<00:07, 5.90it/s][2024-01-01 09:00:07,655] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
80%|████████████████████████████████▋ | 166/208 [00:27<00:07, 5.90it/s][2024-01-01 09:00:07,824] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
80%|████████████████████████████████▉ | 167/208 [00:27<00:06, 5.90it/s][2024-01-01 09:00:07,989] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
81%|█████████████████████████████████ | 168/208 [00:28<00:06, 5.94it/s][2024-01-01 09:00:08,160] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
81%|█████████████████████████████████▎ | 169/208 [00:28<00:06, 5.92it/s][2024-01-01 09:00:08,330] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
82%|█████████████████████████████████▌ | 170/208 [00:28<00:06, 5.91it/s][2024-01-01 09:00:08,500] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
82%|█████████████████████████████████▋ | 171/208 [00:28<00:06, 5.89it/s][2024-01-01 09:00:08,669] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
83%|█████████████████████████████████▉ | 172/208 [00:28<00:06, 5.91it/s][2024-01-01 09:00:08,837] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
83%|██████████████████████████████████ | 173/208 [00:28<00:05, 5.92it/s][2024-01-01 09:00:09,003] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
84%|██████████████████████████████████▎ | 174/208 [00:29<00:05, 5.95it/s][2024-01-01 09:00:09,170] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
84%|██████████████████████████████████▍ | 175/208 [00:29<00:05, 5.96it/s][2024-01-01 09:00:09,339] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
85%|██████████████████████████████████▋ | 176/208 [00:29<00:05, 5.94it/s][2024-01-01 09:00:09,507] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
85%|██████████████████████████████████▉ | 177/208 [00:29<00:05, 5.95it/s][2024-01-01 09:00:09,675] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
86%|███████████████████████████████████ | 178/208 [00:29<00:05, 5.95it/s][2024-01-01 09:00:09,841] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
86%|███████████████████████████████████▎ | 179/208 [00:29<00:04, 5.97it/s][2024-01-01 09:00:10,010] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
87%|███████████████████████████████████▍ | 180/208 [00:30<00:04, 5.96it/s][2024-01-01 09:00:10,180] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
87%|███████████████████████████████████▋ | 181/208 [00:30<00:04, 5.93it/s][2024-01-01 09:00:10,348] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
88%|███████████████████████████████████▉ | 182/208 [00:30<00:04, 5.94it/s][2024-01-01 09:00:10,518] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
88%|████████████████████████████████████ | 183/208 [00:30<00:04, 5.92it/s][2024-01-01 09:00:10,687] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
88%|████████████████████████████████████▎ | 184/208 [00:30<00:04, 5.92it/s][2024-01-01 09:00:10,859] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
89%|████████████████████████████████████▍ | 185/208 [00:30<00:03, 5.89it/s][2024-01-01 09:00:11,030] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
89%|████████████████████████████████████▋ | 186/208 [00:31<00:03, 5.87it/s][2024-01-01 09:00:11,201] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
90%|████████████████████████████████████▊ | 187/208 [00:31<00:03, 5.87it/s][2024-01-01 09:00:11,372] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
90%|█████████████████████████████████████ | 188/208 [00:31<00:03, 5.87it/s][2024-01-01 09:00:11,544] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
91%|█████████████████████████████████████▎ | 189/208 [00:31<00:03, 5.85it/s][2024-01-01 09:00:11,712] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
91%|█████████████████████████████████████▍ | 190/208 [00:31<00:03, 5.87it/s][2024-01-01 09:00:11,880] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
92%|█████████████████████████████████████▋ | 191/208 [00:31<00:02, 5.90it/s][2024-01-01 09:00:12,053] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
92%|█████████████████████████████████████▊ | 192/208 [00:32<00:02, 5.86it/s][2024-01-01 09:00:12,225] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
93%|██████████████████████████████████████ | 193/208 [00:32<00:02, 5.85it/s][2024-01-01 09:00:12,398] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
93%|██████████████████████████████████████▏ | 194/208 [00:32<00:02, 5.83it/s][2024-01-01 09:00:12,563] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
94%|██████████████████████████████████████▍ | 195/208 [00:32<00:02, 5.90it/s][2024-01-01 09:00:12,733] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
94%|██████████████████████████████████████▋ | 196/208 [00:32<00:02, 5.90it/s][2024-01-01 09:00:12,904] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
95%|██████████████████████████████████████▊ | 197/208 [00:33<00:01, 5.88it/s][2024-01-01 09:00:13,076] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
95%|███████████████████████████████████████ | 198/208 [00:33<00:01, 5.86it/s][2024-01-01 09:00:13,250] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
96%|███████████████████████████████████████▏ | 199/208 [00:33<00:01, 5.82it/s][2024-01-01 09:00:13,425] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
96%|███████████████████████████████████████▍ | 200/208 [00:33<00:01, 5.79it/s][2024-01-01 09:00:13,596] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
97%|███████████████████████████████████████▌ | 201/208 [00:33<00:01, 5.81it/s][2024-01-01 09:00:13,768] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
97%|███████████████████████████████████████▊ | 202/208 [00:33<00:01, 5.81it/s][2024-01-01 09:00:13,939] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
98%|████████████████████████████████████████ | 203/208 [00:34<00:00, 5.82it/s][2024-01-01 09:00:14,117] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
98%|████████████████████████████████████████▏| 204/208 [00:34<00:00, 5.75it/s][2024-01-01 09:00:14,286] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
{'eval_loss': 1.0763916969299316, 'eval_runtime': 34.5726, 'eval_samples_per_second': 31.586, 'eval_steps_per_second': 31.586, 'epoch': 0.25}
25%|█████████▌ | 373/1490 [27:00<1:17:08, 4.14s/it]
99%|████████████████████████████████████████▍| 205/208 [00:34<00:00, 5.81it/s]
{'loss': 1.2005, 'learning_rate': 0.00017272106662911973, 'epoch': 0.25}
{'loss': 1.1717, 'learning_rate': 0.0001725742044618282, 'epoch': 0.25}
{'loss': 1.1247, 'learning_rate': 0.00017242701082227275, 'epoch': 0.25}
{'loss': 0.9751, 'learning_rate': 0.00017227948638273916, 'epoch': 0.25}
{'loss': 1.1347, 'learning_rate': 0.0001721316318170242, 'epoch': 0.25}
{'loss': 1.1068, 'learning_rate': 0.0001719834478004323, 'epoch': 0.25}
{'loss': 1.1302, 'learning_rate': 0.00017183493500977278, 'epoch': 0.25}
{'loss': 1.2076, 'learning_rate': 0.0001716860941233564, 'epoch': 0.26}
{'loss': 1.0354, 'learning_rate': 0.00017153692582099267, 'epoch': 0.26}
{'loss': 1.0022, 'learning_rate': 0.0001713874307839863, 'epoch': 0.26}
{'loss': 1.0605, 'learning_rate': 0.0001712376096951345, 'epoch': 0.26}
{'loss': 1.0355, 'learning_rate': 0.0001710874632387235, 'epoch': 0.26}
{'loss': 1.112, 'learning_rate': 0.0001709369921005258, 'epoch': 0.26}
{'loss': 1.0391, 'learning_rate': 0.00017078619696779662, 'epoch': 0.26}
{'loss': 1.0936, 'learning_rate': 0.00017063507852927115, 'epoch': 0.26}
{'loss': 1.0937, 'learning_rate': 0.00017048363747516117, 'epoch': 0.26}
{'loss': 1.0444, 'learning_rate': 0.00017033187449715196, 'epoch': 0.26}
{'loss': 1.0244, 'learning_rate': 0.00017017979028839916, 'epoch': 0.26}
{'loss': 1.1904, 'learning_rate': 0.00017002738554352552, 'epoch': 0.26}
{'loss': 1.118, 'learning_rate': 0.00016987466095861784, 'epoch': 0.26}
{'loss': 1.1234, 'learning_rate': 0.00016972161723122382, 'epoch': 0.26}
{'loss': 1.1674, 'learning_rate': 0.00016956825506034867, 'epoch': 0.26}
{'loss': 1.1762, 'learning_rate': 0.00016941457514645206, 'epoch': 0.27}
{'loss': 1.0384, 'learning_rate': 0.00016926057819144501, 'epoch': 0.27}
{'loss': 1.1293, 'learning_rate': 0.00016910626489868649, 'epoch': 0.27}
{'loss': 1.0388, 'learning_rate': 0.00016895163597298028, 'epoch': 0.27}
{'loss': 1.0822, 'learning_rate': 0.00016879669212057187, 'epoch': 0.27}
{'loss': 0.9671, 'learning_rate': 0.00016864143404914504, 'epoch': 0.27}
{'loss': 0.9864, 'learning_rate': 0.00016848586246781877, 'epoch': 0.27}
{'loss': 1.1125, 'learning_rate': 0.0001683299780871439, 'epoch': 0.27}
{'loss': 1.0582, 'learning_rate': 0.00016817378161909996, 'epoch': 0.27}
{'loss': 1.0563, 'learning_rate': 0.00016801727377709194, 'epoch': 0.27}
{'loss': 1.1305, 'learning_rate': 0.00016786045527594694, 'epoch': 0.27}
{'loss': 1.2321, 'learning_rate': 0.00016770332683191096, 'epoch': 0.27}
{'loss': 1.1574, 'learning_rate': 0.00016754588916264562, 'epoch': 0.27}
{'loss': 1.0493, 'learning_rate': 0.00016738814298722482, 'epoch': 0.27}
{'loss': 1.1308, 'learning_rate': 0.0001672300890261317, 'epoch': 0.28}
{'loss': 0.8837, 'learning_rate': 0.00016707172800125496, 'epoch': 0.28}
{'loss': 1.2254, 'learning_rate': 0.00016691306063588583, 'epoch': 0.28}
{'loss': 1.0363, 'learning_rate': 0.0001667540876547148, 'epoch': 0.28}
{'loss': 1.0949, 'learning_rate': 0.00016659480978382813, 'epoch': 0.28}
{'loss': 1.1589, 'learning_rate': 0.00016643522775070462, 'epoch': 0.28}
{'loss': 1.1741, 'learning_rate': 0.0001662753422842123, 'epoch': 0.28}
{'loss': 1.2061, 'learning_rate': 0.00016611515411460516, 'epoch': 0.28}
{'loss': 1.0599, 'learning_rate': 0.00016595466397351956, 'epoch': 0.28}
{'loss': 1.0501, 'learning_rate': 0.00016579387259397127, 'epoch': 0.28}
{'loss': 1.061, 'learning_rate': 0.0001656327807103518, 'epoch': 0.28}
{'loss': 1.1227, 'learning_rate': 0.00016547138905842528, 'epoch': 0.28}
{'loss': 1.1453, 'learning_rate': 0.00016530969837532487, 'epoch': 0.28}
{'loss': 1.0593, 'learning_rate': 0.00016514770939954956, 'epoch': 0.28}
{'loss': 1.1795, 'learning_rate': 0.00016498542287096072, 'epoch': 0.28}
{'loss': 1.1694, 'learning_rate': 0.00016482283953077887, 'epoch': 0.29}
{'loss': 1.1595, 'learning_rate': 0.00016465996012157995, 'epoch': 0.29}
{'loss': 1.178, 'learning_rate': 0.00016449678538729242, 'epoch': 0.29}
{'loss': 1.1431, 'learning_rate': 0.00016433331607319343, 'epoch': 0.29}
{'loss': 0.9964, 'learning_rate': 0.00016416955292590553, 'epoch': 0.29}
{'loss': 0.9006, 'learning_rate': 0.0001640054966933935, 'epoch': 0.29}
{'loss': 1.1155, 'learning_rate': 0.00016384114812496056, 'epoch': 0.29}
{'loss': 1.1434, 'learning_rate': 0.00016367650797124528, 'epoch': 0.29}
{'loss': 1.0959, 'learning_rate': 0.0001635115769842179, 'epoch': 0.29}
{'loss': 1.0387, 'learning_rate': 0.00016334635591717703, 'epoch': 0.29}
{'loss': 1.1455, 'learning_rate': 0.00016318084552474616, 'epoch': 0.29}
{'loss': 1.0287, 'learning_rate': 0.00016301504656287028, 'epoch': 0.29}
{'loss': 1.0199, 'learning_rate': 0.00016284895978881236, 'epoch': 0.29}
{'loss': 1.2152, 'learning_rate': 0.00016268258596114992, 'epoch': 0.29}
{'loss': 0.9943, 'learning_rate': 0.00016251592583977153, 'epoch': 0.29}
{'loss': 1.0267, 'learning_rate': 0.00016234898018587337, 'epoch': 0.3}
{'loss': 1.0971, 'learning_rate': 0.00016218174976195574, 'epoch': 0.3}
{'loss': 1.1176, 'learning_rate': 0.00016201423533181966, 'epoch': 0.3}
{'loss': 0.9662, 'learning_rate': 0.00016184643766056317, 'epoch': 0.3}
{'loss': 1.1033, 'learning_rate': 0.00016167835751457812, 'epoch': 0.3}
{'loss': 1.0885, 'learning_rate': 0.0001615099956615464, 'epoch': 0.3}
{'loss': 1.0695, 'learning_rate': 0.00016134135287043669, 'epoch': 0.3}
{'loss': 1.179, 'learning_rate': 0.00016117242991150064, 'epoch': 0.3}
{'loss': 1.0918, 'learning_rate': 0.0001610032275562697, 'epoch': 0.3}
{'loss': 1.09, 'learning_rate': 0.00016083374657755134, 'epoch': 0.3}
{'loss': 1.066, 'learning_rate': 0.00016066398774942554, 'epoch': 0.3}
{'loss': 1.1271, 'learning_rate': 0.00016049395184724148, 'epoch': 0.3}
{'loss': 0.9332, 'learning_rate': 0.00016032363964761363, 'epoch': 0.3}
{'loss': 1.1687, 'learning_rate': 0.00016015305192841863, 'epoch': 0.3}
{'loss': 1.1041, 'learning_rate': 0.00015998218946879138, 'epoch': 0.3}
{'loss': 0.9432, 'learning_rate': 0.00015981105304912162, 'epoch': 0.31}
{'loss': 1.0471, 'learning_rate': 0.00015963964345105036, 'epoch': 0.31}
{'loss': 1.1401, 'learning_rate': 0.0001594679614574664, 'epoch': 0.31}
{'loss': 1.0932, 'learning_rate': 0.00015929600785250257, 'epoch': 0.31}
{'loss': 1.1136, 'learning_rate': 0.00015912378342153232, 'epoch': 0.31}
{'loss': 1.1534, 'learning_rate': 0.000158951288951166, 'epoch': 0.31}
{'loss': 1.1185, 'learning_rate': 0.00015877852522924732, 'epoch': 0.31}
{'loss': 1.119, 'learning_rate': 0.00015860549304484985, 'epoch': 0.31}
{'loss': 1.0318, 'learning_rate': 0.0001584321931882732, 'epoch': 0.31}
{'loss': 1.1186, 'learning_rate': 0.0001582586264510396, 'epoch': 0.31}
{'loss': 1.1419, 'learning_rate': 0.00015808479362589028, 'epoch': 0.31}
{'loss': 1.0993, 'learning_rate': 0.00015791069550678168, 'epoch': 0.31}
{'loss': 1.1609, 'learning_rate': 0.00015773633288888197, 'epoch': 0.31}
{'loss': 1.1865, 'learning_rate': 0.00015756170656856737, 'epoch': 0.31}
{'loss': 1.1131, 'learning_rate': 0.00015738681734341856, 'epoch': 0.31}
{'loss': 1.1058, 'learning_rate': 0.00015721166601221698, 'epoch': 0.32}
{'loss': 1.2222, 'learning_rate': 0.0001570362533749412, 'epoch': 0.32}
{'loss': 0.9713, 'learning_rate': 0.00015686058023276324, 'epoch': 0.32}
{'loss': 1.0689, 'learning_rate': 0.000156684647388045, 'epoch': 0.32}
{'loss': 1.1025, 'learning_rate': 0.0001565084556443345, 'epoch': 0.32}
{'loss': 1.1244, 'learning_rate': 0.0001563320058063622, 'epoch': 0.32}
{'loss': 1.0916, 'learning_rate': 0.0001561552986800375, 'epoch': 0.32}
{'loss': 1.107, 'learning_rate': 0.00015597833507244473, 'epoch': 0.32}
{'loss': 1.3333, 'learning_rate': 0.00015580111579183986, 'epoch': 0.32}
{'loss': 1.2195, 'learning_rate': 0.0001556236416476465, 'epoch': 0.32}
{'loss': 1.1033, 'learning_rate': 0.0001554459134504523, 'epoch': 0.32}
{'loss': 1.1893, 'learning_rate': 0.00015526793201200534, 'epoch': 0.32}
{'loss': 0.9896, 'learning_rate': 0.00015508969814521025, 'epoch': 0.32}
{'loss': 1.2044, 'learning_rate': 0.00015491121266412468, 'epoch': 0.32}
{'loss': 1.0675, 'learning_rate': 0.00015473247638395546, 'epoch': 0.32}
{'loss': 1.0681, 'learning_rate': 0.00015455349012105486, 'epoch': 0.33}
{'loss': 1.1747, 'learning_rate': 0.000154374254692917, 'epoch': 0.33}
{'loss': 1.1595, 'learning_rate': 0.0001541947709181739, 'epoch': 0.33}
{'loss': 1.1721, 'learning_rate': 0.00015401503961659204, 'epoch': 0.33}
{'loss': 0.9781, 'learning_rate': 0.00015383506160906825, 'epoch': 0.33}
{'loss': 1.0511, 'learning_rate': 0.0001536548377176263, 'epoch': 0.33}
{'loss': 1.1047, 'learning_rate': 0.00015347436876541297, 'epoch': 0.33}
{'loss': 1.1651, 'learning_rate': 0.00015329365557669426, 'epoch': 0.33}
{'loss': 1.0934, 'learning_rate': 0.00015311269897685175, 'epoch': 0.33}
{'loss': 1.1188, 'learning_rate': 0.00015293149979237876, 'epoch': 0.33}
{'loss': 0.9988, 'learning_rate': 0.00015275005885087648, 'epoch': 0.33}
{'loss': 1.0481, 'learning_rate': 0.00015256837698105047, 'epoch': 0.33}
{'loss': 1.0687, 'learning_rate': 0.00015238645501270654, 'epoch': 0.33}
{'loss': 1.094, 'learning_rate': 0.00015220429377674723, 'epoch': 0.33}
{'loss': 1.0737, 'learning_rate': 0.0001520218941051678, 'epoch': 0.33}
{'loss': 1.0625, 'learning_rate': 0.00015183925683105254, 'epoch': 0.34}
{'loss': 1.1329, 'learning_rate': 0.000151656382788571, 'epoch': 0.34}
{'loss': 1.1376, 'learning_rate': 0.0001514732728129742, 'epoch': 0.34}
{'loss': 1.0988, 'learning_rate': 0.00015128992774059063, 'epoch': 0.34}
{'loss': 1.1108, 'learning_rate': 0.00015110634840882257, 'epoch': 0.34}
{'loss': 1.0805, 'learning_rate': 0.00015092253565614233, 'epoch': 0.34}
{'loss': 1.0406, 'learning_rate': 0.00015073849032208822, 'epoch': 0.34}
{'loss': 1.0594, 'learning_rate': 0.00015055421324726092, 'epoch': 0.34}
{'loss': 1.0564, 'learning_rate': 0.00015036970527331956, 'epoch': 0.34}
{'loss': 1.0657, 'learning_rate': 0.00015018496724297778, 'epoch': 0.34}
{'loss': 1.0136, 'learning_rate': 0.00015000000000000001, 'epoch': 0.34}
{'loss': 0.9625, 'learning_rate': 0.00014981480438919762, 'epoch': 0.34}
{'loss': 1.0799, 'learning_rate': 0.00014962938125642503, 'epoch': 0.34}
{'loss': 1.1552, 'learning_rate': 0.0001494437314485757, 'epoch': 0.34}
{'loss': 1.0474, 'learning_rate': 0.00014925785581357853, 'epoch': 0.34}
{'loss': 1.0805, 'learning_rate': 0.0001490717552003938, 'epoch': 0.35}
{'loss': 1.0348, 'learning_rate': 0.0001488854304590094, 'epoch': 0.35}
{'loss': 1.0522, 'learning_rate': 0.00014869888244043673, 'epoch': 0.35}
{'loss': 1.0586, 'learning_rate': 0.00014851211199670721, 'epoch': 0.35}
{'loss': 1.0853, 'learning_rate': 0.00014832511998086803, 'epoch': 0.35}
{'loss': 1.0954, 'learning_rate': 0.00014813790724697832, 'epoch': 0.35}
{'loss': 1.1018, 'learning_rate': 0.0001479504746501054, 'epoch': 0.35}
{'loss': 0.9612, 'learning_rate': 0.00014776282304632075, 'epoch': 0.35}
{'loss': 1.1682, 'learning_rate': 0.00014757495329269623, 'epoch': 0.35}
{'loss': 1.1159, 'learning_rate': 0.00014738686624729986, 'epoch': 0.35}
{'loss': 1.2276, 'learning_rate': 0.0001471985627691923, 'epoch': 0.35}
{'loss': 1.016, 'learning_rate': 0.00014701004371842264, 'epoch': 0.35}
{'loss': 0.9955, 'learning_rate': 0.0001468213099560246, 'epoch': 0.35}
{'loss': 1.1603, 'learning_rate': 0.00014663236234401252, 'epoch': 0.35}
{'loss': 1.142, 'learning_rate': 0.00014644320174537755, 'epoch': 0.35}
{'loss': 1.2117, 'learning_rate': 0.00014625382902408356, 'epoch': 0.36}
{'loss': 1.0074, 'learning_rate': 0.00014606424504506324, 'epoch': 0.36}
{'loss': 1.1379, 'learning_rate': 0.00014587445067421428, 'epoch': 0.36}
{'loss': 1.0798, 'learning_rate': 0.00014568444677839516, 'epoch': 0.36}
{'loss': 1.0296, 'learning_rate': 0.00014549423422542147, 'epoch': 0.36}
{'loss': 1.1421, 'learning_rate': 0.0001453038138840617, 'epoch': 0.36}
{'loss': 1.0372, 'learning_rate': 0.00014511318662403347, 'epoch': 0.36}
{'loss': 1.1949, 'learning_rate': 0.00014492235331599944, 'epoch': 0.36}
{'loss': 1.0543, 'learning_rate': 0.00014473131483156327, 'epoch': 0.36}
{'loss': 1.0733, 'learning_rate': 0.0001445400720432659, 'epoch': 0.36}
{'loss': 0.8756, 'learning_rate': 0.00014434862582458135, 'epoch': 0.36}
{'loss': 1.0337, 'learning_rate': 0.0001441569770499127, 'epoch': 0.36}
{'loss': 1.1422, 'learning_rate': 0.00014396512659458824, 'epoch': 0.36}
{'loss': 1.1432, 'learning_rate': 0.00014377307533485736, 'epoch': 0.36}
{'loss': 1.0712, 'learning_rate': 0.00014358082414788666, 'epoch': 0.36}
{'loss': 0.9596, 'learning_rate': 0.00014338837391175582, 'epoch': 0.37}
{'loss': 1.0377, 'learning_rate': 0.00014319572550545371, 'epoch': 0.37}
{'loss': 0.993, 'learning_rate': 0.00014300287980887428, 'epoch': 0.37}
{'loss': 1.1433, 'learning_rate': 0.0001428098377028126, 'epoch': 0.37}
{'loss': 1.1992, 'learning_rate': 0.00014261660006896064, 'epoch': 0.37}
{'loss': 0.9592, 'learning_rate': 0.00014242316778990372, 'epoch': 0.37}
{'loss': 1.0698, 'learning_rate': 0.000142229541749116, 'epoch': 0.37}
{'loss': 1.0647, 'learning_rate': 0.00014203572283095657, 'epoch': 0.37}
{'loss': 1.0558, 'learning_rate': 0.00014184171192066557, 'epoch': 0.37}
{'loss': 1.2752, 'learning_rate': 0.0001416475099043599, 'epoch': 0.37}
{'loss': 1.0364, 'learning_rate': 0.00014145311766902957, 'epoch': 0.37}
{'loss': 1.1733, 'learning_rate': 0.00014125853610253306, 'epoch': 0.37}
{'loss': 1.0578, 'learning_rate': 0.0001410637660935938, 'epoch': 0.37}
{'loss': 1.0485, 'learning_rate': 0.00014086880853179592, 'epoch': 0.37}
{'loss': 1.1436, 'learning_rate': 0.00014067366430758004, 'epoch': 0.37}
{'loss': 0.9981, 'learning_rate': 0.00014047833431223938, 'epoch': 0.38}
{'loss': 1.0979, 'learning_rate': 0.00014028281943791573, 'epoch': 0.38}
{'loss': 1.0176, 'learning_rate': 0.0001400871205775952, 'epoch': 0.38}
{'loss': 0.9883, 'learning_rate': 0.0001398912386251042, 'epoch': 0.38}
{'loss': 1.0839, 'learning_rate': 0.00013969517447510546, 'epoch': 0.38}
{'loss': 1.1872, 'learning_rate': 0.00013949892902309386, 'epoch': 0.38}
{'loss': 1.1097, 'learning_rate': 0.00013930250316539238, 'epoch': 0.38}
{'loss': 1.1377, 'learning_rate': 0.00013910589779914787, 'epoch': 0.38}
{'loss': 1.055, 'learning_rate': 0.00013890911382232715, 'epoch': 0.38}
{'loss': 0.9684, 'learning_rate': 0.00013871215213371284, 'epoch': 0.38}
{'loss': 1.0803, 'learning_rate': 0.00013851501363289906, 'epoch': 0.38}
{'loss': 1.125, 'learning_rate': 0.0001383176992202878, 'epoch': 0.38}
{'loss': 1.0788, 'learning_rate': 0.00013812020979708418, 'epoch': 0.38}
{'loss': 1.0618, 'learning_rate': 0.00013792254626529286, 'epoch': 0.38}
{'loss': 1.0111, 'learning_rate': 0.00013772470952771364, 'epoch': 0.39}
{'loss': 1.1299, 'learning_rate': 0.00013752670048793744, 'epoch': 0.39}
{'loss': 1.0735, 'learning_rate': 0.0001373285200503421, 'epoch': 0.39}
{'loss': 1.0853, 'learning_rate': 0.00013713016912008836, 'epoch': 0.39}
{'loss': 1.087, 'learning_rate': 0.00013693164860311565, 'epoch': 0.39}
{'loss': 1.2571, 'learning_rate': 0.00013673295940613787, 'epoch': 0.39}
{'loss': 1.0045, 'learning_rate': 0.00013653410243663952, 'epoch': 0.39}
{'loss': 1.1652, 'learning_rate': 0.00013633507860287116, 'epoch': 0.39}
{'loss': 1.1579, 'learning_rate': 0.00013613588881384564, 'epoch': 0.39}
{'loss': 1.0855, 'learning_rate': 0.00013593653397933378, 'epoch': 0.39}
{'loss': 1.1225, 'learning_rate': 0.0001357370150098601, 'epoch': 0.39}
{'loss': 0.8987, 'learning_rate': 0.0001355373328166989, 'epoch': 0.39}
{'loss': 1.1076, 'learning_rate': 0.0001353374883118699, 'epoch': 0.39}
{'loss': 1.0324, 'learning_rate': 0.0001351374824081343, 'epoch': 0.39}
{'loss': 1.0572, 'learning_rate': 0.00013493731601899023, 'epoch': 0.39}
{'loss': 1.0648, 'learning_rate': 0.00013473699005866905, 'epoch': 0.4}
{'loss': 1.1003, 'learning_rate': 0.00013453650544213076, 'epoch': 0.4}
{'loss': 1.0837, 'learning_rate': 0.00013433586308506017, 'epoch': 0.4}
{'loss': 1.1684, 'learning_rate': 0.00013413506390386233, 'epoch': 0.4}
{'loss': 1.1156, 'learning_rate': 0.00013393410881565876, 'epoch': 0.4}
{'loss': 1.0742, 'learning_rate': 0.00013373299873828303, 'epoch': 0.4}
{'loss': 1.1497, 'learning_rate': 0.00013353173459027646, 'epoch': 0.4}
{'loss': 1.0166, 'learning_rate': 0.00013333031729088419, 'epoch': 0.4}
{'loss': 1.0991, 'learning_rate': 0.00013312874776005086, 'epoch': 0.4}
{'loss': 1.0502, 'learning_rate': 0.00013292702691841636, 'epoch': 0.4}
{'loss': 0.9794, 'learning_rate': 0.0001327251556873117, 'epoch': 0.4}
{'loss': 1.129, 'learning_rate': 0.00013252313498875472, 'epoch': 0.4}
{'loss': 0.9759, 'learning_rate': 0.00013232096574544602, 'epoch': 0.4}
{'loss': 1.0597, 'learning_rate': 0.00013211864888076457, 'epoch': 0.4}
{'loss': 1.1549, 'learning_rate': 0.0001319161853187636, 'epoch': 0.4}
{'loss': 0.9522, 'learning_rate': 0.0001317135759841664, 'epoch': 0.41}
{'loss': 1.0454, 'learning_rate': 0.0001315108218023621, 'epoch': 0.41}
{'loss': 1.1365, 'learning_rate': 0.0001313079236994012, 'epoch': 0.41}
{'loss': 1.0773, 'learning_rate': 0.0001311048826019917, 'epoch': 0.41}
{'loss': 1.0805, 'learning_rate': 0.00013090169943749476, 'epoch': 0.41}
{'loss': 1.0144, 'learning_rate': 0.0001306983751339202, 'epoch': 0.41}
{'loss': 1.1163, 'learning_rate': 0.00013049491061992274, 'epoch': 0.41}
{'loss': 1.1655, 'learning_rate': 0.00013029130682479722, 'epoch': 0.41}
{'loss': 0.9995, 'learning_rate': 0.00013008756467847485, 'epoch': 0.41}
{'loss': 1.1655, 'learning_rate': 0.00012988368511151856, 'epoch': 0.41}
{'loss': 1.0049, 'learning_rate': 0.00012967966905511906, 'epoch': 0.41}
{'loss': 1.1094, 'learning_rate': 0.00012947551744109043, 'epoch': 0.41}
{'loss': 1.1853, 'learning_rate': 0.00012927123120186584, 'epoch': 0.41}
{'loss': 1.156, 'learning_rate': 0.00012906681127049338, 'epoch': 0.41}
{'loss': 0.9782, 'learning_rate': 0.00012886225858063175, 'epoch': 0.41}
{'loss': 1.1019, 'learning_rate': 0.00012865757406654597, 'epoch': 0.42}
{'loss': 1.0455, 'learning_rate': 0.00012845275866310324, 'epoch': 0.42}
{'loss': 1.06, 'learning_rate': 0.00012824781330576852, 'epoch': 0.42}
{'loss': 1.0059, 'learning_rate': 0.00012804273893060028, 'epoch': 0.42}
{'loss': 1.0682, 'learning_rate': 0.00012783753647424635, 'epoch': 0.42}
{'loss': 0.9515, 'learning_rate': 0.00012763220687393942, 'epoch': 0.42}
{'loss': 1.0844, 'learning_rate': 0.00012742675106749304, 'epoch': 0.42}
{'loss': 1.1449, 'learning_rate': 0.00012722116999329712, 'epoch': 0.42}
{'loss': 0.9928, 'learning_rate': 0.0001270154645903137, 'epoch': 0.42}
{'loss': 1.1223, 'learning_rate': 0.0001268096357980727, 'epoch': 0.42}
{'loss': 1.1389, 'learning_rate': 0.00012660368455666752, 'epoch': 0.42}
{'loss': 1.1259, 'learning_rate': 0.00012639761180675098, 'epoch': 0.42}
{'loss': 0.8405, 'learning_rate': 0.0001261914184895308, 'epoch': 0.42}
{'loss': 1.1427, 'learning_rate': 0.0001259851055467653, 'epoch': 0.42}
{'loss': 1.1424, 'learning_rate': 0.0001257786739207593, 'epoch': 0.42}
{'loss': 1.0911, 'learning_rate': 0.0001255721245543596, 'epoch': 0.43}
{'loss': 1.0626, 'learning_rate': 0.00012536545839095074, 'epoch': 0.43}
{'loss': 1.1646, 'learning_rate': 0.00012515867637445086, 'epoch': 0.43}
{'loss': 1.0357, 'learning_rate': 0.0001249517794493071, 'epoch': 0.43}
{'loss': 1.168, 'learning_rate': 0.00012474476856049144, 'epoch': 0.43}
{'loss': 1.1698, 'learning_rate': 0.0001245376446534965, 'epoch': 0.43}
{'loss': 1.1091, 'learning_rate': 0.0001243304086743309, 'epoch': 0.43}
{'loss': 1.1577, 'learning_rate': 0.00012412306156951526, 'epoch': 0.43}
{'loss': 1.108, 'learning_rate': 0.00012391560428607777, 'epoch': 0.43}
{'loss': 1.0683, 'learning_rate': 0.00012370803777154977, 'epoch': 0.43}
{'loss': 1.0051, 'learning_rate': 0.00012350036297396154, 'epoch': 0.43}
{'loss': 1.0781, 'learning_rate': 0.00012329258084183787, 'epoch': 0.43}
{'loss': 1.0052, 'learning_rate': 0.00012308469232419385, 'epoch': 0.43}
{'loss': 0.9987, 'learning_rate': 0.00012287669837053055, 'epoch': 0.43}
{'loss': 1.1136, 'learning_rate': 0.00012266859993083037, 'epoch': 0.43}
{'loss': 1.1295, 'learning_rate': 0.00012246039795555313, 'epoch': 0.44}
{'loss': 1.206, 'learning_rate': 0.00012225209339563145, 'epoch': 0.44}
{'loss': 1.0559, 'learning_rate': 0.00012204368720246653, 'epoch': 0.44}
{'loss': 1.0547, 'learning_rate': 0.00012183518032792376, 'epoch': 0.44}
{'loss': 0.9835, 'learning_rate': 0.00012162657372432836, 'epoch': 0.44}
{'loss': 0.9771, 'learning_rate': 0.00012141786834446105, 'epoch': 0.44}
{'loss': 0.9127, 'learning_rate': 0.0001212090651415537, 'epoch': 0.44}
{'loss': 1.1805, 'learning_rate': 0.00012100016506928493, 'epoch': 0.44}
{'loss': 1.1243, 'learning_rate': 0.00012079116908177593, 'epoch': 0.44}
{'loss': 1.2061, 'learning_rate': 0.00012058207813358587, 'epoch': 0.44}
{'loss': 1.1833, 'learning_rate': 0.00012037289317970757, 'epoch': 0.44}
{'loss': 1.0929, 'learning_rate': 0.00012016361517556334, 'epoch': 0.44}
{'loss': 1.0641, 'learning_rate': 0.00011995424507700044, 'epoch': 0.44}
{'loss': 0.9995, 'learning_rate': 0.00011974478384028672, 'epoch': 0.44}
{'loss': 0.9766, 'learning_rate': 0.00011953523242210634, 'epoch': 0.44}
{'loss': 1.0893, 'learning_rate': 0.00011932559177955533, 'epoch': 0.45}
{'loss': 1.1593, 'learning_rate': 0.00011911586287013725, 'epoch': 0.45}
{'loss': 1.0203, 'learning_rate': 0.00011890604665175878, 'epoch': 0.45}
{'loss': 1.0447, 'learning_rate': 0.00011869614408272534, 'epoch': 0.45}
{'loss': 1.0202, 'learning_rate': 0.00011848615612173688, 'epoch': 0.45}
{'loss': 1.0578, 'learning_rate': 0.00011827608372788323, 'epoch': 0.45}
{'loss': 1.1481, 'learning_rate': 0.0001180659278606399, 'epoch': 0.45}
{'loss': 1.2026, 'learning_rate': 0.00011785568947986367, 'epoch': 0.45}
{'loss': 1.1205, 'learning_rate': 0.00011764536954578818, 'epoch': 0.45}
{'loss': 1.1024, 'learning_rate': 0.00011743496901901951, 'epoch': 0.45}
{'loss': 1.2001, 'learning_rate': 0.0001172244888605319, 'epoch': 0.45}
{'loss': 1.0705, 'learning_rate': 0.00011701393003166328, 'epoch': 0.45}
{'loss': 1.0856, 'learning_rate': 0.00011680329349411085, 'epoch': 0.45}
{'loss': 1.034, 'learning_rate': 0.0001165925802099268, 'epoch': 0.45}
{'loss': 1.0399, 'learning_rate': 0.00011638179114151377, 'epoch': 0.45}
{'loss': 1.223, 'learning_rate': 0.00011617092725162064, 'epoch': 0.46}
{'loss': 1.001, 'learning_rate': 0.00011595998950333793, 'epoch': 0.46}
{'loss': 1.1813, 'learning_rate': 0.00011574897886009354, 'epoch': 0.46}
{'loss': 1.0796, 'learning_rate': 0.00011553789628564831, 'epoch': 0.46}
{'loss': 1.0703, 'learning_rate': 0.00011532674274409159, 'epoch': 0.46}
{'loss': 1.1658, 'learning_rate': 0.0001151155191998369, 'epoch': 0.46}
{'loss': 1.0856, 'learning_rate': 0.00011490422661761744, 'epoch': 0.46}
{'loss': 1.0543, 'learning_rate': 0.00011469286596248181, 'epoch': 0.46}
{'loss': 0.987, 'learning_rate': 0.0001144814381997894, 'epoch': 0.46}
{'loss': 0.919, 'learning_rate': 0.00011426994429520621, 'epoch': 0.46}
{'loss': 1.2456, 'learning_rate': 0.00011405838521470029, 'epoch': 0.46}
{'loss': 1.117, 'learning_rate': 0.0001138467619245374, 'epoch': 0.46}
{'loss': 1.2029, 'learning_rate': 0.00011363507539127653, 'epoch': 0.46}
{'loss': 1.0842, 'learning_rate': 0.00011342332658176555, 'epoch': 0.46}
{'loss': 1.0883, 'learning_rate': 0.00011321151646313677, 'epoch': 0.46}
{'loss': 1.1187, 'learning_rate': 0.00011299964600280246, 'epoch': 0.47}
{'loss': 1.1578, 'learning_rate': 0.00011278771616845061, 'epoch': 0.47}
{'loss': 1.0423, 'learning_rate': 0.00011257572792804027, 'epoch': 0.47}
{'loss': 1.0144, 'learning_rate': 0.00011236368224979737, 'epoch': 0.47}
{'loss': 0.9561, 'learning_rate': 0.00011215158010221005, 'epoch': 0.47}
{'loss': 1.0461, 'learning_rate': 0.00011193942245402443, 'epoch': 0.47}
{'loss': 0.9667, 'learning_rate': 0.0001117272102742402, 'epoch': 0.47}
{'loss': 1.2878, 'learning_rate': 0.00011151494453210596, 'epoch': 0.47}
{'loss': 1.0745, 'learning_rate': 0.00011130262619711505, 'epoch': 0.47}
{'loss': 1.0819, 'learning_rate': 0.00011109025623900097, 'epoch': 0.47}
{'loss': 1.0448, 'learning_rate': 0.00011087783562773311, 'epoch': 0.47}
{'loss': 0.9822, 'learning_rate': 0.00011066536533351202, 'epoch': 0.47}
{'loss': 1.1203, 'learning_rate': 0.00011045284632676536, 'epoch': 0.47}
{'loss': 1.1297, 'learning_rate': 0.00011024027957814314, 'epoch': 0.47}
{'loss': 1.1133, 'learning_rate': 0.00011002766605851353, 'epoch': 0.47}
{'loss': 1.1119, 'learning_rate': 0.00010981500673895823, 'epoch': 0.48}
{'loss': 1.0796, 'learning_rate': 0.00010960230259076818, 'epoch': 0.48}
{'loss': 1.2381, 'learning_rate': 0.00010938955458543907, 'epoch': 0.48}
{'loss': 1.08, 'learning_rate': 0.00010917676369466683, 'epoch': 0.48}
{'loss': 1.1207, 'learning_rate': 0.00010896393089034336, 'epoch': 0.48}
{'loss': 1.0786, 'learning_rate': 0.00010875105714455194, 'epoch': 0.48}
{'loss': 1.0927, 'learning_rate': 0.00010853814342956286, 'epoch': 0.48}
{'loss': 1.0642, 'learning_rate': 0.00010832519071782894, 'epoch': 0.48}
{'loss': 1.0537, 'learning_rate': 0.00010811219998198114, 'epoch': 0.48}
{'loss': 1.1552, 'learning_rate': 0.00010789917219482413, 'epoch': 0.48}
{'loss': 0.9858, 'learning_rate': 0.00010768610832933168, 'epoch': 0.48}
{'loss': 1.1084, 'learning_rate': 0.00010747300935864243, 'epoch': 0.48}
{'loss': 1.1164, 'learning_rate': 0.00010725987625605538, 'epoch': 0.48}
{'loss': 1.0404, 'learning_rate': 0.0001070467099950254, 'epoch': 0.48}
{'loss': 1.0435, 'learning_rate': 0.00010683351154915874, 'epoch': 0.48}
{'loss': 1.0089, 'learning_rate': 0.00010662028189220876, 'epoch': 0.49}
{'loss': 1.0771, 'learning_rate': 0.0001064070219980713, 'epoch': 0.49}
{'loss': 1.1606, 'learning_rate': 0.00010619373284078032, 'epoch': 0.49}
{'loss': 1.1962, 'learning_rate': 0.00010598041539450343, 'epoch': 0.49}
{'loss': 0.9972, 'learning_rate': 0.00010576707063353746, 'epoch': 0.49}
{'loss': 0.9655, 'learning_rate': 0.000105553699532304, 'epoch': 0.49}
{'loss': 1.156, 'learning_rate': 0.0001053403030653449, 'epoch': 0.49}
{'loss': 1.105, 'learning_rate': 0.00010512688220731792, 'epoch': 0.49}
{'loss': 1.1509, 'learning_rate': 0.00010491343793299224, 'epoch': 0.49}
{'loss': 1.0339, 'learning_rate': 0.00010469997121724391, 'epoch': 0.49}
{'loss': 1.1114, 'learning_rate': 0.00010448648303505151, 'epoch': 0.49}
{'loss': 1.143, 'learning_rate': 0.00010427297436149168, 'epoch': 0.49}
{'loss': 0.9717, 'learning_rate': 0.0001040594461717347, 'epoch': 0.49}
{'loss': 1.0517, 'learning_rate': 0.00010384589944103984, 'epoch': 0.49}
{'loss': 1.0379, 'learning_rate': 0.00010363233514475121, 'epoch': 0.5}
{'loss': 1.1093, 'learning_rate': 0.0001034187542582931, 'epoch': 0.5}
{'loss': 0.9912, 'learning_rate': 0.00010320515775716555, 'epoch': 0.5}
{'loss': 1.0464, 'learning_rate': 0.00010299154661693987, 'epoch': 0.5}
{'loss': 1.3697, 'learning_rate': 0.00010277792181325429, 'epoch': 0.5}
{'loss': 1.0389, 'learning_rate': 0.00010256428432180956, 'epoch': 0.5}
{'loss': 1.0863, 'learning_rate': 0.00010235063511836416, 'epoch': 0.5}
{'loss': 1.0656, 'learning_rate': 0.00010213697517873015, 'epoch': 0.5}
{'loss': 1.1216, 'learning_rate': 0.00010192330547876871, 'epoch': 0.5}
50%|████████████████████ | 746/1490 [52:57<51:59, 4.19s/it][2024-01-01 09:26:11,256] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
[2024-01-01 09:26:11,436] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
[2024-01-01 09:26:11,437] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
0%| | 0/208 [00:00<?, ?it/s][2024-01-01 09:26:11,607] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
1%|▍ | 2/208 [00:00<00:17, 11.79it/s][2024-01-01 09:26:11,779] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
[2024-01-01 09:26:11,947] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
2%|▊ | 4/208 [00:00<00:27, 7.41it/s][2024-01-01 09:26:12,116] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
2%|█ | 5/208 [00:00<00:29, 6.89it/s][2024-01-01 09:26:12,285] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
3%|█▏ | 6/208 [00:00<00:30, 6.57it/s][2024-01-01 09:26:12,458] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
3%|█▍ | 7/208 [00:01<00:31, 6.32it/s][2024-01-01 09:26:12,622] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
4%|█▋ | 8/208 [00:01<00:32, 6.25it/s][2024-01-01 09:26:12,789] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
4%|█▊ | 9/208 [00:01<00:32, 6.17it/s][2024-01-01 09:26:12,957] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
5%|██ | 10/208 [00:01<00:32, 6.10it/s][2024-01-01 09:26:13,128] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
5%|██▏ | 11/208 [00:01<00:32, 6.03it/s][2024-01-01 09:26:13,298] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
6%|██▍ | 12/208 [00:01<00:32, 5.99it/s][2024-01-01 09:26:13,465] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
6%|██▋ | 13/208 [00:02<00:32, 5.98it/s][2024-01-01 09:26:13,631] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
7%|██▊ | 14/208 [00:02<00:32, 6.00it/s][2024-01-01 09:26:13,800] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
7%|███ | 15/208 [00:02<00:32, 5.97it/s][2024-01-01 09:26:13,971] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
8%|███▏ | 16/208 [00:02<00:32, 5.93it/s][2024-01-01 09:26:14,145] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
8%|███▍ | 17/208 [00:02<00:32, 5.88it/s][2024-01-01 09:26:14,316] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
9%|███▋ | 18/208 [00:02<00:32, 5.87it/s][2024-01-01 09:26:14,485] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
9%|███▊ | 19/208 [00:03<00:32, 5.88it/s][2024-01-01 09:26:14,657] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
10%|████ | 20/208 [00:03<00:32, 5.87it/s][2024-01-01 09:26:14,827] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
10%|████▏ | 21/208 [00:03<00:31, 5.87it/s][2024-01-01 09:26:14,998] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
11%|████▍ | 22/208 [00:03<00:31, 5.86it/s][2024-01-01 09:26:15,168] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
11%|████▋ | 23/208 [00:03<00:31, 5.86it/s][2024-01-01 09:26:15,338] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
12%|████▊ | 24/208 [00:03<00:31, 5.87it/s][2024-01-01 09:26:15,507] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
12%|█████ | 25/208 [00:04<00:31, 5.89it/s][2024-01-01 09:26:15,670] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
12%|█████▎ | 26/208 [00:04<00:30, 5.96it/s][2024-01-01 09:26:15,842] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
13%|█████▍ | 27/208 [00:04<00:30, 5.91it/s][2024-01-01 09:26:16,018] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
13%|█████▋ | 28/208 [00:04<00:30, 5.85it/s][2024-01-01 09:26:16,184] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
14%|█████▊ | 29/208 [00:04<00:30, 5.90it/s][2024-01-01 09:26:16,354] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
14%|██████ | 30/208 [00:04<00:30, 5.89it/s][2024-01-01 09:26:16,524] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
15%|██████▎ | 31/208 [00:05<00:30, 5.89it/s][2024-01-01 09:26:16,694] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
15%|██████▍ | 32/208 [00:05<00:29, 5.89it/s][2024-01-01 09:26:16,863] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
16%|██████▋ | 33/208 [00:05<00:29, 5.89it/s][2024-01-01 09:26:17,035] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
16%|██████▊ | 34/208 [00:05<00:29, 5.88it/s][2024-01-01 09:26:17,203] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
17%|███████ | 35/208 [00:05<00:29, 5.89it/s][2024-01-01 09:26:17,371] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
17%|███████▎ | 36/208 [00:05<00:29, 5.91it/s][2024-01-01 09:26:17,543] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
18%|███████▍ | 37/208 [00:06<00:29, 5.88it/s][2024-01-01 09:26:17,712] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
18%|███████▋ | 38/208 [00:06<00:28, 5.90it/s][2024-01-01 09:26:17,880] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
19%|███████▉ | 39/208 [00:06<00:28, 5.91it/s][2024-01-01 09:26:18,049] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
19%|████████ | 40/208 [00:06<00:28, 5.91it/s][2024-01-01 09:26:18,222] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
20%|████████▎ | 41/208 [00:06<00:28, 5.87it/s][2024-01-01 09:26:18,392] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
20%|████████▍ | 42/208 [00:06<00:28, 5.88it/s][2024-01-01 09:26:18,563] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
21%|████████▋ | 43/208 [00:07<00:28, 5.87it/s][2024-01-01 09:26:18,734] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
21%|████████▉ | 44/208 [00:07<00:27, 5.87it/s][2024-01-01 09:26:18,905] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
22%|█████████ | 45/208 [00:07<00:27, 5.86it/s][2024-01-01 09:26:19,072] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
22%|█████████▎ | 46/208 [00:07<00:27, 5.89it/s][2024-01-01 09:26:19,240] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
23%|█████████▍ | 47/208 [00:07<00:27, 5.91it/s][2024-01-01 09:26:19,403] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
23%|█████████▋ | 48/208 [00:07<00:26, 5.98it/s][2024-01-01 09:26:19,570] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
24%|█████████▉ | 49/208 [00:08<00:26, 5.98it/s][2024-01-01 09:26:19,742] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
24%|██████████ | 50/208 [00:08<00:26, 5.93it/s][2024-01-01 09:26:19,911] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
25%|██████████▎ | 51/208 [00:08<00:26, 5.93it/s][2024-01-01 09:26:20,082] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
25%|██████████▌ | 52/208 [00:08<00:26, 5.90it/s][2024-01-01 09:26:20,251] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
25%|██████████▋ | 53/208 [00:08<00:26, 5.90it/s][2024-01-01 09:26:20,420] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
26%|██████████▉ | 54/208 [00:08<00:26, 5.91it/s][2024-01-01 09:26:20,589] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
26%|███████████ | 55/208 [00:09<00:25, 5.91it/s][2024-01-01 09:26:20,758] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
27%|███████████▎ | 56/208 [00:09<00:25, 5.92it/s][2024-01-01 09:26:20,930] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
27%|███████████▌ | 57/208 [00:09<00:25, 5.88it/s][2024-01-01 09:26:21,102] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
28%|███████████▋ | 58/208 [00:09<00:25, 5.86it/s][2024-01-01 09:26:21,272] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
28%|███████████▉ | 59/208 [00:09<00:25, 5.87it/s][2024-01-01 09:26:21,444] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
29%|████████████ | 60/208 [00:10<00:25, 5.85it/s][2024-01-01 09:26:21,617] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
29%|████████████▎ | 61/208 [00:10<00:25, 5.83it/s][2024-01-01 09:26:21,787] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
30%|████████████▌ | 62/208 [00:10<00:24, 5.85it/s][2024-01-01 09:26:21,956] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
30%|████████████▋ | 63/208 [00:10<00:24, 5.86it/s][2024-01-01 09:26:22,121] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
31%|████████████▉ | 64/208 [00:10<00:24, 5.92it/s][2024-01-01 09:26:22,290] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
31%|█████████████▏ | 65/208 [00:10<00:24, 5.92it/s][2024-01-01 09:26:22,459] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
32%|█████████████▎ | 66/208 [00:11<00:23, 5.92it/s][2024-01-01 09:26:22,629] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
32%|█████████████▌ | 67/208 [00:11<00:23, 5.91it/s][2024-01-01 09:26:22,796] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
33%|█████████████▋ | 68/208 [00:11<00:23, 5.93it/s][2024-01-01 09:26:22,968] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
33%|█████████████▉ | 69/208 [00:11<00:23, 5.90it/s][2024-01-01 09:26:23,139] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
34%|██████████████▏ | 70/208 [00:11<00:23, 5.88it/s][2024-01-01 09:26:23,309] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
34%|██████████████▎ | 71/208 [00:11<00:23, 5.89it/s][2024-01-01 09:26:23,478] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
35%|██████████████▌ | 72/208 [00:12<00:23, 5.89it/s][2024-01-01 09:26:23,646] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
35%|██████████████▋ | 73/208 [00:12<00:22, 5.91it/s][2024-01-01 09:26:23,815] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
36%|██████████████▉ | 74/208 [00:12<00:22, 5.91it/s][2024-01-01 09:26:23,986] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
36%|███████████████▏ | 75/208 [00:12<00:22, 5.89it/s][2024-01-01 09:26:24,155] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
37%|███████████████▎ | 76/208 [00:12<00:22, 5.90it/s][2024-01-01 09:26:24,323] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
37%|███████████████▌ | 77/208 [00:12<00:22, 5.91it/s][2024-01-01 09:26:24,491] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
38%|███████████████▊ | 78/208 [00:13<00:21, 5.93it/s][2024-01-01 09:26:24,660] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
38%|███████████████▉ | 79/208 [00:13<00:21, 5.93it/s][2024-01-01 09:26:24,830] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
38%|████████████████▏ | 80/208 [00:13<00:21, 5.92it/s][2024-01-01 09:26:24,994] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
39%|████████████████▎ | 81/208 [00:13<00:21, 5.96it/s][2024-01-01 09:26:25,162] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
39%|████████████████▌ | 82/208 [00:13<00:21, 5.97it/s][2024-01-01 09:26:25,329] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
40%|████████████████▊ | 83/208 [00:13<00:20, 5.97it/s][2024-01-01 09:26:25,497] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
40%|████████████████▉ | 84/208 [00:14<00:20, 5.97it/s][2024-01-01 09:26:25,669] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
41%|█████████████████▏ | 85/208 [00:14<00:20, 5.92it/s][2024-01-01 09:26:25,839] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
41%|█████████████████▎ | 86/208 [00:14<00:20, 5.91it/s][2024-01-01 09:26:26,011] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
42%|█████████████████▌ | 87/208 [00:14<00:20, 5.88it/s][2024-01-01 09:26:26,183] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
42%|█████████████████▊ | 88/208 [00:14<00:20, 5.86it/s][2024-01-01 09:26:26,355] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
43%|█████████████████▉ | 89/208 [00:14<00:20, 5.85it/s][2024-01-01 09:26:26,520] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
43%|██████████████████▏ | 90/208 [00:15<00:19, 5.91it/s][2024-01-01 09:26:26,690] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
44%|██████████████████▍ | 91/208 [00:15<00:19, 5.90it/s][2024-01-01 09:26:26,862] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
44%|██████████████████▌ | 92/208 [00:15<00:19, 5.88it/s][2024-01-01 09:26:27,032] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
45%|██████████████████▊ | 93/208 [00:15<00:19, 5.87it/s][2024-01-01 09:26:27,202] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
45%|██████████████████▉ | 94/208 [00:15<00:19, 5.88it/s][2024-01-01 09:26:27,373] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
46%|███████████████████▏ | 95/208 [00:15<00:19, 5.87it/s][2024-01-01 09:26:27,543] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
46%|███████████████████▍ | 96/208 [00:16<00:19, 5.87it/s][2024-01-01 09:26:27,715] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
47%|███████████████████▌ | 97/208 [00:16<00:18, 5.86it/s][2024-01-01 09:26:27,886] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
47%|███████████████████▊ | 98/208 [00:16<00:18, 5.86it/s][2024-01-01 09:26:28,059] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
48%|███████████████████▉ | 99/208 [00:16<00:18, 5.83it/s][2024-01-01 09:26:28,229] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
48%|███████████████████▋ | 100/208 [00:16<00:18, 5.84it/s][2024-01-01 09:26:28,399] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
49%|███████████████████▉ | 101/208 [00:16<00:18, 5.86it/s][2024-01-01 09:26:28,570] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
49%|████████████████████ | 102/208 [00:17<00:18, 5.85it/s][2024-01-01 09:26:28,739] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
50%|████████████████████▎ | 103/208 [00:17<00:17, 5.87it/s][2024-01-01 09:26:28,911] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
50%|████████████████████▌ | 104/208 [00:17<00:17, 5.86it/s][2024-01-01 09:26:29,077] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
50%|████████████████████▋ | 105/208 [00:17<00:17, 5.90it/s][2024-01-01 09:26:29,248] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
51%|████████████████████▉ | 106/208 [00:17<00:17, 5.89it/s][2024-01-01 09:26:29,420] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
51%|█████████████████████ | 107/208 [00:17<00:17, 5.86it/s][2024-01-01 09:26:29,593] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
52%|█████████████████████▎ | 108/208 [00:18<00:17, 5.84it/s][2024-01-01 09:26:29,764] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
52%|█████████████████████▍ | 109/208 [00:18<00:16, 5.84it/s][2024-01-01 09:26:29,933] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
53%|█████████████████████▋ | 110/208 [00:18<00:16, 5.87it/s][2024-01-01 09:26:30,096] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
53%|█████████████████████▉ | 111/208 [00:18<00:16, 5.94it/s][2024-01-01 09:26:30,265] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
54%|██████████████████████ | 112/208 [00:18<00:16, 5.93it/s][2024-01-01 09:26:30,437] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
54%|██████████████████████▎ | 113/208 [00:19<00:16, 5.89it/s][2024-01-01 09:26:30,607] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
55%|██████████████████████▍ | 114/208 [00:19<00:15, 5.89it/s][2024-01-01 09:26:30,773] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
55%|██████████████████████▋ | 115/208 [00:19<00:15, 5.93it/s][2024-01-01 09:26:30,943] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
56%|██████████████████████▊ | 116/208 [00:19<00:15, 5.92it/s][2024-01-01 09:26:31,104] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
56%|███████████████████████ | 117/208 [00:19<00:15, 6.00it/s][2024-01-01 09:26:31,272] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
57%|███████████████████████▎ | 118/208 [00:19<00:15, 5.98it/s][2024-01-01 09:26:31,443] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
57%|███████████████████████▍ | 119/208 [00:20<00:14, 5.95it/s][2024-01-01 09:26:31,613] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
58%|███████████████████████▋ | 120/208 [00:20<00:14, 5.92it/s][2024-01-01 09:26:31,783] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
58%|███████████████████████▊ | 121/208 [00:20<00:14, 5.91it/s][2024-01-01 09:26:31,953] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
59%|████████████████████████ | 122/208 [00:20<00:14, 5.90it/s][2024-01-01 09:26:32,125] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
59%|████████████████████████▏ | 123/208 [00:20<00:14, 5.88it/s][2024-01-01 09:26:32,296] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
60%|████████████████████████▍ | 124/208 [00:20<00:14, 5.87it/s][2024-01-01 09:26:32,468] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
60%|████████████████████████▋ | 125/208 [00:21<00:14, 5.86it/s][2024-01-01 09:26:32,639] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
61%|████████████████████████▊ | 126/208 [00:21<00:14, 5.85it/s][2024-01-01 09:26:32,810] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
61%|█████████████████████████ | 127/208 [00:21<00:13, 5.85it/s][2024-01-01 09:26:32,977] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
62%|█████████████████████████▏ | 128/208 [00:21<00:13, 5.89it/s][2024-01-01 09:26:33,147] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
62%|█████████████████████████▍ | 129/208 [00:21<00:13, 5.89it/s][2024-01-01 09:26:33,316] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
62%|█████████████████████████▋ | 130/208 [00:21<00:13, 5.90it/s][2024-01-01 09:26:33,488] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
63%|█████████████████████████▊ | 131/208 [00:22<00:13, 5.87it/s][2024-01-01 09:26:33,657] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
63%|██████████████████████████ | 132/208 [00:22<00:12, 5.89it/s][2024-01-01 09:26:33,824] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
64%|██████████████████████████▏ | 133/208 [00:22<00:12, 5.91it/s][2024-01-01 09:26:33,990] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
64%|██████████████████████████▍ | 134/208 [00:22<00:12, 5.95it/s][2024-01-01 09:26:34,162] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
65%|██████████████████████████▌ | 135/208 [00:22<00:12, 5.91it/s][2024-01-01 09:26:34,330] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
65%|██████████████████████████▊ | 136/208 [00:22<00:12, 5.92it/s][2024-01-01 09:26:34,500] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
66%|███████████████████████████ | 137/208 [00:23<00:12, 5.90it/s][2024-01-01 09:26:34,668] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
66%|███████████████████████████▏ | 138/208 [00:23<00:11, 5.93it/s][2024-01-01 09:26:34,833] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
67%|███████████████████████████▍ | 139/208 [00:23<00:11, 5.96it/s][2024-01-01 09:26:34,999] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
67%|███████████████████████████▌ | 140/208 [00:23<00:11, 5.98it/s][2024-01-01 09:26:35,166] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
68%|███████████████████████████▊ | 141/208 [00:23<00:11, 5.98it/s][2024-01-01 09:26:35,337] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
68%|███████████████████████████▉ | 142/208 [00:23<00:11, 5.95it/s][2024-01-01 09:26:35,506] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
69%|████████████████████████████▏ | 143/208 [00:24<00:10, 5.93it/s][2024-01-01 09:26:35,677] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
69%|████████████████████████████▍ | 144/208 [00:24<00:10, 5.91it/s][2024-01-01 09:26:35,846] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
70%|████████████████████████████▌ | 145/208 [00:24<00:10, 5.91it/s][2024-01-01 09:26:36,013] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
70%|████████████████████████████▊ | 146/208 [00:24<00:10, 5.93it/s][2024-01-01 09:26:36,181] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
71%|████████████████████████████▉ | 147/208 [00:24<00:10, 5.94it/s][2024-01-01 09:26:36,347] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
71%|█████████████████████████████▏ | 148/208 [00:24<00:10, 5.97it/s][2024-01-01 09:26:36,518] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
72%|█████████████████████████████▎ | 149/208 [00:25<00:09, 5.93it/s][2024-01-01 09:26:36,685] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
72%|█████████████████████████████▌ | 150/208 [00:25<00:09, 5.94it/s][2024-01-01 09:26:36,856] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
73%|█████████████████████████████▊ | 151/208 [00:25<00:09, 5.92it/s][2024-01-01 09:26:37,024] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
73%|█████████████████████████████▉ | 152/208 [00:25<00:09, 5.92it/s][2024-01-01 09:26:37,191] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
74%|██████████████████████████████▏ | 153/208 [00:25<00:09, 5.94it/s][2024-01-01 09:26:37,360] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
74%|██████████████████████████████▎ | 154/208 [00:25<00:09, 5.94it/s][2024-01-01 09:26:37,531] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
75%|██████████████████████████████▌ | 155/208 [00:26<00:08, 5.92it/s][2024-01-01 09:26:37,700] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
75%|██████████████████████████████▊ | 156/208 [00:26<00:08, 5.91it/s][2024-01-01 09:26:37,867] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
75%|██████████████████████████████▉ | 157/208 [00:26<00:08, 5.93it/s][2024-01-01 09:26:38,036] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
76%|███████████████████████████████▏ | 158/208 [00:26<00:08, 5.93it/s][2024-01-01 09:26:38,209] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
76%|███████████████████████████████▎ | 159/208 [00:26<00:08, 5.88it/s][2024-01-01 09:26:38,385] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
77%|███████████████████████████████▌ | 160/208 [00:26<00:08, 5.82it/s][2024-01-01 09:26:38,561] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
77%|███████████████████████████████▋ | 161/208 [00:27<00:08, 5.78it/s][2024-01-01 09:26:38,730] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
78%|███████████████████████████████▉ | 162/208 [00:27<00:07, 5.82it/s][2024-01-01 09:26:38,901] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
78%|████████████████████████████████▏ | 163/208 [00:27<00:07, 5.83it/s][2024-01-01 09:26:39,073] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
79%|████████████████████████████████▎ | 164/208 [00:27<00:07, 5.82it/s][2024-01-01 09:26:39,243] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
79%|████████████████████████████████▌ | 165/208 [00:27<00:07, 5.84it/s][2024-01-01 09:26:39,414] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
80%|████████████████████████████████▋ | 166/208 [00:27<00:07, 5.84it/s][2024-01-01 09:26:39,585] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
80%|████████████████████████████████▉ | 167/208 [00:28<00:07, 5.84it/s][2024-01-01 09:26:39,755] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
81%|█████████████████████████████████ | 168/208 [00:28<00:06, 5.86it/s][2024-01-01 09:26:39,932] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
81%|█████████████████████████████████▎ | 169/208 [00:28<00:06, 5.79it/s][2024-01-01 09:26:40,107] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
82%|█████████████████████████████████▌ | 170/208 [00:28<00:06, 5.77it/s][2024-01-01 09:26:40,277] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
82%|█████████████████████████████████▋ | 171/208 [00:28<00:06, 5.81it/s][2024-01-01 09:26:40,446] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
83%|█████████████████████████████████▉ | 172/208 [00:29<00:06, 5.83it/s][2024-01-01 09:26:40,618] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
83%|██████████████████████████████████ | 173/208 [00:29<00:06, 5.83it/s][2024-01-01 09:26:40,786] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
84%|██████████████████████████████████▎ | 174/208 [00:29<00:05, 5.87it/s][2024-01-01 09:26:40,954] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
84%|██████████████████████████████████▍ | 175/208 [00:29<00:05, 5.89it/s][2024-01-01 09:26:41,125] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
85%|██████████████████████████████████▋ | 176/208 [00:29<00:05, 5.88it/s][2024-01-01 09:26:41,295] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
85%|██████████████████████████████████▉ | 177/208 [00:29<00:05, 5.88it/s][2024-01-01 09:26:41,464] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
86%|███████████████████████████████████ | 178/208 [00:30<00:05, 5.89it/s][2024-01-01 09:26:41,631] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
86%|███████████████████████████████████▎ | 179/208 [00:30<00:04, 5.92it/s][2024-01-01 09:26:41,802] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
87%|███████████████████████████████████▍ | 180/208 [00:30<00:04, 5.90it/s][2024-01-01 09:26:41,971] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
87%|███████████████████████████████████▋ | 181/208 [00:30<00:04, 5.90it/s][2024-01-01 09:26:42,138] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
88%|███████████████████████████████████▉ | 182/208 [00:30<00:04, 5.93it/s][2024-01-01 09:26:42,306] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
88%|████████████████████████████████████ | 183/208 [00:30<00:04, 5.94it/s][2024-01-01 09:26:42,474] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
88%|████████████████████████████████████▎ | 184/208 [00:31<00:04, 5.94it/s][2024-01-01 09:26:42,643] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
89%|████████████████████████████████████▍ | 185/208 [00:31<00:03, 5.93it/s][2024-01-01 09:26:42,811] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
89%|████████████████████████████████████▋ | 186/208 [00:31<00:03, 5.94it/s][2024-01-01 09:26:42,980] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
90%|████████████████████████████████████▊ | 187/208 [00:31<00:03, 5.94it/s][2024-01-01 09:26:43,150] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
90%|█████████████████████████████████████ | 188/208 [00:31<00:03, 5.91it/s][2024-01-01 09:26:43,322] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
91%|█████████████████████████████████████▎ | 189/208 [00:31<00:03, 5.89it/s][2024-01-01 09:26:43,491] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
91%|█████████████████████████████████████▍ | 190/208 [00:32<00:03, 5.89it/s][2024-01-01 09:26:43,661] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
92%|█████████████████████████████████████▋ | 191/208 [00:32<00:02, 5.89it/s][2024-01-01 09:26:43,833] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
92%|█████████████████████████████████████▊ | 192/208 [00:32<00:02, 5.87it/s][2024-01-01 09:26:44,002] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
93%|██████████████████████████████████████ | 193/208 [00:32<00:02, 5.88it/s][2024-01-01 09:26:44,174] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
93%|██████████████████████████████████████▏ | 194/208 [00:32<00:02, 5.87it/s][2024-01-01 09:26:44,337] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
94%|██████████████████████████████████████▍ | 195/208 [00:32<00:02, 5.94it/s][2024-01-01 09:26:44,506] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
94%|██████████████████████████████████████▋ | 196/208 [00:33<00:02, 5.94it/s][2024-01-01 09:26:44,673] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
95%|██████████████████████████████████████▊ | 197/208 [00:33<00:01, 5.95it/s][2024-01-01 09:26:44,843] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
95%|███████████████████████████████████████ | 198/208 [00:33<00:01, 5.93it/s][2024-01-01 09:26:45,014] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
96%|███████████████████████████████████████▏ | 199/208 [00:33<00:01, 5.90it/s][2024-01-01 09:26:45,186] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
96%|███████████████████████████████████████▍ | 200/208 [00:33<00:01, 5.88it/s][2024-01-01 09:26:45,354] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
97%|███████████████████████████████████████▌ | 201/208 [00:33<00:01, 5.90it/s][2024-01-01 09:26:45,525] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
97%|███████████████████████████████████████▊ | 202/208 [00:34<00:01, 5.88it/s][2024-01-01 09:26:45,692] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
98%|████████████████████████████████████████ | 203/208 [00:34<00:00, 5.92it/s][2024-01-01 09:26:45,864] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
98%|████████████████████████████████████████▏| 204/208 [00:34<00:00, 5.89it/s][2024-01-01 09:26:46,027] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
{'eval_loss': 1.0423786640167236, 'eval_runtime': 34.7727, 'eval_samples_per_second': 31.404, 'eval_steps_per_second': 31.404, 'epoch': 0.5}
50%|████████████████████ | 746/1490 [53:31<51:59, 4.19s/it]
99%|████████████████████████████████████████▍| 205/208 [00:34<00:00, 5.95it/s]
{'loss': 1.1375, 'learning_rate': 0.00010170962699438553, 'epoch': 0.5}
{'loss': 1.0644, 'learning_rate': 0.00010149594070152638, 'epoch': 0.5}
{'loss': 1.072, 'learning_rate': 0.00010128224757617274, 'epoch': 0.5}
{'loss': 0.9392, 'learning_rate': 0.00010106854859433734, 'epoch': 0.5}
{'loss': 1.0311, 'learning_rate': 0.00010085484473205955, 'epoch': 0.5}
{'loss': 1.0226, 'learning_rate': 0.00010064113696540111, 'epoch': 0.5}
{'loss': 1.0988, 'learning_rate': 0.00010042742627044161, 'epoch': 0.51}
{'loss': 1.1244, 'learning_rate': 0.00010021371362327397, 'epoch': 0.51}
{'loss': 0.9518, 'learning_rate': 0.0001, 'epoch': 0.51}
{'loss': 1.1565, 'learning_rate': 9.978628637672604e-05, 'epoch': 0.51}
{'loss': 1.1247, 'learning_rate': 9.95725737295584e-05, 'epoch': 0.51}
{'loss': 1.1311, 'learning_rate': 9.93588630345989e-05, 'epoch': 0.51}
{'loss': 1.0915, 'learning_rate': 9.914515526794049e-05, 'epoch': 0.51}
{'loss': 1.1093, 'learning_rate': 9.893145140566269e-05, 'epoch': 0.51}
{'loss': 1.0519, 'learning_rate': 9.871775242382727e-05, 'epoch': 0.51}
{'loss': 1.0835, 'learning_rate': 9.850405929847366e-05, 'epoch': 0.51}
{'loss': 0.9622, 'learning_rate': 9.829037300561448e-05, 'epoch': 0.51}
{'loss': 1.1465, 'learning_rate': 9.80766945212313e-05, 'epoch': 0.51}
{'loss': 1.1448, 'learning_rate': 9.786302482126986e-05, 'epoch': 0.51}
{'loss': 1.0435, 'learning_rate': 9.764936488163585e-05, 'epoch': 0.51}
{'loss': 0.9501, 'learning_rate': 9.743571567819046e-05, 'epoch': 0.51}
{'loss': 1.1063, 'learning_rate': 9.722207818674569e-05, 'epoch': 0.52}
{'loss': 1.2243, 'learning_rate': 9.700845338306018e-05, 'epoch': 0.52}
{'loss': 1.0896, 'learning_rate': 9.679484224283449e-05, 'epoch': 0.52}
{'loss': 1.1116, 'learning_rate': 9.658124574170693e-05, 'epoch': 0.52}
{'loss': 1.1441, 'learning_rate': 9.63676648552488e-05, 'epoch': 0.52}
{'loss': 0.9918, 'learning_rate': 9.615410055896015e-05, 'epoch': 0.52}
{'loss': 1.1692, 'learning_rate': 9.594055382826535e-05, 'epoch': 0.52}
{'loss': 1.0098, 'learning_rate': 9.572702563850834e-05, 'epoch': 0.52}
{'loss': 1.0457, 'learning_rate': 9.551351696494854e-05, 'epoch': 0.52}
{'loss': 1.0456, 'learning_rate': 9.530002878275613e-05, 'epoch': 0.52}
{'loss': 1.0779, 'learning_rate': 9.508656206700778e-05, 'epoch': 0.52}
{'loss': 0.9631, 'learning_rate': 9.48731177926821e-05, 'epoch': 0.52}
{'loss': 1.0689, 'learning_rate': 9.46596969346551e-05, 'epoch': 0.52}
{'loss': 0.9671, 'learning_rate': 9.444630046769605e-05, 'epoch': 0.52}
{'loss': 1.1271, 'learning_rate': 9.423292936646257e-05, 'epoch': 0.52}
{'loss': 1.0348, 'learning_rate': 9.401958460549658e-05, 'epoch': 0.53}
{'loss': 0.9709, 'learning_rate': 9.38062671592197e-05, 'epoch': 0.53}
{'loss': 1.075, 'learning_rate': 9.359297800192872e-05, 'epoch': 0.53}
{'loss': 1.0512, 'learning_rate': 9.337971810779126e-05, 'epoch': 0.53}
{'loss': 1.0615, 'learning_rate': 9.316648845084127e-05, 'epoch': 0.53}
{'loss': 1.1467, 'learning_rate': 9.29532900049746e-05, 'epoch': 0.53}
{'loss': 1.0792, 'learning_rate': 9.274012374394465e-05, 'epoch': 0.53}
{'loss': 1.1769, 'learning_rate': 9.252699064135758e-05, 'epoch': 0.53}
{'loss': 0.9869, 'learning_rate': 9.231389167066837e-05, 'epoch': 0.53}
{'loss': 1.1098, 'learning_rate': 9.210082780517589e-05, 'epoch': 0.53}
{'loss': 1.089, 'learning_rate': 9.188780001801884e-05, 'epoch': 0.53}
{'loss': 0.9889, 'learning_rate': 9.167480928217108e-05, 'epoch': 0.53}
{'loss': 1.01, 'learning_rate': 9.146185657043715e-05, 'epoch': 0.53}
{'loss': 1.0503, 'learning_rate': 9.124894285544809e-05, 'epoch': 0.53}
{'loss': 1.0995, 'learning_rate': 9.103606910965666e-05, 'epoch': 0.53}
{'loss': 0.9992, 'learning_rate': 9.082323630533316e-05, 'epoch': 0.54}
{'loss': 1.0854, 'learning_rate': 9.061044541456096e-05, 'epoch': 0.54}
{'loss': 1.12, 'learning_rate': 9.039769740923183e-05, 'epoch': 0.54}
{'loss': 1.0901, 'learning_rate': 9.018499326104179e-05, 'epoch': 0.54}
{'loss': 1.0975, 'learning_rate': 8.997233394148648e-05, 'epoch': 0.54}
{'loss': 1.0625, 'learning_rate': 8.975972042185687e-05, 'epoch': 0.54}
{'loss': 1.1133, 'learning_rate': 8.954715367323468e-05, 'epoch': 0.54}
{'loss': 1.0919, 'learning_rate': 8.933463466648798e-05, 'epoch': 0.54}
{'loss': 1.0711, 'learning_rate': 8.912216437226693e-05, 'epoch': 0.54}
{'loss': 1.0664, 'learning_rate': 8.890974376099904e-05, 'epoch': 0.54}
{'loss': 1.0861, 'learning_rate': 8.8697373802885e-05, 'epoch': 0.54}
{'loss': 1.1149, 'learning_rate': 8.848505546789408e-05, 'epoch': 0.54}
{'loss': 1.0279, 'learning_rate': 8.827278972575983e-05, 'epoch': 0.54}
{'loss': 0.9678, 'learning_rate': 8.806057754597558e-05, 'epoch': 0.54}
{'loss': 0.9733, 'learning_rate': 8.784841989778996e-05, 'epoch': 0.54}
{'loss': 1.0868, 'learning_rate': 8.763631775020267e-05, 'epoch': 0.55}
{'loss': 0.9751, 'learning_rate': 8.742427207195975e-05, 'epoch': 0.55}
{'loss': 1.0002, 'learning_rate': 8.721228383154939e-05, 'epoch': 0.55}
{'loss': 1.1573, 'learning_rate': 8.700035399719755e-05, 'epoch': 0.55}
{'loss': 0.9859, 'learning_rate': 8.678848353686327e-05, 'epoch': 0.55}
{'loss': 1.0114, 'learning_rate': 8.657667341823448e-05, 'epoch': 0.55}
{'loss': 1.2255, 'learning_rate': 8.636492460872348e-05, 'epoch': 0.55}
{'loss': 1.0015, 'learning_rate': 8.615323807546258e-05, 'epoch': 0.55}
{'loss': 1.0418, 'learning_rate': 8.594161478529974e-05, 'epoch': 0.55}
{'loss': 1.184, 'learning_rate': 8.57300557047938e-05, 'epoch': 0.55}
{'loss': 1.0409, 'learning_rate': 8.551856180021064e-05, 'epoch': 0.55}
{'loss': 1.0732, 'learning_rate': 8.530713403751821e-05, 'epoch': 0.55}
{'loss': 0.9953, 'learning_rate': 8.509577338238255e-05, 'epoch': 0.55}
{'loss': 1.101, 'learning_rate': 8.488448080016312e-05, 'epoch': 0.55}
{'loss': 0.9768, 'learning_rate': 8.46732572559084e-05, 'epoch': 0.55}
{'loss': 1.0089, 'learning_rate': 8.446210371435171e-05, 'epoch': 0.56}
{'loss': 1.0982, 'learning_rate': 8.425102113990647e-05, 'epoch': 0.56}
{'loss': 1.0522, 'learning_rate': 8.404001049666211e-05, 'epoch': 0.56}
{'loss': 1.0909, 'learning_rate': 8.382907274837937e-05, 'epoch': 0.56}
{'loss': 1.1724, 'learning_rate': 8.361820885848624e-05, 'epoch': 0.56}
{'loss': 1.0811, 'learning_rate': 8.340741979007325e-05, 'epoch': 0.56}
{'loss': 1.1585, 'learning_rate': 8.319670650588916e-05, 'epoch': 0.56}
{'loss': 0.986, 'learning_rate': 8.298606996833676e-05, 'epoch': 0.56}
{'loss': 1.0583, 'learning_rate': 8.277551113946812e-05, 'epoch': 0.56}
{'loss': 1.0711, 'learning_rate': 8.25650309809805e-05, 'epoch': 0.56}
{'loss': 1.0769, 'learning_rate': 8.235463045421186e-05, 'epoch': 0.56}
{'loss': 1.1907, 'learning_rate': 8.214431052013634e-05, 'epoch': 0.56}
{'loss': 1.1879, 'learning_rate': 8.193407213936012e-05, 'epoch': 0.56}
{'loss': 1.2084, 'learning_rate': 8.172391627211679e-05, 'epoch': 0.56}
{'loss': 1.0455, 'learning_rate': 8.151384387826313e-05, 'epoch': 0.56}
{'loss': 1.0879, 'learning_rate': 8.130385591727468e-05, 'epoch': 0.57}
{'loss': 1.1655, 'learning_rate': 8.109395334824126e-05, 'epoch': 0.57}
{'loss': 1.1898, 'learning_rate': 8.08841371298628e-05, 'epoch': 0.57}
{'loss': 1.1807, 'learning_rate': 8.067440822044469e-05, 'epoch': 0.57}
{'loss': 1.1386, 'learning_rate': 8.046476757789365e-05, 'epoch': 0.57}
{'loss': 0.9999, 'learning_rate': 8.02552161597133e-05, 'epoch': 0.57}
{'loss': 1.1481, 'learning_rate': 8.00457549229996e-05, 'epoch': 0.57}
{'loss': 1.1138, 'learning_rate': 7.98363848244367e-05, 'epoch': 0.57}
{'loss': 1.0626, 'learning_rate': 7.962710682029245e-05, 'epoch': 0.57}
{'loss': 1.1689, 'learning_rate': 7.941792186641417e-05, 'epoch': 0.57}
{'loss': 1.0232, 'learning_rate': 7.920883091822408e-05, 'epoch': 0.57}
{'loss': 1.0726, 'learning_rate': 7.899983493071507e-05, 'epoch': 0.57}
{'loss': 1.0831, 'learning_rate': 7.879093485844635e-05, 'epoch': 0.57}
{'loss': 1.1448, 'learning_rate': 7.858213165553897e-05, 'epoch': 0.57}
{'loss': 1.0623, 'learning_rate': 7.837342627567165e-05, 'epoch': 0.57}
{'loss': 0.9493, 'learning_rate': 7.816481967207626e-05, 'epoch': 0.58}
{'loss': 1.063, 'learning_rate': 7.795631279753346e-05, 'epoch': 0.58}
{'loss': 0.9908, 'learning_rate': 7.774790660436858e-05, 'epoch': 0.58}
{'loss': 1.0208, 'learning_rate': 7.75396020444469e-05, 'epoch': 0.58}
{'loss': 1.1384, 'learning_rate': 7.733140006916968e-05, 'epoch': 0.58}
{'loss': 1.0038, 'learning_rate': 7.712330162946948e-05, 'epoch': 0.58}
{'loss': 1.0869, 'learning_rate': 7.691530767580613e-05, 'epoch': 0.58}
{'loss': 1.1314, 'learning_rate': 7.670741915816217e-05, 'epoch': 0.58}
{'loss': 0.9818, 'learning_rate': 7.649963702603849e-05, 'epoch': 0.58}
{'loss': 1.0342, 'learning_rate': 7.629196222845026e-05, 'epoch': 0.58}
{'loss': 1.2742, 'learning_rate': 7.608439571392227e-05, 'epoch': 0.58}
{'loss': 1.0247, 'learning_rate': 7.587693843048475e-05, 'epoch': 0.58}
{'loss': 1.101, 'learning_rate': 7.566959132566915e-05, 'epoch': 0.58}
{'loss': 1.111, 'learning_rate': 7.546235534650354e-05, 'epoch': 0.58}
{'loss': 1.0845, 'learning_rate': 7.525523143950859e-05, 'epoch': 0.58}
{'loss': 1.1478, 'learning_rate': 7.504822055069293e-05, 'epoch': 0.59}
{'loss': 1.0307, 'learning_rate': 7.484132362554915e-05, 'epoch': 0.59}
{'loss': 1.061, 'learning_rate': 7.463454160904928e-05, 'epoch': 0.59}
{'loss': 1.0101, 'learning_rate': 7.442787544564044e-05, 'epoch': 0.59}
{'loss': 1.1262, 'learning_rate': 7.422132607924075e-05, 'epoch': 0.59}
{'loss': 0.9822, 'learning_rate': 7.401489445323473e-05, 'epoch': 0.59}
{'loss': 1.0605, 'learning_rate': 7.380858151046921e-05, 'epoch': 0.59}
{'loss': 1.1884, 'learning_rate': 7.360238819324903e-05, 'epoch': 0.59}
{'loss': 1.0804, 'learning_rate': 7.339631544333249e-05, 'epoch': 0.59}
{'loss': 1.2037, 'learning_rate': 7.319036420192737e-05, 'epoch': 0.59}
{'loss': 0.9852, 'learning_rate': 7.298453540968633e-05, 'epoch': 0.59}
{'loss': 1.2517, 'learning_rate': 7.27788300067029e-05, 'epoch': 0.59}
{'loss': 1.0758, 'learning_rate': 7.257324893250698e-05, 'epoch': 0.59}
{'loss': 0.9479, 'learning_rate': 7.236779312606059e-05, 'epoch': 0.59}
{'loss': 1.0986, 'learning_rate': 7.21624635257537e-05, 'epoch': 0.6}
{'loss': 0.9997, 'learning_rate': 7.195726106939974e-05, 'epoch': 0.6}
{'loss': 1.1232, 'learning_rate': 7.175218669423153e-05, 'epoch': 0.6}
{'loss': 1.0681, 'learning_rate': 7.154724133689677e-05, 'epoch': 0.6}
{'loss': 1.0626, 'learning_rate': 7.134242593345402e-05, 'epoch': 0.6}
{'loss': 1.086, 'learning_rate': 7.113774141936829e-05, 'epoch': 0.6}
{'loss': 1.0906, 'learning_rate': 7.093318872950665e-05, 'epoch': 0.6}
{'loss': 1.0931, 'learning_rate': 7.07287687981342e-05, 'epoch': 0.6}
{'loss': 1.1231, 'learning_rate': 7.052448255890957e-05, 'epoch': 0.6}
{'loss': 1.0377, 'learning_rate': 7.032033094488095e-05, 'epoch': 0.6}
{'loss': 1.0134, 'learning_rate': 7.011631488848148e-05, 'epoch': 0.6}
{'loss': 1.1304, 'learning_rate': 6.991243532152518e-05, 'epoch': 0.6}
{'loss': 1.0664, 'learning_rate': 6.97086931752028e-05, 'epoch': 0.6}
{'loss': 1.1311, 'learning_rate': 6.950508938007729e-05, 'epoch': 0.6}
{'loss': 1.033, 'learning_rate': 6.930162486607976e-05, 'epoch': 0.6}
{'loss': 1.1203, 'learning_rate': 6.909830056250527e-05, 'epoch': 0.61}
{'loss': 1.1201, 'learning_rate': 6.889511739800829e-05, 'epoch': 0.61}
{'loss': 1.0513, 'learning_rate': 6.869207630059885e-05, 'epoch': 0.61}
{'loss': 1.0915, 'learning_rate': 6.848917819763793e-05, 'epoch': 0.61}
{'loss': 1.0848, 'learning_rate': 6.828642401583358e-05, 'epoch': 0.61}
{'loss': 0.9913, 'learning_rate': 6.808381468123642e-05, 'epoch': 0.61}
{'loss': 1.0057, 'learning_rate': 6.788135111923545e-05, 'epoch': 0.61}
{'loss': 1.0037, 'learning_rate': 6.767903425455401e-05, 'epoch': 0.61}
{'loss': 0.9903, 'learning_rate': 6.74768650112453e-05, 'epoch': 0.61}
{'loss': 1.1304, 'learning_rate': 6.72748443126883e-05, 'epoch': 0.61}
{'loss': 1.0858, 'learning_rate': 6.707297308158365e-05, 'epoch': 0.61}
{'loss': 0.9642, 'learning_rate': 6.687125223994917e-05, 'epoch': 0.61}
{'loss': 1.0652, 'learning_rate': 6.666968270911584e-05, 'epoch': 0.61}
{'loss': 0.9648, 'learning_rate': 6.646826540972358e-05, 'epoch': 0.61}
{'loss': 1.1218, 'learning_rate': 6.626700126171702e-05, 'epoch': 0.61}
{'loss': 0.9891, 'learning_rate': 6.606589118434126e-05, 'epoch': 0.62}
{'loss': 1.0966, 'learning_rate': 6.586493609613768e-05, 'epoch': 0.62}
{'loss': 1.093, 'learning_rate': 6.566413691493989e-05, 'epoch': 0.62}
{'loss': 1.1199, 'learning_rate': 6.546349455786926e-05, 'epoch': 0.62}
{'loss': 1.0004, 'learning_rate': 6.5263009941331e-05, 'epoch': 0.62}
{'loss': 1.1167, 'learning_rate': 6.506268398100979e-05, 'epoch': 0.62}
{'loss': 1.1092, 'learning_rate': 6.486251759186572e-05, 'epoch': 0.62}
{'loss': 0.9442, 'learning_rate': 6.46625116881301e-05, 'epoch': 0.62}
{'loss': 1.0152, 'learning_rate': 6.446266718330113e-05, 'epoch': 0.62}
{'loss': 1.061, 'learning_rate': 6.426298499013994e-05, 'epoch': 0.62}
{'loss': 1.0196, 'learning_rate': 6.406346602066624e-05, 'epoch': 0.62}
{'loss': 1.015, 'learning_rate': 6.386411118615434e-05, 'epoch': 0.62}
{'loss': 1.0055, 'learning_rate': 6.366492139712886e-05, 'epoch': 0.62}
{'loss': 1.0984, 'learning_rate': 6.34658975633605e-05, 'epoch': 0.62}
{'loss': 1.1052, 'learning_rate': 6.326704059386212e-05, 'epoch': 0.62}
{'loss': 1.0747, 'learning_rate': 6.306835139688438e-05, 'epoch': 0.63}
{'loss': 0.9869, 'learning_rate': 6.286983087991162e-05, 'epoch': 0.63}
{'loss': 1.1104, 'learning_rate': 6.267147994965792e-05, 'epoch': 0.63}
{'loss': 1.1412, 'learning_rate': 6.24732995120626e-05, 'epoch': 0.63}
{'loss': 1.0579, 'learning_rate': 6.227529047228641e-05, 'epoch': 0.63}
{'loss': 1.0208, 'learning_rate': 6.207745373470716e-05, 'epoch': 0.63}
{'loss': 1.0547, 'learning_rate': 6.187979020291583e-05, 'epoch': 0.63}
{'loss': 1.0558, 'learning_rate': 6.168230077971225e-05, 'epoch': 0.63}
{'loss': 1.089, 'learning_rate': 6.148498636710092e-05, 'epoch': 0.63}
{'loss': 1.0323, 'learning_rate': 6.12878478662872e-05, 'epoch': 0.63}
{'loss': 1.1033, 'learning_rate': 6.109088617767287e-05, 'epoch': 0.63}
{'loss': 1.1768, 'learning_rate': 6.0894102200852134e-05, 'epoch': 0.63}
{'loss': 0.9717, 'learning_rate': 6.069749683460765e-05, 'epoch': 0.63}
{'loss': 1.2166, 'learning_rate': 6.050107097690615e-05, 'epoch': 0.63}
{'loss': 1.3007, 'learning_rate': 6.030482552489458e-05, 'epoch': 0.63}
{'loss': 1.2169, 'learning_rate': 6.010876137489584e-05, 'epoch': 0.64}
{'loss': 0.9198, 'learning_rate': 5.9912879422404864e-05, 'epoch': 0.64}
{'loss': 1.0786, 'learning_rate': 5.9717180562084305e-05, 'epoch': 0.64}
{'loss': 1.0754, 'learning_rate': 5.952166568776062e-05, 'epoch': 0.64}
{'loss': 1.0762, 'learning_rate': 5.9326335692419995e-05, 'epoch': 0.64}
{'loss': 0.9846, 'learning_rate': 5.913119146820409e-05, 'epoch': 0.64}
{'loss': 1.0611, 'learning_rate': 5.893623390640621e-05, 'epoch': 0.64}
{'loss': 1.0423, 'learning_rate': 5.874146389746696e-05, 'epoch': 0.64}
{'loss': 0.9691, 'learning_rate': 5.854688233097045e-05, 'epoch': 0.64}
{'loss': 1.0983, 'learning_rate': 5.835249009564012e-05, 'epoch': 0.64}
{'loss': 0.9829, 'learning_rate': 5.815828807933446e-05, 'epoch': 0.64}
{'loss': 0.963, 'learning_rate': 5.796427716904347e-05, 'epoch': 0.64}
{'loss': 1.1024, 'learning_rate': 5.777045825088404e-05, 'epoch': 0.64}
{'loss': 1.0489, 'learning_rate': 5.7576832210096245e-05, 'epoch': 0.64}
{'loss': 1.1274, 'learning_rate': 5.738339993103937e-05, 'epoch': 0.64}
{'loss': 0.985, 'learning_rate': 5.7190162297187475e-05, 'epoch': 0.65}
{'loss': 1.0667, 'learning_rate': 5.699712019112574e-05, 'epoch': 0.65}
{'loss': 1.1847, 'learning_rate': 5.680427449454631e-05, 'epoch': 0.65}
{'loss': 1.0307, 'learning_rate': 5.6611626088244194e-05, 'epoch': 0.65}
{'loss': 1.1479, 'learning_rate': 5.6419175852113385e-05, 'epoch': 0.65}
{'loss': 0.9619, 'learning_rate': 5.622692466514268e-05, 'epoch': 0.65}
{'loss': 1.0678, 'learning_rate': 5.60348734054118e-05, 'epoch': 0.65}
{'loss': 1.0786, 'learning_rate': 5.584302295008732e-05, 'epoch': 0.65}
{'loss': 1.0324, 'learning_rate': 5.5651374175418656e-05, 'epoch': 0.65}
{'loss': 0.9986, 'learning_rate': 5.545992795673408e-05, 'epoch': 0.65}
{'loss': 1.0364, 'learning_rate': 5.526868516843673e-05, 'epoch': 0.65}
{'loss': 1.0402, 'learning_rate': 5.507764668400064e-05, 'epoch': 0.65}
{'loss': 0.9805, 'learning_rate': 5.488681337596653e-05, 'epoch': 0.65}
{'loss': 1.0316, 'learning_rate': 5.46961861159383e-05, 'epoch': 0.65}
{'loss': 0.9934, 'learning_rate': 5.4505765774578576e-05, 'epoch': 0.65}
{'loss': 1.0922, 'learning_rate': 5.431555322160483e-05, 'epoch': 0.66}
{'loss': 1.1197, 'learning_rate': 5.4125549325785774e-05, 'epoch': 0.66}
{'loss': 1.0821, 'learning_rate': 5.393575495493679e-05, 'epoch': 0.66}
{'loss': 0.9566, 'learning_rate': 5.37461709759165e-05, 'epoch': 0.66}
{'loss': 1.0275, 'learning_rate': 5.3556798254622485e-05, 'epoch': 0.66}
{'loss': 1.0427, 'learning_rate': 5.3367637655987514e-05, 'epoch': 0.66}
{'loss': 1.0539, 'learning_rate': 5.317869004397544e-05, 'epoch': 0.66}
{'loss': 1.0338, 'learning_rate': 5.298995628157738e-05, 'epoch': 0.66}
{'loss': 1.03, 'learning_rate': 5.28014372308077e-05, 'epoch': 0.66}
{'loss': 1.1402, 'learning_rate': 5.261313375270014e-05, 'epoch': 0.66}
{'loss': 1.1153, 'learning_rate': 5.2425046707303796e-05, 'epoch': 0.66}
{'loss': 1.0757, 'learning_rate': 5.223717695367922e-05, 'epoch': 0.66}
{'loss': 0.9635, 'learning_rate': 5.2049525349894625e-05, 'epoch': 0.66}
{'loss': 1.0037, 'learning_rate': 5.1862092753021754e-05, 'epoch': 0.66}
{'loss': 1.0979, 'learning_rate': 5.167488001913201e-05, 'epoch': 0.66}
{'loss': 1.0261, 'learning_rate': 5.148788800329278e-05, 'epoch': 0.67}
{'loss': 1.0291, 'learning_rate': 5.130111755956327e-05, 'epoch': 0.67}
{'loss': 0.969, 'learning_rate': 5.111456954099064e-05, 'epoch': 0.67}
{'loss': 1.0719, 'learning_rate': 5.092824479960625e-05, 'epoch': 0.67}
{'loss': 0.9425, 'learning_rate': 5.074214418642148e-05, 'epoch': 0.67}
{'loss': 1.0337, 'learning_rate': 5.055626855142431e-05, 'epoch': 0.67}
{'loss': 1.1216, 'learning_rate': 5.0370618743575026e-05, 'epoch': 0.67}
{'loss': 1.0697, 'learning_rate': 5.018519561080236e-05, 'epoch': 0.67}
{'loss': 1.1614, 'learning_rate': 5.000000000000002e-05, 'epoch': 0.67}
{'loss': 1.1117, 'learning_rate': 4.981503275702227e-05, 'epoch': 0.67}
{'loss': 1.1252, 'learning_rate': 4.9630294726680436e-05, 'epoch': 0.67}
{'loss': 1.0325, 'learning_rate': 4.9445786752739087e-05, 'epoch': 0.67}
{'loss': 1.0597, 'learning_rate': 4.92615096779118e-05, 'epoch': 0.67}
{'loss': 1.0512, 'learning_rate': 4.9077464343857694e-05, 'epoch': 0.67}
{'loss': 1.1569, 'learning_rate': 4.889365159117744e-05, 'epoch': 0.67}
{'loss': 1.1629, 'learning_rate': 4.87100722594094e-05, 'epoch': 0.68}
{'loss': 0.9506, 'learning_rate': 4.852672718702581e-05, 'epoch': 0.68}
{'loss': 1.0503, 'learning_rate': 4.834361721142901e-05, 'epoch': 0.68}
{'loss': 1.0794, 'learning_rate': 4.8160743168947496e-05, 'epoch': 0.68}
{'loss': 1.1413, 'learning_rate': 4.797810589483225e-05, 'epoch': 0.68}
{'loss': 1.0526, 'learning_rate': 4.779570622325284e-05, 'epoch': 0.68}
{'loss': 1.1247, 'learning_rate': 4.7613544987293446e-05, 'epoch': 0.68}
{'loss': 1.0975, 'learning_rate': 4.743162301894952e-05, 'epoch': 0.68}
{'loss': 1.0543, 'learning_rate': 4.724994114912355e-05, 'epoch': 0.68}
{'loss': 1.1747, 'learning_rate': 4.706850020762126e-05, 'epoch': 0.68}
{'loss': 1.0518, 'learning_rate': 4.688730102314829e-05, 'epoch': 0.68}
{'loss': 0.9674, 'learning_rate': 4.670634442330577e-05, 'epoch': 0.68}
{'loss': 1.2856, 'learning_rate': 4.6525631234587034e-05, 'epoch': 0.68}
{'loss': 0.9326, 'learning_rate': 4.634516228237372e-05, 'epoch': 0.68}
{'loss': 1.1421, 'learning_rate': 4.616493839093179e-05, 'epoch': 0.68}
{'loss': 1.0735, 'learning_rate': 4.5984960383408005e-05, 'epoch': 0.69}
{'loss': 0.9708, 'learning_rate': 4.580522908182612e-05, 'epoch': 0.69}
{'loss': 1.0757, 'learning_rate': 4.5625745307083e-05, 'epoch': 0.69}
{'loss': 0.9348, 'learning_rate': 4.544650987894514e-05, 'epoch': 0.69}
{'loss': 1.1386, 'learning_rate': 4.526752361604455e-05, 'epoch': 0.69}
{'loss': 1.1635, 'learning_rate': 4.5088787335875315e-05, 'epoch': 0.69}
{'loss': 1.1715, 'learning_rate': 4.491030185478976e-05, 'epoch': 0.69}
{'loss': 0.994, 'learning_rate': 4.473206798799469e-05, 'epoch': 0.69}
{'loss': 1.0681, 'learning_rate': 4.4554086549547715e-05, 'epoch': 0.69}
{'loss': 1.0665, 'learning_rate': 4.437635835235353e-05, 'epoch': 0.69}
{'loss': 1.057, 'learning_rate': 4.4198884208160154e-05, 'epoch': 0.69}
{'loss': 1.1146, 'learning_rate': 4.4021664927555274e-05, 'epoch': 0.69}
{'loss': 1.1366, 'learning_rate': 4.384470131996252e-05, 'epoch': 0.69}
{'loss': 1.1554, 'learning_rate': 4.3667994193637796e-05, 'epoch': 0.69}
{'loss': 1.0955, 'learning_rate': 4.349154435566551e-05, 'epoch': 0.69}
{'loss': 1.0739, 'learning_rate': 4.331535261195504e-05, 'epoch': 0.7}
{'loss': 1.1056, 'learning_rate': 4.3139419767236766e-05, 'epoch': 0.7}
{'loss': 1.0453, 'learning_rate': 4.296374662505885e-05, 'epoch': 0.7}
{'loss': 1.0822, 'learning_rate': 4.278833398778306e-05, 'epoch': 0.7}
{'loss': 0.9837, 'learning_rate': 4.261318265658144e-05, 'epoch': 0.7}
{'loss': 1.1017, 'learning_rate': 4.2438293431432665e-05, 'epoch': 0.7}
{'loss': 1.0384, 'learning_rate': 4.2263667111118074e-05, 'epoch': 0.7}
{'loss': 1.0528, 'learning_rate': 4.208930449321835e-05, 'epoch': 0.7}
{'loss': 1.2025, 'learning_rate': 4.191520637410974e-05, 'epoch': 0.7}
{'loss': 1.0663, 'learning_rate': 4.174137354896039e-05, 'epoch': 0.7}
{'loss': 0.9504, 'learning_rate': 4.156780681172683e-05, 'epoch': 0.7}
{'loss': 0.978, 'learning_rate': 4.139450695515018e-05, 'epoch': 0.7}
{'loss': 1.1349, 'learning_rate': 4.12214747707527e-05, 'epoch': 0.7}
{'loss': 1.195, 'learning_rate': 4.1048711048834033e-05, 'epoch': 0.7}
{'loss': 1.0654, 'learning_rate': 4.08762165784677e-05, 'epoch': 0.71}
{'loss': 0.9196, 'learning_rate': 4.0703992147497425e-05, 'epoch': 0.71}
{'loss': 1.0149, 'learning_rate': 4.053203854253361e-05, 'epoch': 0.71}
{'loss': 1.0468, 'learning_rate': 4.036035654894967e-05, 'epoch': 0.71}
{'loss': 0.9914, 'learning_rate': 4.0188946950878404e-05, 'epoch': 0.71}
{'loss': 1.224, 'learning_rate': 4.001781053120863e-05, 'epoch': 0.71}
{'loss': 1.0089, 'learning_rate': 3.9846948071581356e-05, 'epoch': 0.71}
{'loss': 1.1221, 'learning_rate': 3.9676360352386356e-05, 'epoch': 0.71}
{'loss': 1.1187, 'learning_rate': 3.950604815275858e-05, 'epoch': 0.71}
{'loss': 1.0695, 'learning_rate': 3.933601225057446e-05, 'epoch': 0.71}
{'loss': 1.0702, 'learning_rate': 3.9166253422448686e-05, 'epoch': 0.71}
{'loss': 1.1012, 'learning_rate': 3.8996772443730335e-05, 'epoch': 0.71}
{'loss': 0.9564, 'learning_rate': 3.8827570088499356e-05, 'epoch': 0.71}
{'loss': 1.015, 'learning_rate': 3.8658647129563364e-05, 'epoch': 0.71}
{'loss': 0.974, 'learning_rate': 3.849000433845362e-05, 'epoch': 0.71}
{'loss': 1.0562, 'learning_rate': 3.8321642485421915e-05, 'epoch': 0.72}
{'loss': 1.0525, 'learning_rate': 3.8153562339436855e-05, 'epoch': 0.72}
{'loss': 0.9952, 'learning_rate': 3.798576466818038e-05, 'epoch': 0.72}
{'loss': 1.0286, 'learning_rate': 3.781825023804427e-05, 'epoch': 0.72}
{'loss': 1.1787, 'learning_rate': 3.7651019814126654e-05, 'epoch': 0.72}
{'loss': 1.027, 'learning_rate': 3.748407416022849e-05, 'epoch': 0.72}
{'loss': 1.0403, 'learning_rate': 3.731741403885008e-05, 'epoch': 0.72}
{'loss': 1.0242, 'learning_rate': 3.7151040211187635e-05, 'epoch': 0.72}
{'loss': 1.0668, 'learning_rate': 3.6984953437129734e-05, 'epoch': 0.72}
{'loss': 0.8514, 'learning_rate': 3.681915447525387e-05, 'epoch': 0.72}
{'loss': 1.0693, 'learning_rate': 3.665364408282305e-05, 'epoch': 0.72}
{'loss': 1.1645, 'learning_rate': 3.6488423015782125e-05, 'epoch': 0.72}
{'loss': 1.1009, 'learning_rate': 3.6323492028754726e-05, 'epoch': 0.72}
{'loss': 0.9671, 'learning_rate': 3.615885187503946e-05, 'epoch': 0.72}
{'loss': 1.0316, 'learning_rate': 3.5994503306606497e-05, 'epoch': 0.72}
{'loss': 1.2093, 'learning_rate': 3.583044707409449e-05, 'epoch': 0.73}
{'loss': 1.0483, 'learning_rate': 3.566668392680662e-05, 'epoch': 0.73}
{'loss': 0.9935, 'learning_rate': 3.550321461270756e-05, 'epoch': 0.73}
{'loss': 1.0303, 'learning_rate': 3.534003987842005e-05, 'epoch': 0.73}
{'loss': 0.9911, 'learning_rate': 3.517716046922118e-05, 'epoch': 0.73}
{'loss': 1.0909, 'learning_rate': 3.5014577129039295e-05, 'epoch': 0.73}
{'loss': 1.0469, 'learning_rate': 3.485229060045048e-05, 'epoch': 0.73}
{'loss': 1.1198, 'learning_rate': 3.469030162467513e-05, 'epoch': 0.73}
{'loss': 1.1047, 'learning_rate': 3.452861094157473e-05, 'epoch': 0.73}
{'loss': 1.1388, 'learning_rate': 3.436721928964819e-05, 'epoch': 0.73}
{'loss': 0.991, 'learning_rate': 3.4206127406028745e-05, 'epoch': 0.73}
{'loss': 1.0251, 'learning_rate': 3.4045336026480455e-05, 'epoch': 0.73}
{'loss': 1.0252, 'learning_rate': 3.388484588539489e-05, 'epoch': 0.73}
{'loss': 1.0819, 'learning_rate': 3.372465771578771e-05, 'epoch': 0.73}
{'loss': 1.1262, 'learning_rate': 3.3564772249295394e-05, 'epoch': 0.73}
{'loss': 0.9831, 'learning_rate': 3.340519021617189e-05, 'epoch': 0.74}
{'loss': 1.1417, 'learning_rate': 3.32459123452852e-05, 'epoch': 0.74}
{'loss': 1.1466, 'learning_rate': 3.308693936411421e-05, 'epoch': 0.74}
{'loss': 0.9759, 'learning_rate': 3.2928271998745074e-05, 'epoch': 0.74}
{'loss': 1.1186, 'learning_rate': 3.276991097386831e-05, 'epoch': 0.74}
{'loss': 1.1278, 'learning_rate': 3.2611857012775196e-05, 'epoch': 0.74}
{'loss': 0.9774, 'learning_rate': 3.24541108373544e-05, 'epoch': 0.74}
{'loss': 1.0001, 'learning_rate': 3.229667316808908e-05, 'epoch': 0.74}
{'loss': 1.0922, 'learning_rate': 3.213954472405308e-05, 'epoch': 0.74}
{'loss': 1.0792, 'learning_rate': 3.198272622290804e-05, 'epoch': 0.74}
{'loss': 1.0882, 'learning_rate': 3.1826218380900064e-05, 'epoch': 0.74}
{'loss': 1.0575, 'learning_rate': 3.167002191285614e-05, 'epoch': 0.74}
{'loss': 1.1285, 'learning_rate': 3.1514137532181265e-05, 'epoch': 0.74}
{'loss': 1.029, 'learning_rate': 3.135856595085498e-05, 'epoch': 0.74}
{'loss': 0.9633, 'learning_rate': 3.120330787942815e-05, 'epoch': 0.74}
{'loss': 0.9351, 'learning_rate': 3.104836402701973e-05, 'epoch': 0.75}
{'loss': 1.2202, 'learning_rate': 3.089373510131354e-05, 'epoch': 0.75}
{'loss': 1.2798, 'learning_rate': 3.0739421808555015e-05, 'epoch': 0.75}
{'loss': 1.0876, 'learning_rate': 3.058542485354795e-05, 'epoch': 0.75}
{'loss': 1.0433, 'learning_rate': 3.0431744939651364e-05, 'epoch': 0.75}
{'loss': 1.1982, 'learning_rate': 3.0278382768776192e-05, 'epoch': 0.75}
{'loss': 0.9521, 'learning_rate': 3.012533904138215e-05, 'epoch': 0.75}
{'loss': 1.1636, 'learning_rate': 2.9972614456474536e-05, 'epoch': 0.75}
{'loss': 1.0501, 'learning_rate': 2.9820209711600854e-05, 'epoch': 0.75}
75%|███████████████████████████▊ | 1119/1490 [1:19:31<25:59, 4.20s/it][2024-01-01 09:52:45,791] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
[2024-01-01 09:52:45,977] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
[2024-01-01 09:52:45,978] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
0%| | 0/208 [00:00<?, ?it/s][2024-01-01 09:52:46,154] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
1%|▍ | 2/208 [00:00<00:18, 11.37it/s][2024-01-01 09:52:46,333] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
[2024-01-01 09:52:46,505] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
2%|▊ | 4/208 [00:00<00:28, 7.18it/s][2024-01-01 09:52:46,679] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
2%|█ | 5/208 [00:00<00:30, 6.68it/s][2024-01-01 09:52:46,854] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
3%|█▏ | 6/208 [00:00<00:31, 6.36it/s][2024-01-01 09:52:47,034] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
3%|█▍ | 7/208 [00:01<00:32, 6.11it/s][2024-01-01 09:52:47,201] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
4%|█▋ | 8/208 [00:01<00:32, 6.06it/s][2024-01-01 09:52:47,371] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
4%|█▊ | 9/208 [00:01<00:33, 6.01it/s][2024-01-01 09:52:47,547] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
5%|██ | 10/208 [00:01<00:33, 5.90it/s][2024-01-01 09:52:47,719] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
5%|██▏ | 11/208 [00:01<00:33, 5.88it/s][2024-01-01 09:52:47,892] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
6%|██▍ | 12/208 [00:01<00:33, 5.85it/s][2024-01-01 09:52:48,065] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
6%|██▋ | 13/208 [00:02<00:33, 5.83it/s][2024-01-01 09:52:48,236] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
7%|██▊ | 14/208 [00:02<00:33, 5.84it/s][2024-01-01 09:52:48,410] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
7%|███ | 15/208 [00:02<00:33, 5.80it/s][2024-01-01 09:52:48,585] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
8%|███▏ | 16/208 [00:02<00:33, 5.78it/s][2024-01-01 09:52:48,766] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
8%|███▍ | 17/208 [00:02<00:33, 5.71it/s][2024-01-01 09:52:48,943] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
9%|███▋ | 18/208 [00:02<00:33, 5.68it/s][2024-01-01 09:52:49,117] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
9%|███▊ | 19/208 [00:03<00:33, 5.70it/s][2024-01-01 09:52:49,296] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
10%|████ | 20/208 [00:03<00:33, 5.67it/s][2024-01-01 09:52:49,472] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
10%|████▏ | 21/208 [00:03<00:32, 5.67it/s][2024-01-01 09:52:49,644] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
11%|████▍ | 22/208 [00:03<00:32, 5.72it/s][2024-01-01 09:52:49,821] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
11%|████▋ | 23/208 [00:03<00:32, 5.69it/s][2024-01-01 09:52:49,998] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
12%|████▊ | 24/208 [00:04<00:32, 5.68it/s][2024-01-01 09:52:50,174] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
12%|█████ | 25/208 [00:04<00:32, 5.68it/s][2024-01-01 09:52:50,343] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
12%|█████▎ | 26/208 [00:04<00:31, 5.75it/s][2024-01-01 09:52:50,518] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
13%|█████▍ | 27/208 [00:04<00:31, 5.74it/s][2024-01-01 09:52:50,688] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
13%|█████▋ | 28/208 [00:04<00:31, 5.78it/s][2024-01-01 09:52:50,854] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
14%|█████▊ | 29/208 [00:04<00:30, 5.85it/s][2024-01-01 09:52:51,025] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
14%|██████ | 30/208 [00:05<00:30, 5.85it/s][2024-01-01 09:52:51,195] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
15%|██████▎ | 31/208 [00:05<00:30, 5.86it/s][2024-01-01 09:52:51,367] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
15%|██████▍ | 32/208 [00:05<00:30, 5.85it/s][2024-01-01 09:52:51,536] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
16%|██████▋ | 33/208 [00:05<00:29, 5.87it/s][2024-01-01 09:52:51,707] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
16%|██████▊ | 34/208 [00:05<00:29, 5.86it/s][2024-01-01 09:52:51,876] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
17%|███████ | 35/208 [00:05<00:29, 5.88it/s][2024-01-01 09:52:52,044] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
17%|███████▎ | 36/208 [00:06<00:29, 5.90it/s][2024-01-01 09:52:52,214] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
18%|███████▍ | 37/208 [00:06<00:29, 5.89it/s][2024-01-01 09:52:52,399] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
18%|███████▋ | 38/208 [00:06<00:29, 5.73it/s][2024-01-01 09:52:52,571] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
19%|███████▉ | 39/208 [00:06<00:29, 5.77it/s][2024-01-01 09:52:52,741] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
19%|████████ | 40/208 [00:06<00:28, 5.80it/s][2024-01-01 09:52:52,925] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
20%|████████▎ | 41/208 [00:06<00:29, 5.69it/s][2024-01-01 09:52:53,094] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
20%|████████▍ | 42/208 [00:07<00:28, 5.75it/s][2024-01-01 09:52:53,267] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
21%|████████▋ | 43/208 [00:07<00:28, 5.76it/s][2024-01-01 09:52:53,440] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
21%|████████▉ | 44/208 [00:07<00:28, 5.77it/s][2024-01-01 09:52:53,619] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
22%|█████████ | 45/208 [00:07<00:28, 5.71it/s][2024-01-01 09:52:53,795] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
22%|█████████▎ | 46/208 [00:07<00:28, 5.71it/s][2024-01-01 09:52:53,972] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
23%|█████████▍ | 47/208 [00:07<00:28, 5.68it/s][2024-01-01 09:52:54,141] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
23%|█████████▋ | 48/208 [00:08<00:27, 5.75it/s][2024-01-01 09:52:54,315] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
24%|█████████▉ | 49/208 [00:08<00:27, 5.75it/s][2024-01-01 09:52:54,492] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
24%|██████████ | 50/208 [00:08<00:27, 5.73it/s][2024-01-01 09:52:54,663] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
25%|██████████▎ | 51/208 [00:08<00:27, 5.76it/s][2024-01-01 09:52:54,837] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
25%|██████████▌ | 52/208 [00:08<00:27, 5.75it/s][2024-01-01 09:52:55,010] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
25%|██████████▋ | 53/208 [00:09<00:26, 5.76it/s][2024-01-01 09:52:55,181] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
26%|██████████▉ | 54/208 [00:09<00:26, 5.79it/s][2024-01-01 09:52:55,358] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
26%|███████████ | 55/208 [00:09<00:26, 5.75it/s][2024-01-01 09:52:55,531] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
27%|███████████▎ | 56/208 [00:09<00:26, 5.76it/s][2024-01-01 09:52:55,706] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
27%|███████████▌ | 57/208 [00:09<00:26, 5.74it/s][2024-01-01 09:52:55,882] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
28%|███████████▋ | 58/208 [00:09<00:26, 5.73it/s][2024-01-01 09:52:56,052] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
28%|███████████▉ | 59/208 [00:10<00:25, 5.77it/s][2024-01-01 09:52:56,227] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
29%|████████████ | 60/208 [00:10<00:25, 5.75it/s][2024-01-01 09:52:56,402] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
29%|████████████▎ | 61/208 [00:10<00:25, 5.74it/s][2024-01-01 09:52:56,579] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
30%|████████████▌ | 62/208 [00:10<00:25, 5.71it/s][2024-01-01 09:52:56,751] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
30%|████████████▋ | 63/208 [00:10<00:25, 5.75it/s][2024-01-01 09:52:56,918] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
31%|████████████▉ | 64/208 [00:10<00:24, 5.81it/s][2024-01-01 09:52:57,089] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
31%|█████████████▏ | 65/208 [00:11<00:24, 5.83it/s][2024-01-01 09:52:57,261] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
32%|█████████████▎ | 66/208 [00:11<00:24, 5.82it/s][2024-01-01 09:52:57,433] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
32%|█████████████▌ | 67/208 [00:11<00:24, 5.82it/s][2024-01-01 09:52:57,604] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
33%|█████████████▋ | 68/208 [00:11<00:24, 5.83it/s][2024-01-01 09:52:57,777] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
33%|█████████████▉ | 69/208 [00:11<00:23, 5.82it/s][2024-01-01 09:52:57,949] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
34%|██████████████▏ | 70/208 [00:11<00:23, 5.82it/s][2024-01-01 09:52:58,120] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
34%|██████████████▎ | 71/208 [00:12<00:23, 5.82it/s][2024-01-01 09:52:58,293] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
35%|██████████████▌ | 72/208 [00:12<00:23, 5.81it/s][2024-01-01 09:52:58,463] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
35%|██████████████▋ | 73/208 [00:12<00:23, 5.83it/s][2024-01-01 09:52:58,633] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
36%|██████████████▉ | 74/208 [00:12<00:22, 5.84it/s][2024-01-01 09:52:58,806] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
36%|███████████████▏ | 75/208 [00:12<00:22, 5.83it/s][2024-01-01 09:52:58,978] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
37%|███████████████▎ | 76/208 [00:12<00:22, 5.82it/s][2024-01-01 09:52:59,151] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
37%|███████████████▌ | 77/208 [00:13<00:22, 5.81it/s][2024-01-01 09:52:59,320] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
38%|███████████████▊ | 78/208 [00:13<00:22, 5.84it/s][2024-01-01 09:52:59,492] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
38%|███████████████▉ | 79/208 [00:13<00:22, 5.83it/s][2024-01-01 09:52:59,664] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
38%|████████████████▏ | 80/208 [00:13<00:21, 5.83it/s][2024-01-01 09:52:59,830] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
39%|████████████████▎ | 81/208 [00:13<00:21, 5.88it/s][2024-01-01 09:53:00,002] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
39%|████████████████▌ | 82/208 [00:14<00:21, 5.86it/s][2024-01-01 09:53:00,172] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
40%|████████████████▊ | 83/208 [00:14<00:21, 5.87it/s][2024-01-01 09:53:00,345] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
40%|████████████████▉ | 84/208 [00:14<00:21, 5.84it/s][2024-01-01 09:53:00,521] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
41%|█████████████████▏ | 85/208 [00:14<00:21, 5.79it/s][2024-01-01 09:53:00,692] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
41%|█████████████████▎ | 86/208 [00:14<00:21, 5.81it/s][2024-01-01 09:53:00,867] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
42%|█████████████████▌ | 87/208 [00:14<00:20, 5.79it/s][2024-01-01 09:53:01,043] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
42%|█████████████████▊ | 88/208 [00:15<00:20, 5.75it/s][2024-01-01 09:53:01,217] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
43%|█████████████████▉ | 89/208 [00:15<00:20, 5.76it/s][2024-01-01 09:53:01,389] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
43%|██████████████████▏ | 90/208 [00:15<00:20, 5.77it/s][2024-01-01 09:53:01,560] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
44%|██████████████████▍ | 91/208 [00:15<00:20, 5.79it/s][2024-01-01 09:53:01,731] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
44%|██████████████████▌ | 92/208 [00:15<00:19, 5.80it/s][2024-01-01 09:53:01,909] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
45%|██████████████████▊ | 93/208 [00:15<00:19, 5.75it/s][2024-01-01 09:53:02,083] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
45%|██████████████████▉ | 94/208 [00:16<00:19, 5.75it/s][2024-01-01 09:53:02,257] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
46%|███████████████████▏ | 95/208 [00:16<00:19, 5.75it/s][2024-01-01 09:53:02,430] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
46%|███████████████████▍ | 96/208 [00:16<00:19, 5.76it/s][2024-01-01 09:53:02,604] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
47%|███████████████████▌ | 97/208 [00:16<00:19, 5.75it/s][2024-01-01 09:53:02,777] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
47%|███████████████████▊ | 98/208 [00:16<00:19, 5.76it/s][2024-01-01 09:53:02,951] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
48%|███████████████████▉ | 99/208 [00:16<00:18, 5.76it/s][2024-01-01 09:53:03,125] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
48%|███████████████████▋ | 100/208 [00:17<00:18, 5.76it/s][2024-01-01 09:53:03,297] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
49%|███████████████████▉ | 101/208 [00:17<00:18, 5.77it/s][2024-01-01 09:53:03,470] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
49%|████████████████████ | 102/208 [00:17<00:18, 5.78it/s][2024-01-01 09:53:03,640] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
50%|████████████████████▎ | 103/208 [00:17<00:18, 5.80it/s][2024-01-01 09:53:03,813] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
50%|████████████████████▌ | 104/208 [00:17<00:17, 5.80it/s][2024-01-01 09:53:03,980] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
50%|████████████████████▋ | 105/208 [00:18<00:17, 5.86it/s][2024-01-01 09:53:04,153] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
51%|████████████████████▉ | 106/208 [00:18<00:17, 5.83it/s][2024-01-01 09:53:04,327] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
51%|█████████████████████ | 107/208 [00:18<00:17, 5.81it/s][2024-01-01 09:53:04,501] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
52%|█████████████████████▎ | 108/208 [00:18<00:17, 5.79it/s][2024-01-01 09:53:04,673] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
52%|█████████████████████▍ | 109/208 [00:18<00:17, 5.79it/s][2024-01-01 09:53:04,841] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
53%|█████████████████████▋ | 110/208 [00:18<00:16, 5.84it/s][2024-01-01 09:53:05,007] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
53%|█████████████████████▉ | 111/208 [00:19<00:16, 5.89it/s][2024-01-01 09:53:05,178] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
54%|██████████████████████ | 112/208 [00:19<00:16, 5.88it/s][2024-01-01 09:53:05,349] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
54%|██████████████████████▎ | 113/208 [00:19<00:16, 5.87it/s][2024-01-01 09:53:05,520] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
55%|██████████████████████▍ | 114/208 [00:19<00:16, 5.87it/s][2024-01-01 09:53:05,687] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
55%|██████████████████████▋ | 115/208 [00:19<00:15, 5.90it/s][2024-01-01 09:53:05,858] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
56%|██████████████████████▊ | 116/208 [00:19<00:15, 5.89it/s][2024-01-01 09:53:06,021] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
56%|███████████████████████ | 117/208 [00:20<00:15, 5.96it/s][2024-01-01 09:53:06,190] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
57%|███████████████████████▎ | 118/208 [00:20<00:15, 5.94it/s][2024-01-01 09:53:06,364] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
57%|███████████████████████▍ | 119/208 [00:20<00:15, 5.89it/s][2024-01-01 09:53:06,537] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
58%|███████████████████████▋ | 120/208 [00:20<00:15, 5.85it/s][2024-01-01 09:53:06,710] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
58%|███████████████████████▊ | 121/208 [00:20<00:14, 5.83it/s][2024-01-01 09:53:06,884] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
59%|████████████████████████ | 122/208 [00:20<00:14, 5.81it/s][2024-01-01 09:53:07,055] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
59%|████████████████████████▏ | 123/208 [00:21<00:14, 5.82it/s][2024-01-01 09:53:07,227] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
60%|████████████████████████▍ | 124/208 [00:21<00:14, 5.82it/s][2024-01-01 09:53:07,395] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
60%|████████████████████████▋ | 125/208 [00:21<00:14, 5.85it/s][2024-01-01 09:53:07,567] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
61%|████████████████████████▊ | 126/208 [00:21<00:14, 5.84it/s][2024-01-01 09:53:07,740] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
61%|█████████████████████████ | 127/208 [00:21<00:13, 5.83it/s][2024-01-01 09:53:07,909] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
62%|█████████████████████████▏ | 128/208 [00:21<00:13, 5.85it/s][2024-01-01 09:53:08,081] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
62%|█████████████████████████▍ | 129/208 [00:22<00:13, 5.85it/s][2024-01-01 09:53:08,252] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
62%|█████████████████████████▋ | 130/208 [00:22<00:13, 5.85it/s][2024-01-01 09:53:08,429] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
63%|█████████████████████████▊ | 131/208 [00:22<00:13, 5.78it/s][2024-01-01 09:53:08,599] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
63%|██████████████████████████ | 132/208 [00:22<00:13, 5.81it/s][2024-01-01 09:53:08,770] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
64%|██████████████████████████▏ | 133/208 [00:22<00:12, 5.82it/s][2024-01-01 09:53:08,937] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
64%|██████████████████████████▍ | 134/208 [00:22<00:12, 5.87it/s][2024-01-01 09:53:09,111] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
65%|██████████████████████████▌ | 135/208 [00:23<00:12, 5.84it/s][2024-01-01 09:53:09,283] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
65%|██████████████████████████▊ | 136/208 [00:23<00:12, 5.83it/s][2024-01-01 09:53:09,455] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
66%|███████████████████████████ | 137/208 [00:23<00:12, 5.82it/s][2024-01-01 09:53:09,624] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
66%|███████████████████████████▏ | 138/208 [00:23<00:11, 5.85it/s][2024-01-01 09:53:09,792] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
67%|███████████████████████████▍ | 139/208 [00:23<00:11, 5.88it/s][2024-01-01 09:53:09,959] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
67%|███████████████████████████▌ | 140/208 [00:23<00:11, 5.91it/s][2024-01-01 09:53:10,128] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
68%|███████████████████████████▊ | 141/208 [00:24<00:11, 5.92it/s][2024-01-01 09:53:10,303] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
68%|███████████████████████████▉ | 142/208 [00:24<00:11, 5.86it/s][2024-01-01 09:53:10,476] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
69%|████████████████████████████▏ | 143/208 [00:24<00:11, 5.83it/s][2024-01-01 09:53:10,650] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
69%|████████████████████████████▍ | 144/208 [00:24<00:11, 5.80it/s][2024-01-01 09:53:10,822] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
70%|████████████████████████████▌ | 145/208 [00:24<00:10, 5.81it/s][2024-01-01 09:53:10,992] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
70%|████████████████████████████▊ | 146/208 [00:25<00:10, 5.83it/s][2024-01-01 09:53:11,167] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
71%|████████████████████████████▉ | 147/208 [00:25<00:10, 5.79it/s][2024-01-01 09:53:11,337] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
71%|█████████████████████████████▏ | 148/208 [00:25<00:10, 5.82it/s][2024-01-01 09:53:11,509] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
72%|█████████████████████████████▎ | 149/208 [00:25<00:10, 5.82it/s][2024-01-01 09:53:11,679] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
72%|█████████████████████████████▌ | 150/208 [00:25<00:09, 5.84it/s][2024-01-01 09:53:11,851] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
73%|█████████████████████████████▊ | 151/208 [00:25<00:09, 5.83it/s][2024-01-01 09:53:12,026] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
73%|█████████████████████████████▉ | 152/208 [00:26<00:09, 5.79it/s][2024-01-01 09:53:12,194] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
74%|██████████████████████████████▏ | 153/208 [00:26<00:09, 5.85it/s][2024-01-01 09:53:12,364] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
74%|██████████████████████████████▎ | 154/208 [00:26<00:09, 5.86it/s][2024-01-01 09:53:12,534] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
75%|██████████████████████████████▌ | 155/208 [00:26<00:09, 5.86it/s][2024-01-01 09:53:12,705] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
75%|██████████████████████████████▊ | 156/208 [00:26<00:08, 5.86it/s][2024-01-01 09:53:12,874] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
75%|██████████████████████████████▉ | 157/208 [00:26<00:08, 5.87it/s][2024-01-01 09:53:13,044] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
76%|███████████████████████████████▏ | 158/208 [00:27<00:08, 5.88it/s][2024-01-01 09:53:13,218] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
76%|███████████████████████████████▎ | 159/208 [00:27<00:08, 5.84it/s][2024-01-01 09:53:13,392] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
77%|███████████████████████████████▌ | 160/208 [00:27<00:08, 5.81it/s][2024-01-01 09:53:13,564] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
77%|███████████████████████████████▋ | 161/208 [00:27<00:08, 5.81it/s][2024-01-01 09:53:13,735] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
78%|███████████████████████████████▉ | 162/208 [00:27<00:07, 5.83it/s][2024-01-01 09:53:13,907] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
78%|████████████████████████████████▏ | 163/208 [00:27<00:07, 5.82it/s][2024-01-01 09:53:14,079] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
79%|████████████████████████████████▎ | 164/208 [00:28<00:07, 5.82it/s][2024-01-01 09:53:14,250] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
79%|████████████████████████████████▌ | 165/208 [00:28<00:07, 5.83it/s][2024-01-01 09:53:14,421] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
80%|████████████████████████████████▋ | 166/208 [00:28<00:07, 5.83it/s][2024-01-01 09:53:14,595] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
80%|████████████████████████████████▉ | 167/208 [00:28<00:07, 5.81it/s][2024-01-01 09:53:14,764] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
81%|█████████████████████████████████ | 168/208 [00:28<00:06, 5.85it/s][2024-01-01 09:53:14,938] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
81%|█████████████████████████████████▎ | 169/208 [00:28<00:06, 5.81it/s][2024-01-01 09:53:15,111] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
82%|█████████████████████████████████▌ | 170/208 [00:29<00:06, 5.81it/s][2024-01-01 09:53:15,282] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
82%|█████████████████████████████████▋ | 171/208 [00:29<00:06, 5.82it/s][2024-01-01 09:53:15,454] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
83%|█████████████████████████████████▉ | 172/208 [00:29<00:06, 5.82it/s][2024-01-01 09:53:15,627] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
83%|██████████████████████████████████ | 173/208 [00:29<00:06, 5.81it/s][2024-01-01 09:53:15,795] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
84%|██████████████████████████████████▎ | 174/208 [00:29<00:05, 5.85it/s][2024-01-01 09:53:15,965] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
84%|██████████████████████████████████▍ | 175/208 [00:29<00:05, 5.86it/s][2024-01-01 09:53:16,137] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
85%|██████████████████████████████████▋ | 176/208 [00:30<00:05, 5.84it/s][2024-01-01 09:53:16,308] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
85%|██████████████████████████████████▉ | 177/208 [00:30<00:05, 5.84it/s][2024-01-01 09:53:16,480] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
86%|███████████████████████████████████ | 178/208 [00:30<00:05, 5.84it/s][2024-01-01 09:53:16,650] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
86%|███████████████████████████████████▎ | 179/208 [00:30<00:04, 5.85it/s][2024-01-01 09:53:16,822] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
87%|███████████████████████████████████▍ | 180/208 [00:30<00:04, 5.83it/s][2024-01-01 09:53:16,995] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
87%|███████████████████████████████████▋ | 181/208 [00:31<00:04, 5.82it/s][2024-01-01 09:53:17,168] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
88%|███████████████████████████████████▉ | 182/208 [00:31<00:04, 5.81it/s][2024-01-01 09:53:17,341] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
88%|████████████████████████████████████ | 183/208 [00:31<00:04, 5.80it/s][2024-01-01 09:53:17,514] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
88%|████████████████████████████████████▎ | 184/208 [00:31<00:04, 5.80it/s][2024-01-01 09:53:17,688] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
89%|████████████████████████████████████▍ | 185/208 [00:31<00:03, 5.78it/s][2024-01-01 09:53:17,859] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
89%|████████████████████████████████████▋ | 186/208 [00:31<00:03, 5.80it/s][2024-01-01 09:53:18,030] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
90%|████████████████████████████████████▊ | 187/208 [00:32<00:03, 5.81it/s][2024-01-01 09:53:18,203] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
90%|█████████████████████████████████████ | 188/208 [00:32<00:03, 5.80it/s][2024-01-01 09:53:18,376] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
91%|█████████████████████████████████████▎ | 189/208 [00:32<00:03, 5.79it/s][2024-01-01 09:53:18,548] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
91%|█████████████████████████████████████▍ | 190/208 [00:32<00:03, 5.80it/s][2024-01-01 09:53:18,719] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
92%|█████████████████████████████████████▋ | 191/208 [00:32<00:02, 5.82it/s][2024-01-01 09:53:18,891] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
92%|█████████████████████████████████████▊ | 192/208 [00:32<00:02, 5.81it/s][2024-01-01 09:53:19,062] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
93%|██████████████████████████████████████ | 193/208 [00:33<00:02, 5.82it/s][2024-01-01 09:53:19,235] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
93%|██████████████████████████████████████▏ | 194/208 [00:33<00:02, 5.82it/s][2024-01-01 09:53:19,398] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
94%|██████████████████████████████████████▍ | 195/208 [00:33<00:02, 5.91it/s][2024-01-01 09:53:19,568] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
94%|██████████████████████████████████████▋ | 196/208 [00:33<00:02, 5.90it/s][2024-01-01 09:53:19,736] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
95%|██████████████████████████████████████▊ | 197/208 [00:33<00:01, 5.91it/s][2024-01-01 09:53:19,909] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
95%|███████████████████████████████████████ | 198/208 [00:33<00:01, 5.87it/s][2024-01-01 09:53:20,082] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
96%|███████████████████████████████████████▏ | 199/208 [00:34<00:01, 5.84it/s][2024-01-01 09:53:20,255] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
96%|███████████████████████████████████████▍ | 200/208 [00:34<00:01, 5.83it/s][2024-01-01 09:53:20,426] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
97%|███████████████████████████████████████▌ | 201/208 [00:34<00:01, 5.84it/s][2024-01-01 09:53:20,598] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
97%|███████████████████████████████████████▊ | 202/208 [00:34<00:01, 5.82it/s][2024-01-01 09:53:20,769] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
98%|████████████████████████████████████████ | 203/208 [00:34<00:00, 5.84it/s][2024-01-01 09:53:20,942] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
98%|████████████████████████████████████████▏| 204/208 [00:34<00:00, 5.82it/s][2024-01-01 09:53:21,107] [INFO] [axolotl.utils.samplers.multipack._len_est:178] [PID:2201] [RANK:0] packing_efficiency_estimate: 0.87 total_num_tokens per device: 188373
{'eval_loss': 1.023378849029541, 'eval_runtime': 35.318, 'eval_samples_per_second': 30.919, 'eval_steps_per_second': 30.919, 'epoch': 0.75}
75%|███████████████████████████▊ | 1119/1490 [1:20:07<25:59, 4.20s/it]
99%|████████████████████████████████████████▍| 205/208 [00:35<00:00, 5.88it/s]
{'loss': 1.0606, 'learning_rate': 2.966812550284803e-05, 'epoch': 0.75}
{'loss': 0.9497, 'learning_rate': 2.9516362524838846e-05, 'epoch': 0.75}
{'loss': 1.1397, 'learning_rate': 2.9364921470728845e-05, 'epoch': 0.75}
{'loss': 1.1206, 'learning_rate': 2.9213803032203413e-05, 'epoch': 0.75}
{'loss': 1.0051, 'learning_rate': 2.9063007899474216e-05, 'epoch': 0.75}
{'loss': 1.1494, 'learning_rate': 2.891253676127652e-05, 'epoch': 0.75}
{'loss': 0.9978, 'learning_rate': 2.876239030486554e-05, 'epoch': 0.76}
{'loss': 1.0767, 'learning_rate': 2.8612569216013672e-05, 'epoch': 0.76}
{'loss': 1.1811, 'learning_rate': 2.8463074179007353e-05, 'epoch': 0.76}
{'loss': 1.0775, 'learning_rate': 2.8313905876643597e-05, 'epoch': 0.76}
{'loss': 1.0934, 'learning_rate': 2.8165064990227252e-05, 'epoch': 0.76}
{'loss': 1.0249, 'learning_rate': 2.8016552199567712e-05, 'epoch': 0.76}
{'loss': 1.1373, 'learning_rate': 2.7868368182975835e-05, 'epoch': 0.76}
{'loss': 1.028, 'learning_rate': 2.7720513617260856e-05, 'epoch': 0.76}
{'loss': 1.197, 'learning_rate': 2.757298917772727e-05, 'epoch': 0.76}
{'loss': 1.0411, 'learning_rate': 2.7425795538171806e-05, 'epoch': 0.76}
{'loss': 1.0796, 'learning_rate': 2.7278933370880265e-05, 'epoch': 0.76}
{'loss': 1.0099, 'learning_rate': 2.7132403346624537e-05, 'epoch': 0.76}
{'loss': 1.1012, 'learning_rate': 2.6986206134659474e-05, 'epoch': 0.76}
{'loss': 1.1114, 'learning_rate': 2.6840342402719866e-05, 'epoch': 0.76}
{'loss': 0.9899, 'learning_rate': 2.669481281701739e-05, 'epoch': 0.76}
{'loss': 1.0987, 'learning_rate': 2.6549618042237477e-05, 'epoch': 0.77}
{'loss': 1.069, 'learning_rate': 2.6404758741536505e-05, 'epoch': 0.77}
{'loss': 1.0269, 'learning_rate': 2.6260235576538538e-05, 'epoch': 0.77}
{'loss': 1.0975, 'learning_rate': 2.6116049207332306e-05, 'epoch': 0.77}
{'loss': 0.9399, 'learning_rate': 2.5972200292468464e-05, 'epoch': 0.77}
{'loss': 1.0943, 'learning_rate': 2.5828689488956225e-05, 'epoch': 0.77}
{'loss': 1.2423, 'learning_rate': 2.5685517452260567e-05, 'epoch': 0.77}
{'loss': 1.1014, 'learning_rate': 2.5542684836299313e-05, 'epoch': 0.77}
{'loss': 1.1442, 'learning_rate': 2.5400192293439863e-05, 'epoch': 0.77}
{'loss': 1.1093, 'learning_rate': 2.525804047449648e-05, 'epoch': 0.77}
{'loss': 1.0318, 'learning_rate': 2.5116230028727184e-05, 'epoch': 0.77}
{'loss': 0.9913, 'learning_rate': 2.4974761603830866e-05, 'epoch': 0.77}
{'loss': 0.9363, 'learning_rate': 2.4833635845944213e-05, 'epoch': 0.77}
{'loss': 1.0288, 'learning_rate': 2.4692853399638917e-05, 'epoch': 0.77}
{'loss': 1.1347, 'learning_rate': 2.4552414907918564e-05, 'epoch': 0.77}
{'loss': 0.9794, 'learning_rate': 2.4412321012215822e-05, 'epoch': 0.78}
{'loss': 1.1037, 'learning_rate': 2.427257235238949e-05, 'epoch': 0.78}
{'loss': 1.0938, 'learning_rate': 2.4133169566721427e-05, 'epoch': 0.78}
{'loss': 0.9668, 'learning_rate': 2.3994113291913934e-05, 'epoch': 0.78}
{'loss': 1.0306, 'learning_rate': 2.3855404163086558e-05, 'epoch': 0.78}
{'loss': 1.0648, 'learning_rate': 2.371704281377335e-05, 'epoch': 0.78}
{'loss': 0.8924, 'learning_rate': 2.3579029875919934e-05, 'epoch': 0.78}
{'loss': 1.029, 'learning_rate': 2.3441365979880524e-05, 'epoch': 0.78}
{'loss': 1.0937, 'learning_rate': 2.330405175441529e-05, 'epoch': 0.78}
{'loss': 1.1954, 'learning_rate': 2.3167087826687238e-05, 'epoch': 0.78}
{'loss': 0.9825, 'learning_rate': 2.3030474822259397e-05, 'epoch': 0.78}
{'loss': 0.9479, 'learning_rate': 2.2894213365092143e-05, 'epoch': 0.78}
{'loss': 0.908, 'learning_rate': 2.275830407754006e-05, 'epoch': 0.78}
{'loss': 0.9479, 'learning_rate': 2.2622747580349314e-05, 'epoch': 0.78}
{'loss': 1.2175, 'learning_rate': 2.248754449265483e-05, 'epoch': 0.78}
{'loss': 1.1711, 'learning_rate': 2.235269543197723e-05, 'epoch': 0.79}
{'loss': 1.2421, 'learning_rate': 2.2218201014220263e-05, 'epoch': 0.79}
{'loss': 1.0252, 'learning_rate': 2.2084061853667903e-05, 'epoch': 0.79}
{'loss': 1.0973, 'learning_rate': 2.1950278562981497e-05, 'epoch': 0.79}
{'loss': 1.1193, 'learning_rate': 2.181685175319702e-05, 'epoch': 0.79}
{'loss': 1.0601, 'learning_rate': 2.168378203372231e-05, 'epoch': 0.79}
{'loss': 1.0915, 'learning_rate': 2.1551070012334184e-05, 'epoch': 0.79}
{'loss': 1.0856, 'learning_rate': 2.141871629517577e-05, 'epoch': 0.79}
{'loss': 1.0446, 'learning_rate': 2.1286721486753658e-05, 'epoch': 0.79}
{'loss': 0.9479, 'learning_rate': 2.1155086189935224e-05, 'epoch': 0.79}
{'loss': 1.1416, 'learning_rate': 2.1023811005945772e-05, 'epoch': 0.79}
{'loss': 1.0027, 'learning_rate': 2.0892896534365904e-05, 'epoch': 0.79}
{'loss': 0.9856, 'learning_rate': 2.076234337312859e-05, 'epoch': 0.79}
{'loss': 1.0908, 'learning_rate': 2.063215211851678e-05, 'epoch': 0.79}
{'loss': 1.0771, 'learning_rate': 2.050232336516025e-05, 'epoch': 0.79}
{'loss': 0.9897, 'learning_rate': 2.0372857706033212e-05, 'epoch': 0.8}
{'loss': 0.9098, 'learning_rate': 2.0243755732451563e-05, 'epoch': 0.8}
{'loss': 1.1005, 'learning_rate': 2.0115018034069954e-05, 'epoch': 0.8}
{'loss': 1.0992, 'learning_rate': 1.9986645198879385e-05, 'epoch': 0.8}
{'loss': 1.1288, 'learning_rate': 1.985863781320435e-05, 'epoch': 0.8}
{'loss': 1.0959, 'learning_rate': 1.973099646170018e-05, 'epoch': 0.8}
{'loss': 1.0011, 'learning_rate': 1.9603721727350533e-05, 'epoch': 0.8}
{'loss': 1.1237, 'learning_rate': 1.947681419146439e-05, 'epoch': 0.8}
{'loss': 1.0607, 'learning_rate': 1.9350274433673743e-05, 'epoch': 0.8}
{'loss': 1.1319, 'learning_rate': 1.9224103031930773e-05, 'epoch': 0.8}
{'loss': 0.9765, 'learning_rate': 1.9098300562505266e-05, 'epoch': 0.8}
{'loss': 1.0133, 'learning_rate': 1.8972867599981936e-05, 'epoch': 0.8}
{'loss': 1.0448, 'learning_rate': 1.8847804717257834e-05, 'epoch': 0.8}
{'loss': 1.0977, 'learning_rate': 1.872311248553974e-05, 'epoch': 0.8}
{'loss': 0.9725, 'learning_rate': 1.8598791474341514e-05, 'epoch': 0.8}
{'loss': 1.0064, 'learning_rate': 1.847484225148155e-05, 'epoch': 0.81}
{'loss': 0.988, 'learning_rate': 1.835126538308013e-05, 'epoch': 0.81}
{'loss': 1.0749, 'learning_rate': 1.8228061433556866e-05, 'epoch': 0.81}
{'loss': 0.9733, 'learning_rate': 1.810523096562814e-05, 'epoch': 0.81}
{'loss': 1.0124, 'learning_rate': 1.7982774540304403e-05, 'epoch': 0.81}
{'loss': 0.9876, 'learning_rate': 1.7860692716887905e-05, 'epoch': 0.81}
{'loss': 1.1689, 'learning_rate': 1.773898605296983e-05, 'epoch': 0.81}
{'loss': 1.064, 'learning_rate': 1.7617655104427832e-05, 'epoch': 0.81}
{'loss': 1.2405, 'learning_rate': 1.7496700425423705e-05, 'epoch': 0.81}
{'loss': 1.1242, 'learning_rate': 1.7376122568400532e-05, 'epoch': 0.81}
{'loss': 1.0802, 'learning_rate': 1.725592208408037e-05, 'epoch': 0.81}
{'loss': 1.1126, 'learning_rate': 1.713609952146168e-05, 'epoch': 0.81}
{'loss': 1.125, 'learning_rate': 1.7016655427816853e-05, 'epoch': 0.81}
{'loss': 1.2716, 'learning_rate': 1.689759034868961e-05, 'epoch': 0.81}
{'loss': 1.0405, 'learning_rate': 1.677890482789263e-05, 'epoch': 0.82}
{'loss': 1.0953, 'learning_rate': 1.6660599407504995e-05, 'epoch': 0.82}
{'loss': 1.0392, 'learning_rate': 1.6542674627869737e-05, 'epoch': 0.82}
{'loss': 1.0804, 'learning_rate': 1.6425131027591368e-05, 'epoch': 0.82}
{'loss': 1.1468, 'learning_rate': 1.6307969143533398e-05, 'epoch': 0.82}
{'loss': 0.9672, 'learning_rate': 1.619118951081594e-05, 'epoch': 0.82}
{'loss': 1.0634, 'learning_rate': 1.607479266281321e-05, 'epoch': 0.82}
{'loss': 1.0135, 'learning_rate': 1.5958779131151047e-05, 'epoch': 0.82}
{'loss': 1.2948, 'learning_rate': 1.5843149445704686e-05, 'epoch': 0.82}
{'loss': 1.0416, 'learning_rate': 1.5727904134596083e-05, 'epoch': 0.82}
{'loss': 1.0884, 'learning_rate': 1.5613043724191668e-05, 'epoch': 0.82}
{'loss': 1.158, 'learning_rate': 1.5498568739099906e-05, 'epoch': 0.82}
{'loss': 1.1202, 'learning_rate': 1.5384479702168786e-05, 'epoch': 0.82}
{'loss': 1.0484, 'learning_rate': 1.5270777134483682e-05, 'epoch': 0.82}
{'loss': 1.1601, 'learning_rate': 1.5157461555364772e-05, 'epoch': 0.82}
{'loss': 1.0362, 'learning_rate': 1.504453348236461e-05, 'epoch': 0.83}
{'loss': 0.975, 'learning_rate': 1.4931993431266056e-05, 'epoch': 0.83}
{'loss': 1.0786, 'learning_rate': 1.481984191607959e-05, 'epoch': 0.83}
{'loss': 1.1617, 'learning_rate': 1.4708079449041157e-05, 'epoch': 0.83}
{'loss': 1.2483, 'learning_rate': 1.4596706540609861e-05, 'epoch': 0.83}
{'loss': 1.1156, 'learning_rate': 1.4485723699465392e-05, 'epoch': 0.83}
{'loss': 1.2053, 'learning_rate': 1.4375131432505984e-05, 'epoch': 0.83}
{'loss': 0.9826, 'learning_rate': 1.4264930244845953e-05, 'epoch': 0.83}
{'loss': 1.1683, 'learning_rate': 1.415512063981339e-05, 'epoch': 0.83}
{'loss': 1.0759, 'learning_rate': 1.4045703118947929e-05, 'epoch': 0.83}
{'loss': 0.8698, 'learning_rate': 1.3936678181998374e-05, 'epoch': 0.83}
{'loss': 1.0891, 'learning_rate': 1.3828046326920497e-05, 'epoch': 0.83}
{'loss': 1.0035, 'learning_rate': 1.3719808049874695e-05, 'epoch': 0.83}
{'loss': 1.122, 'learning_rate': 1.3611963845223785e-05, 'epoch': 0.83}
{'loss': 0.9247, 'learning_rate': 1.350451420553065e-05, 'epoch': 0.83}
{'loss': 1.1495, 'learning_rate': 1.339745962155613e-05, 'epoch': 0.84}
{'loss': 1.0668, 'learning_rate': 1.3290800582256712e-05, 'epoch': 0.84}
{'loss': 1.1128, 'learning_rate': 1.3184537574782152e-05, 'epoch': 0.84}
{'loss': 1.098, 'learning_rate': 1.3078671084473604e-05, 'epoch': 0.84}
{'loss': 1.0302, 'learning_rate': 1.2973201594860984e-05, 'epoch': 0.84}
{'loss': 1.0863, 'learning_rate': 1.286812958766106e-05, 'epoch': 0.84}
{'loss': 1.1159, 'learning_rate': 1.2763455542775205e-05, 'epoch': 0.84}
{'loss': 1.151, 'learning_rate': 1.2659179938287035e-05, 'epoch': 0.84}
{'loss': 1.2837, 'learning_rate': 1.2555303250460437e-05, 'epoch': 0.84}
{'loss': 1.0347, 'learning_rate': 1.2451825953737272e-05, 'epoch': 0.84}
{'loss': 1.0385, 'learning_rate': 1.2348748520735221e-05, 'epoch': 0.84}
{'loss': 1.0593, 'learning_rate': 1.224607142224572e-05, 'epoch': 0.84}
{'loss': 1.0039, 'learning_rate': 1.2143795127231638e-05, 'epoch': 0.84}
{'loss': 1.0555, 'learning_rate': 1.2041920102825277e-05, 'epoch': 0.84}
{'loss': 1.2407, 'learning_rate': 1.19404468143262e-05, 'epoch': 0.84}
{'loss': 1.0644, 'learning_rate': 1.1839375725199098e-05, 'epoch': 0.85}
{'loss': 1.1163, 'learning_rate': 1.173870729707166e-05, 'epoch': 0.85}
{'loss': 1.0441, 'learning_rate': 1.1638441989732473e-05, 'epoch': 0.85}
{'loss': 1.0761, 'learning_rate': 1.153858026112895e-05, 'epoch': 0.85}
{'loss': 1.1364, 'learning_rate': 1.1439122567365213e-05, 'epoch': 0.85}
{'loss': 1.2178, 'learning_rate': 1.134006936269999e-05, 'epoch': 0.85}
{'loss': 0.9739, 'learning_rate': 1.124142109954459e-05, 'epoch': 0.85}
{'loss': 1.2372, 'learning_rate': 1.1143178228460793e-05, 'epoch': 0.85}
{'loss': 0.9777, 'learning_rate': 1.1045341198158831e-05, 'epoch': 0.85}
{'loss': 1.0961, 'learning_rate': 1.0947910455495247e-05, 'epoch': 0.85}
{'loss': 1.0614, 'learning_rate': 1.0850886445471054e-05, 'epoch': 0.85}
{'loss': 0.9552, 'learning_rate': 1.0754269611229429e-05, 'epoch': 0.85}
{'loss': 1.0059, 'learning_rate': 1.0658060394053904e-05, 'epoch': 0.85}
{'loss': 1.0464, 'learning_rate': 1.0562259233366334e-05, 'epoch': 0.85}
{'loss': 0.9931, 'learning_rate': 1.0466866566724698e-05, 'epoch': 0.85}
{'loss': 1.0319, 'learning_rate': 1.0371882829821345e-05, 'epoch': 0.86}
{'loss': 1.0693, 'learning_rate': 1.027730845648085e-05, 'epoch': 0.86}
{'loss': 1.0953, 'learning_rate': 1.0183143878658096e-05, 'epoch': 0.86}
{'loss': 1.1367, 'learning_rate': 1.00893895264363e-05, 'epoch': 0.86}
{'loss': 1.1192, 'learning_rate': 9.996045828024981e-06, 'epoch': 0.86}
{'loss': 1.1298, 'learning_rate': 9.903113209758096e-06, 'epoch': 0.86}
{'loss': 1.1226, 'learning_rate': 9.810592096092041e-06, 'epoch': 0.86}
{'loss': 0.9949, 'learning_rate': 9.718482909603733e-06, 'epoch': 0.86}
{'loss': 1.1854, 'learning_rate': 9.626786070988658e-06, 'epoch': 0.86}
{'loss': 1.06, 'learning_rate': 9.535501999058971e-06, 'epoch': 0.86}
{'loss': 1.0844, 'learning_rate': 9.444631110741586e-06, 'epoch': 0.86}
{'loss': 0.9369, 'learning_rate': 9.354173821076184e-06, 'epoch': 0.86}
{'loss': 1.0949, 'learning_rate': 9.264130543213512e-06, 'epoch': 0.86}
{'loss': 0.9874, 'learning_rate': 9.174501688413329e-06, 'epoch': 0.86}
{'loss': 1.0628, 'learning_rate': 9.085287666042508e-06, 'epoch': 0.86}
{'loss': 1.1259, 'learning_rate': 8.99648888357335e-06, 'epoch': 0.87}
{'loss': 1.0839, 'learning_rate': 8.908105746581496e-06, 'epoch': 0.87}
{'loss': 0.9764, 'learning_rate': 8.820138658744304e-06, 'epoch': 0.87}
{'loss': 0.977, 'learning_rate': 8.732588021838795e-06, 'epoch': 0.87}
{'loss': 1.1316, 'learning_rate': 8.645454235739903e-06, 'epoch': 0.87}
{'loss': 1.1588, 'learning_rate': 8.558737698418761e-06, 'epoch': 0.87}
{'loss': 0.9955, 'learning_rate': 8.472438805940653e-06, 'epoch': 0.87}
{'loss': 1.0121, 'learning_rate': 8.386557952463392e-06, 'epoch': 0.87}
{'loss': 1.1568, 'learning_rate': 8.301095530235492e-06, 'epoch': 0.87}
{'loss': 1.0687, 'learning_rate': 8.21605192959427e-06, 'epoch': 0.87}
{'loss': 1.1445, 'learning_rate': 8.131427538964164e-06, 'epoch': 0.87}
{'loss': 1.0567, 'learning_rate': 8.047222744854943e-06, 'epoch': 0.87}
{'loss': 1.1482, 'learning_rate': 7.96343793185992e-06, 'epoch': 0.87}
{'loss': 1.0925, 'learning_rate': 7.880073482654204e-06, 'epoch': 0.87}
{'loss': 0.9152, 'learning_rate': 7.797129777992952e-06, 'epoch': 0.87}
{'loss': 0.9793, 'learning_rate': 7.714607196709634e-06, 'epoch': 0.88}
{'loss': 1.0366, 'learning_rate': 7.632506115714289e-06, 'epoch': 0.88}
{'loss': 1.1471, 'learning_rate': 7.550826909991859e-06, 'epoch': 0.88}
{'loss': 1.0302, 'learning_rate': 7.46956995260033e-06, 'epoch': 0.88}
{'loss': 1.0923, 'learning_rate': 7.38873561466924e-06, 'epoch': 0.88}
{'loss': 1.0747, 'learning_rate': 7.308324265397836e-06, 'epoch': 0.88}
{'loss': 1.0257, 'learning_rate': 7.228336272053371e-06, 'epoch': 0.88}
{'loss': 1.1583, 'learning_rate': 7.148771999969572e-06, 'epoch': 0.88}
{'loss': 1.0469, 'learning_rate': 7.069631812544808e-06, 'epoch': 0.88}
{'loss': 1.0623, 'learning_rate': 6.9909160712405055e-06, 'epoch': 0.88}
{'loss': 0.9826, 'learning_rate': 6.9126251355795864e-06, 'epoch': 0.88}
{'loss': 1.162, 'learning_rate': 6.834759363144594e-06, 'epoch': 0.88}
{'loss': 1.2241, 'learning_rate': 6.75731910957631e-06, 'epoch': 0.88}
{'loss': 1.122, 'learning_rate': 6.680304728571962e-06, 'epoch': 0.88}
{'loss': 1.0603, 'learning_rate': 6.603716571883689e-06, 'epoch': 0.88}
{'loss': 0.9015, 'learning_rate': 6.527554989316897e-06, 'epoch': 0.89}
{'loss': 1.1341, 'learning_rate': 6.451820328728697e-06, 'epoch': 0.89}
{'loss': 1.0813, 'learning_rate': 6.37651293602628e-06, 'epoch': 0.89}
{'loss': 1.0303, 'learning_rate': 6.301633155165354e-06, 'epoch': 0.89}
{'loss': 0.9589, 'learning_rate': 6.227181328148568e-06, 'epoch': 0.89}
{'loss': 1.1048, 'learning_rate': 6.153157795023956e-06, 'epoch': 0.89}
{'loss': 1.0998, 'learning_rate': 6.0795628938833945e-06, 'epoch': 0.89}
{'loss': 1.0187, 'learning_rate': 6.006396960861027e-06, 'epoch': 0.89}
{'loss': 1.1246, 'learning_rate': 5.933660330131752e-06, 'epoch': 0.89}
{'loss': 1.101, 'learning_rate': 5.861353333909692e-06, 'epoch': 0.89}
{'loss': 1.0868, 'learning_rate': 5.789476302446662e-06, 'epoch': 0.89}
{'loss': 1.1504, 'learning_rate': 5.718029564030703e-06, 'epoch': 0.89}
{'loss': 1.0107, 'learning_rate': 5.647013444984561e-06, 'epoch': 0.89}
{'loss': 1.2309, 'learning_rate': 5.576428269664113e-06, 'epoch': 0.89}
{'loss': 1.1102, 'learning_rate': 5.506274360457086e-06, 'epoch': 0.89}
{'loss': 1.2, 'learning_rate': 5.43655203778134e-06, 'epoch': 0.9}
{'loss': 1.0517, 'learning_rate': 5.367261620083575e-06, 'epoch': 0.9}
{'loss': 1.0198, 'learning_rate': 5.2984034238378835e-06, 'epoch': 0.9}
{'loss': 1.0368, 'learning_rate': 5.229977763544147e-06, 'epoch': 0.9}
{'loss': 1.1569, 'learning_rate': 5.161984951726762e-06, 'epoch': 0.9}
{'loss': 0.9999, 'learning_rate': 5.094425298933136e-06, 'epoch': 0.9}
{'loss': 1.165, 'learning_rate': 5.027299113732298e-06, 'epoch': 0.9}
{'loss': 1.0992, 'learning_rate': 4.960606702713466e-06, 'epoch': 0.9}
{'loss': 1.0222, 'learning_rate': 4.8943483704846475e-06, 'epoch': 0.9}
{'loss': 1.0117, 'learning_rate': 4.828524419671265e-06, 'epoch': 0.9}
{'loss': 1.0797, 'learning_rate': 4.763135150914777e-06, 'epoch': 0.9}
{'loss': 1.0431, 'learning_rate': 4.698180862871282e-06, 'epoch': 0.9}
{'loss': 1.0422, 'learning_rate': 4.6336618522101695e-06, 'epoch': 0.9}
{'loss': 1.1099, 'learning_rate': 4.569578413612752e-06, 'epoch': 0.9}
{'loss': 1.0241, 'learning_rate': 4.505930839770967e-06, 'epoch': 0.9}
{'loss': 1.027, 'learning_rate': 4.442719421385922e-06, 'epoch': 0.91}
{'loss': 0.9986, 'learning_rate': 4.3799444471667505e-06, 'epoch': 0.91}
{'loss': 1.1963, 'learning_rate': 4.317606203829127e-06, 'epoch': 0.91}
{'loss': 0.9538, 'learning_rate': 4.2557049760939995e-06, 'epoch': 0.91}
{'loss': 1.0638, 'learning_rate': 4.194241046686398e-06, 'epoch': 0.91}
{'loss': 1.1597, 'learning_rate': 4.133214696333942e-06, 'epoch': 0.91}
{'loss': 1.0357, 'learning_rate': 4.07262620376575e-06, 'epoch': 0.91}
{'loss': 1.1606, 'learning_rate': 4.012475845711106e-06, 'epoch': 0.91}
{'loss': 1.0844, 'learning_rate': 3.952763896898071e-06, 'epoch': 0.91}
{'loss': 0.9991, 'learning_rate': 3.893490630052465e-06, 'epoch': 0.91}
{'loss': 1.0719, 'learning_rate': 3.8346563158963785e-06, 'epoch': 0.91}
{'loss': 1.0968, 'learning_rate': 3.776261223147126e-06, 'epoch': 0.91}
{'loss': 1.0734, 'learning_rate': 3.7183056185159048e-06, 'epoch': 0.91}
{'loss': 1.1153, 'learning_rate': 3.6607897667066183e-06, 'epoch': 0.91}
{'loss': 1.098, 'learning_rate': 3.6037139304146762e-06, 'epoch': 0.91}
{'loss': 0.9969, 'learning_rate': 3.5470783703257625e-06, 'epoch': 0.92}
{'loss': 1.076, 'learning_rate': 3.4908833451146704e-06, 'epoch': 0.92}
{'loss': 0.9506, 'learning_rate': 3.435129111444113e-06, 'epoch': 0.92}
{'loss': 1.0659, 'learning_rate': 3.3798159239635585e-06, 'epoch': 0.92}
{'loss': 1.1217, 'learning_rate': 3.324944035308053e-06, 'epoch': 0.92}
{'loss': 1.1213, 'learning_rate': 3.270513696097055e-06, 'epoch': 0.92}
{'loss': 0.9629, 'learning_rate': 3.2165251549333587e-06, 'epoch': 0.92}
{'loss': 1.0411, 'learning_rate': 3.1629786584018383e-06, 'epoch': 0.92}
{'loss': 1.2139, 'learning_rate': 3.109874451068473e-06, 'epoch': 0.92}
{'loss': 1.0639, 'learning_rate': 3.0572127754790903e-06, 'epoch': 0.92}
{'loss': 1.0818, 'learning_rate': 3.004993872158313e-06, 'epoch': 0.92}
{'loss': 1.1418, 'learning_rate': 2.9532179796085356e-06, 'epoch': 0.92}
{'loss': 1.0175, 'learning_rate': 2.901885334308685e-06, 'epoch': 0.92}
{'loss': 1.1946, 'learning_rate': 2.8509961707132494e-06, 'epoch': 0.92}
{'loss': 1.0775, 'learning_rate': 2.800550721251216e-06, 'epoch': 0.93}
{'loss': 1.0869, 'learning_rate': 2.7505492163248934e-06, 'epoch': 0.93}
{'loss': 1.0571, 'learning_rate': 2.700991884309001e-06, 'epoch': 0.93}
{'loss': 1.0975, 'learning_rate': 2.651878951549536e-06, 'epoch': 0.93}
{'loss': 0.9173, 'learning_rate': 2.6032106423627632e-06, 'epoch': 0.93}
{'loss': 1.113, 'learning_rate': 2.5549871790342183e-06, 'epoch': 0.93}
{'loss': 1.0711, 'learning_rate': 2.5072087818176382e-06, 'epoch': 0.93}
{'loss': 1.0654, 'learning_rate': 2.4598756689339976e-06, 'epoch': 0.93}
{'loss': 1.153, 'learning_rate': 2.4129880565705088e-06, 'epoch': 0.93}
{'loss': 1.0679, 'learning_rate': 2.36654615887959e-06, 'epoch': 0.93}
{'loss': 0.9575, 'learning_rate': 2.3205501879779547e-06, 'epoch': 0.93}
{'loss': 1.0615, 'learning_rate': 2.2750003539455998e-06, 'epoch': 0.93}
{'loss': 1.1126, 'learning_rate': 2.2298968648248653e-06, 'epoch': 0.93}
{'loss': 1.0216, 'learning_rate': 2.1852399266194314e-06, 'epoch': 0.93}
{'loss': 1.1624, 'learning_rate': 2.14102974329351e-06, 'epoch': 0.93}
{'loss': 1.1098, 'learning_rate': 2.0972665167707126e-06, 'epoch': 0.94}
{'loss': 0.8935, 'learning_rate': 2.053950446933328e-06, 'epoch': 0.94}
{'loss': 1.1017, 'learning_rate': 2.0110817316212894e-06, 'epoch': 0.94}
{'loss': 1.0616, 'learning_rate': 1.9686605666312752e-06, 'epoch': 0.94}
{'loss': 1.0969, 'learning_rate': 1.926687145715911e-06, 'epoch': 0.94}
{'loss': 1.0615, 'learning_rate': 1.885161660582746e-06, 'epoch': 0.94}
{'loss': 1.183, 'learning_rate': 1.8440843008934561e-06, 'epoch': 0.94}
{'loss': 1.0506, 'learning_rate': 1.8034552542630423e-06, 'epoch': 0.94}
{'loss': 1.1001, 'learning_rate': 1.7632747062587885e-06, 'epoch': 0.94}
{'loss': 1.0661, 'learning_rate': 1.7235428403996169e-06, 'epoch': 0.94}
{'loss': 1.1782, 'learning_rate': 1.6842598381551001e-06, 'epoch': 0.94}
{'loss': 1.1113, 'learning_rate': 1.6454258789447285e-06, 'epoch': 0.94}
{'loss': 1.0716, 'learning_rate': 1.6070411401370334e-06, 'epoch': 0.94}
{'loss': 1.1025, 'learning_rate': 1.5691057970488087e-06, 'epoch': 0.94}
{'loss': 1.1194, 'learning_rate': 1.531620022944269e-06, 'epoch': 0.94}
{'loss': 0.9881, 'learning_rate': 1.4945839890343261e-06, 'epoch': 0.95}
{'loss': 1.131, 'learning_rate': 1.4579978644757464e-06, 'epoch': 0.95}
{'loss': 1.08, 'learning_rate': 1.4218618163703955e-06, 'epoch': 0.95}
{'loss': 1.0936, 'learning_rate': 1.386176009764506e-06, 'epoch': 0.95}
{'loss': 1.1721, 'learning_rate': 1.350940607647866e-06, 'epoch': 0.95}
{'loss': 1.1052, 'learning_rate': 1.316155770953098e-06, 'epoch': 0.95}
{'loss': 1.1309, 'learning_rate': 1.2818216585549825e-06, 'epoch': 0.95}
{'loss': 1.1256, 'learning_rate': 1.247938427269657e-06, 'epoch': 0.95}
{'loss': 1.1025, 'learning_rate': 1.2145062318538736e-06, 'epoch': 0.95}
{'loss': 1.0699, 'learning_rate': 1.1815252250044318e-06, 'epoch': 0.95}
{'loss': 1.1283, 'learning_rate': 1.148995557357324e-06, 'epoch': 0.95}
{'loss': 1.1495, 'learning_rate': 1.1169173774871478e-06, 'epoch': 0.95}
{'loss': 1.1187, 'learning_rate': 1.0852908319063825e-06, 'epoch': 0.95}
{'loss': 1.0414, 'learning_rate': 1.0541160650647363e-06, 'epoch': 0.95}
{'loss': 1.0627, 'learning_rate': 1.0233932193484896e-06, 'epoch': 0.95}
{'loss': 0.9121, 'learning_rate': 9.931224350798185e-07, 'epoch': 0.96}
{'loss': 1.0168, 'learning_rate': 9.633038505161952e-07, 'epoch': 0.96}
{'loss': 1.1237, 'learning_rate': 9.339376018497214e-07, 'epoch': 0.96}
{'loss': 1.0225, 'learning_rate': 9.0502382320653e-07, 'epoch': 0.96}
{'loss': 1.1071, 'learning_rate': 8.765626466461396e-07, 'epoch': 0.96}
{'loss': 1.065, 'learning_rate': 8.485542021609116e-07, 'epoch': 0.96}
{'loss': 0.9495, 'learning_rate': 8.209986176753948e-07, 'epoch': 0.96}
{'loss': 0.9943, 'learning_rate': 7.938960190457478e-07, 'epoch': 0.96}
{'loss': 1.2265, 'learning_rate': 7.672465300592069e-07, 'epoch': 0.96}
{'loss': 1.0386, 'learning_rate': 7.410502724334967e-07, 'epoch': 0.96}
{'loss': 0.9827, 'learning_rate': 7.153073658162646e-07, 'epoch': 0.96}
{'loss': 1.0498, 'learning_rate': 6.900179277845475e-07, 'epoch': 0.96}
{'loss': 1.0785, 'learning_rate': 6.651820738441949e-07, 'epoch': 0.96}
{'loss': 1.0648, 'learning_rate': 6.407999174294465e-07, 'epoch': 0.96}
{'loss': 1.104, 'learning_rate': 6.168715699022776e-07, 'epoch': 0.96}
{'loss': 1.0876, 'learning_rate': 5.933971405519656e-07, 'epoch': 0.97}
{'loss': 1.0571, 'learning_rate': 5.703767365946466e-07, 'epoch': 0.97}
{'loss': 1.1428, 'learning_rate': 5.478104631726711e-07, 'epoch': 0.97}
{'loss': 0.9624, 'learning_rate': 5.256984233542595e-07, 'epoch': 0.97}
{'loss': 1.0885, 'learning_rate': 5.040407181330031e-07, 'epoch': 0.97}
{'loss': 1.0246, 'learning_rate': 4.828374464273422e-07, 'epoch': 0.97}
{'loss': 1.1562, 'learning_rate': 4.62088705080177e-07, 'epoch': 0.97}
{'loss': 1.1169, 'learning_rate': 4.4179458885842407e-07, 'epoch': 0.97}
{'loss': 1.1221, 'learning_rate': 4.2195519045252764e-07, 'epoch': 0.97}
{'loss': 1.1551, 'learning_rate': 4.025706004760932e-07, 'epoch': 0.97}
{'loss': 1.1699, 'learning_rate': 3.8364090746547676e-07, 'epoch': 0.97}
{'loss': 1.0854, 'learning_rate': 3.651661978793075e-07, 'epoch': 0.97}
{'loss': 1.0062, 'learning_rate': 3.471465560981768e-07, 'epoch': 0.97}
{'loss': 1.1254, 'learning_rate': 3.2958206442422754e-07, 'epoch': 0.97}
{'loss': 1.1247, 'learning_rate': 3.1247280308073224e-07, 'epoch': 0.97}
{'loss': 1.0147, 'learning_rate': 2.9581885021181533e-07, 'epoch': 0.98}
{'loss': 1.0449, 'learning_rate': 2.7962028188198706e-07, 'epoch': 0.98}
{'loss': 1.1786, 'learning_rate': 2.6387717207589925e-07, 'epoch': 0.98}
{'loss': 1.0277, 'learning_rate': 2.4858959269794534e-07, 'epoch': 0.98}
{'loss': 1.0575, 'learning_rate': 2.3375761357193882e-07, 'epoch': 0.98}
{'loss': 1.1325, 'learning_rate': 2.1938130244083531e-07, 'epoch': 0.98}
{'loss': 1.0396, 'learning_rate': 2.054607249663665e-07, 'epoch': 0.98}
{'loss': 1.0332, 'learning_rate': 1.9199594472876227e-07, 'epoch': 0.98}
{'loss': 1.1597, 'learning_rate': 1.7898702322648453e-07, 'epoch': 0.98}
{'loss': 1.0864, 'learning_rate': 1.6643401987591622e-07, 'epoch': 0.98}
{'loss': 1.1193, 'learning_rate': 1.5433699201108376e-07, 'epoch': 0.98}
{'loss': 1.0839, 'learning_rate': 1.4269599488343498e-07, 'epoch': 0.98}
{'loss': 1.252, 'learning_rate': 1.3151108166156168e-07, 'epoch': 0.98}
{'loss': 0.9639, 'learning_rate': 1.207823034309441e-07, 'epoch': 0.98}
{'loss': 1.1023, 'learning_rate': 1.1050970919374016e-07, 'epoch': 0.98}
{'loss': 1.145, 'learning_rate': 1.0069334586854107e-07, 'epoch': 0.99}
{'loss': 1.1459, 'learning_rate': 9.133325829017158e-08, 'epoch': 0.99}
{'loss': 1.0556, 'learning_rate': 8.242948920951232e-08, 'epoch': 0.99}
{'loss': 1.1444, 'learning_rate': 7.39820792932333e-08, 'epoch': 0.99}
{'loss': 1.0943, 'learning_rate': 6.599106712367187e-08, 'epoch': 0.99}
{'loss': 1.0119, 'learning_rate': 5.845648919863278e-08, 'epoch': 0.99}
{'loss': 0.9807, 'learning_rate': 5.137837993121064e-08, 'epoch': 0.99}
{'loss': 1.1491, 'learning_rate': 4.475677164966774e-08, 'epoch': 0.99}
{'loss': 0.9008, 'learning_rate': 3.859169459723422e-08, 'epoch': 0.99}
{'loss': 0.9921, 'learning_rate': 3.288317693201926e-08, 'epoch': 0.99}
{'loss': 1.1385, 'learning_rate': 2.763124472685563e-08, 'epoch': 0.99}
{'loss': 1.1349, 'learning_rate': 2.2835921969210917e-08, 'epoch': 0.99}
{'loss': 1.0631, 'learning_rate': 1.8497230560998723e-08, 'epoch': 0.99}
{'loss': 0.9462, 'learning_rate': 1.4615190318600925e-08, 'epoch': 0.99}
{'loss': 1.1715, 'learning_rate': 1.1189818972656696e-08, 'epoch': 0.99}
{'loss': 1.0835, 'learning_rate': 8.221132168073631e-09, 'epoch': 1.0}
{'loss': 1.0864, 'learning_rate': 5.709143463894506e-09, 'epoch': 1.0}
{'loss': 1.0228, 'learning_rate': 3.653864333275081e-09, 'epoch': 1.0}
{'loss': 1.1322, 'learning_rate': 2.0553041633952774e-09, 'epoch': 1.0}
{'loss': 1.0027, 'learning_rate': 9.134702554591811e-10, 'epoch': 1.0}
{'loss': 0.9021, 'learning_rate': 2.283678246284282e-10, 'epoch': 1.0}
{'loss': 1.1726, 'learning_rate': 0.0, 'epoch': 1.0}
{'train_runtime': 6355.7444, 'train_samples_per_second': 8.414, 'train_steps_per_second': 0.234, 'train_loss': 1.0881121746245646, 'epoch': 1.0}
100%|█████████████████████████████████████| 1490/1490 [1:45:55<00:00, 4.27s/it]
[2024-01-01 10:19:09,776] [INFO] [axolotl.train.log:60] [PID:2201] [RANK:0] Training Completed!!! Saving pre-trained model to ./lora-out
- 训练在Nividia A 100 80 GB GPU上花费了1小时45分钟。
- 训练检查点发生并被保存在名为lora-out的文件夹中,这是在lora.yaml文件中指定的输出目录。
- 适配器文件也被保存在lora.yaml文件中指定的输出目录中。
- 此外,通过在lora.yaml文件中的push_dataset_to_hub参数指定repoid和文件夹详情,训练后的模型可以推送到huggingface的一个仓库中。
使用gradio进行交互式推理
# gradio
!accelerate launch -m axolotl.cli.inference examples/openllama-3b/lora.yml --lora_model_dir="./lora-out" --gradio
The following values were not passed to `accelerate launch` and had defaults used instead:
`--num_processes` was set to a value of `1`
`--num_machines` was set to a value of `1`
`--mixed_precision` was set to a value of `'no'`
`--dynamo_backend` was set to a value of `'no'`
To avoid this warning pass in values for each of the problematic parameters or run `accelerate config`.
/usr/local/lib/python3.10/dist-packages/transformers/deepspeed.py:23: FutureWarning: transformers.deepspeed module is deprecated and will be removed in a future version. Please import deepspeed modules directly from transformers.integrations
warnings.warn(
[2024-01-01 10:43:34,869] [INFO] [datasets.<module>:58] [PID:5297] PyTorch version 2.0.1+cu118 available.
dP dP dP
88 88 88
.d8888b. dP. .dP .d8888b. 88 .d8888b. d8888P 88
88' `88 `8bd8' 88' `88 88 88' `88 88 88
88. .88 .d88b. 88. .88 88 88. .88 88 88
`88888P8 dP' `dP `88888P' dP `88888P' dP dP
[2024-01-01 10:43:35,772] [INFO] [axolotl.validate_config:156] [PID:5297] [RANK:0] bf16 support detected, but not enabled for this configuration.
[2024-01-01 10:43:35,772] [WARNING] [axolotl.validate_config:176] [PID:5297] [RANK:0] `pad_to_sequence_len: true` is recommended when using sample_packing
[2024-01-01 10:43:36,062] [INFO] [axolotl.normalize_config:150] [PID:5297] [RANK:0] GPU memory usage baseline: 0.000GB (+0.811GB misc)
[2024-01-01 10:43:36,064] [INFO] [axolotl.common.cli.load_model_and_tokenizer:49] [PID:5297] [RANK:0] loading tokenizer... openlm-research/open_llama_3b_v2
You are using the default legacy behaviour of the <class 'transformers.models.llama.tokenization_llama.LlamaTokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
[2024-01-01 10:43:36,345] [DEBUG] [axolotl.load_tokenizer:185] [PID:5297] [RANK:0] EOS: 2 / </s>
[2024-01-01 10:43:36,345] [DEBUG] [axolotl.load_tokenizer:186] [PID:5297] [RANK:0] BOS: 1 / <s>
[2024-01-01 10:43:36,345] [DEBUG] [axolotl.load_tokenizer:187] [PID:5297] [RANK:0] PAD: 2 / </s>
[2024-01-01 10:43:36,345] [DEBUG] [axolotl.load_tokenizer:188] [PID:5297] [RANK:0] UNK: 0 / <unk>
[2024-01-01 10:43:36,345] [INFO] [axolotl.load_tokenizer:193] [PID:5297] [RANK:0] No Chat template selected. Consider adding a chat template for easier inference.
[2024-01-01 10:43:36,345] [INFO] [axolotl.common.cli.load_model_and_tokenizer:51] [PID:5297] [RANK:0] loading model and (optionally) peft_config...
[2024-01-01 10:43:44,496] [INFO] [axolotl.load_model:517] [PID:5297] [RANK:0] GPU memory usage after model load: 3.408GB (+0.334GB cache, +1.850GB misc)
[2024-01-01 10:43:44,501] [INFO] [axolotl.load_model:540] [PID:5297] [RANK:0] converting PEFT model w/ prepare_model_for_kbit_training
[2024-01-01 10:43:44,505] [INFO] [axolotl.load_model:552] [PID:5297] [RANK:0] converting modules to torch.float16 for flash attention
[2024-01-01 10:43:44,506] [DEBUG] [axolotl.load_lora:670] [PID:5297] [RANK:0] Loading pretained PEFT - LoRA
[2024-01-01 10:43:44,533] [WARNING] [auto_gptq.nn_modules.qlinear.qlinear_cuda.<module>:16] [PID:5297] CUDA extension not installed.
[2024-01-01 10:43:44,533] [WARNING] [auto_gptq.nn_modules.qlinear.qlinear_cuda_old.<module>:15] [PID:5297] CUDA extension not installed.
trainable params: 12,712,960 || all params: 3,439,186,560 || trainable%: 0.36965020007521776
[2024-01-01 10:43:44,851] [INFO] [axolotl.load_model:582] [PID:5297] [RANK:0] GPU memory usage after adapters: 3.455GB (+1.148GB cache, +1.850GB misc)
Running on local URL: http://127.0.0.1:7860
Running on public URL: https://87eb53a4929499e106.gradio.live
This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)
结论
在这里,我们探讨了如何利用Axolotl实现几乎不需要编码的微调以及使用gradio对微调后的模型进行推理。
文章来源:https://medium.com/dphi-tech/no-code-llm-fine-tuning-using-axolotl-2db34e3d0647