causal-lm-training

⚠️ Note: This repository will be reorganized soon. Stay tuned!

Instructions

Step1: clone necessary repositories and create environments

# install dependencies for superbpe in a virtual environment 
git clone https://github.com/xiulinyang/superbpe.git
conda create -n superbpe python=3.12 rust
conda activate superbpe
pip install -r requirements.txt

# install dependencies for others in another environment
git clone https://github.com/xiulinyang/causal-lm-training.git
cd causal-lm-training
pip install -e .

Step2: put training/dev/test data under the data folder.
Step3: train models using the following script. Note you can customize training/model/data hyperparameters in generate_config.py

bash train_model.sh $LANG $vocab_size $tokenizer_type $model_type

Step4: Evaluation

Probablity-based metrics:

python src/clm/evaluation/perplexities.py $experiment "$model_name" log-ppl

KS Metric

python src/clm/evaluation/ks_distribution.py $experiment "$model_name"

Multilingual-BLiMP

python src/clm/evaluation/get_multiblimp_scores.py $experiment "$model_name"

SAS (TBD)

Name		Name	Last commit message	Last commit date
Latest commit History 466 Commits
ana_results		ana_results
configs		configs
ctc		ctc
ctc_token_distribution		ctc_token_distribution
data		data
ks_results		ks_results
logs		logs
models		models
multiblimp_results		multiblimp_results
para-multi-blimp		para-multi-blimp
parablimp_results		parablimp_results
perplexity_results_parallel10_log-ppl		perplexity_results_parallel10_log-ppl
perplexity_results_parallel3_log-ppl		perplexity_results_parallel3_log-ppl
ppl_results_flores_nll		ppl_results_flores_nll
ppl_results_parallel10_nll		ppl_results_parallel10_nll
ppl_results_parallel10_nll_flores		ppl_results_parallel10_nll_flores
ppl_results_parallel10_nll_parallel10		ppl_results_parallel10_nll_parallel10
ppl_results_parallel3-100_nll_flores		ppl_results_parallel3-100_nll_flores
ppl_results_parallel3-100_nll_parallel10		ppl_results_parallel3-100_nll_parallel10
ppl_results_parallel3-100_nll_parallel3-100		ppl_results_parallel3-100_nll_parallel3-100
ppl_results_parallel3_nll_flores		ppl_results_parallel3_nll_flores
ppl_results_parallel3_nll_parallel10		ppl_results_parallel3_nll_parallel10
ppl_results_parallel3_nll_parallel3		ppl_results_parallel3_nll_parallel3
pud		pud
r_script		r_script
src		src
uas_results		uas_results
usa_probing_results		usa_probing_results
README.md		README.md
analysis.ipynb		analysis.ipynb
analysis_acc.py		analysis_acc.py
analysis_ks.py		analysis_ks.py
analysis_nll.py		analysis_nll.py
analysis_uas.py		analysis_uas.py
ctc_exp.tsv		ctc_exp.tsv
ctc_exp_superbpe.tsv		ctc_exp_superbpe.tsv
data_stats.py		data_stats.py
debug.py		debug.py
eval_pipe.sh		eval_pipe.sh
generate_config.py		generate_config.py
ks_eval.sh		ks_eval.sh
ling_dist.py		ling_dist.py
metric_sum.py		metric_sum.py
pud_rel_collection.py		pud_rel_collection.py
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
requirements_eval.txt		requirements_eval.txt
rewrite_superbpe.py		rewrite_superbpe.py
run_experiments.sh		run_experiments.sh
run_nll.sh		run_nll.sh
run_prob.sh		run_prob.sh
run_same_bs.sh		run_same_bs.sh
sample_100M.py		sample_100M.py
sample_blimp.py		sample_blimp.py
save_config.py		save_config.py
stat_test.R		stat_test.R
sum_lang.py		sum_lang.py
test.ipynb		test.ipynb
test.py		test.py
test_tokenizer.py		test_tokenizer.py
test_tokenizer_superbpe.py		test_tokenizer_superbpe.py
tokenizer_dist.sh		tokenizer_dist.sh
tokenizer_exp.sh		tokenizer_exp.sh
train_clm.py		train_clm.py
train_model.sh		train_model.sh
train_model_bs.sh		train_model_bs.sh
train_model_test.sh		train_model_test.sh
train_tokenizer.py		train_tokenizer.py
uas_results.py		uas_results.py
ud_language_abbreviations.json		ud_language_abbreviations.json
upload_models.sh		upload_models.sh
vis_ks.py		vis_ks.py
vis_ks_overall.py		vis_ks_overall.py
vis_mmp.py		vis_mmp.py
vis_mmp_overall.py		vis_mmp_overall.py
vis_ppl.py		vis_ppl.py
wals_anno.csv		wals_anno.csv
wals_morph12.csv		wals_morph12.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

causal-lm-training

⚠️ Note: This repository will be reorganized soon. Stay tuned!

Instructions

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

causal-lm-training

⚠️ Note: This repository will be reorganized soon. Stay tuned!

Instructions

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages