Bolian Li's picture

1 1

Bolian Li

lblaoke

·

https://lblaoke.github.io/

AI & ML interests

None yet

Recent Activity

liked a dataset 2 days ago

princeton-nlp/llama3-ultrafeedback-armorm

upvoted a paper about 1 month ago

Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense

updated a collection 6 months ago

Preference Data

View all activity

Organizations

None yet

Collections 4

View 4 collections

Papers 9

arxiv:2502.18300

arxiv:2501.14090

arxiv:2410.06625

arxiv:2406.16306

models 44

lblaoke/opt-350m-hh-rlhf-rm-trl-v5

0.3B • Updated May 12 • 6

lblaoke/opt-350m-hh-rlhf-dpo-trl-v5

0.3B • Updated May 12

lblaoke/opt-350m-hh-rlhf-chosen-sft-trl-v5

0.3B • Updated May 11 • 1

lblaoke/opt-125m-hh-rlhf-rm-trl-v5

0.1B • Updated May 9

lblaoke/opt-125m-hh-rlhf-dpo-trl-v5

0.1B • Updated May 8

lblaoke/opt-125m-hh-rlhf-chosen-sft-trl-v5

0.1B • Updated May 7

lblaoke/qwama-0.5b-hh-rlhf-sft-chosen-trl-v4

0.5B • Updated Apr 8

lblaoke/qwama-0.5b-skywork-pref-sft-chosen-dpo-trl-v3

0.5B • Updated Mar 28

lblaoke/qwama-0.5b-skywork-pref-sft-rejected-chosen-trl-v3

0.5B • Updated Mar 28 • 1

lblaoke/qwama-0.5b-skywork-pref-sft-chosen-trl-v3

0.5B • Updated Mar 28

datasets 0

None public yet