reddit_finance_43_250k是来自43个金融、投资和加密货币子板块的25万个帖子/评论对的集合。帖子必须都是250个字符的纯文本,并且具有正分数。每个子板块在与其前3个评论合并之前都被限定到第70个百分位数,然后与其他子板块合并。进一步使用基于分数的方法选择前250k条帖子/评论对。
重新创建数据集的代码在这里: https://github.com/getorca/ProfitsBot_V0_OLLM/tree/main/ds_builder
训练好的lora模型在这里: https://huggingface.co/winddude/pb_lora_7b_v0.1