LoRA微调 glaive-function-calling-v2-sharegpt 数据集，需要多大参数量的模型能有较好的训练效果？ #4908

chenkuncloud · 2024-07-20T16:02:59Z

chenkuncloud
Jul 20, 2024

数据集：hiyouga/glaive-function-calling-v2-sharegpt
对于Qwen2系列而言，求问0.5B/1.5B/7B哪个更适合拿来做微调，完成 Function Call 的任务？超参数大概如何设置（轮数、学习率、总批大小）？是否还需要搭配其他的数据集？

mMrBun · 2024-07-23T07:00:43Z

3 replies

参考作者在知乎的文章单卡 3 小时训练专属大模型 Agent：基于 LLaMA Factory 实战

感谢，我一定好好学习一下这篇文章！

对于模型参数量的问题，可以看salesforce最近的这份工作APIGen，他们在1B参数量的模型跑Berkeley Function-Calling Benchmark效果挺好。ps:我没测试

对于模型参数量的问题，可以看salesforce最近的这份工作APIGen，他们在1B参数量的模型跑Berkeley Function-Calling Benchmark效果挺好。ps:我没测试

再次感谢，很新的文章，我对 Function-Calling 也很感兴趣，本周如果有时间，一定好好复现并记录一下。