请问为什么奖励模型[reward trainer]使用AutoModelForCausalLMWithValueHead而非AutoModelForSequenceClassification #6455

luoqishuai · 2024-12-26T12:24:01Z

luoqishuai
Dec 26, 2024

@hiyouga 因为看到trl官方给的示例是AutoModelForSequenceClassification[https://github.com/huggingface/trl].
也没有搜到相关的知识点
请问大佬,使用AutoModelForCausalLMWithValueHead是有什么特殊逻辑在里面吗?

hiyouga · 2024-12-26T13:03:58Z

hiyouga
Dec 26, 2024
Maintainer

没有特殊逻辑，在后续更新里可能会换掉

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请问为什么奖励模型[reward trainer]使用AutoModelForCausalLMWithValueHead而非AutoModelForSequenceClassification #6455

{{title}}

Replies: 1 comment

{{title}}

Select a reply

请问为什么奖励模型[reward trainer]使用AutoModelForCausalLMWithValueHead而非AutoModelForSequenceClassification #6455

luoqishuai Dec 26, 2024

Replies: 1 comment

hiyouga Dec 26, 2024 Maintainer

luoqishuai
Dec 26, 2024

hiyouga
Dec 26, 2024
Maintainer