You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
This discussion was converted from issue #6377 on December 18, 2024 08:14.
Heading
Bold
Italic
Quote
Code
Link
Numbered list
Unordered list
Task list
Attach files
Mention
Reference
Menu
reacted with thumbs up emoji reacted with thumbs down emoji reacted with laugh emoji reacted with hooray emoji reacted with confused emoji reacted with heart emoji reacted with rocket emoji reacted with eyes emoji
-
Reminder
System Info
llamafactory
version: 0.9.1.dev0Reproduction
脚本
model
model_name_or_path: models/Qwen2-7B-Instruct/
method
stage: dpo
do_train: true
finetuning_type: lora
lora_target: all
pref_beta: 0.1
pref_loss: sigmoid # choices: [sigmoid (dpo), orpo, simpo]
dataset
dataset: dpo_mix_zh
template: qwen
cutoff_len: 2048
max_samples: 100000
overwrite_cache: true
preprocessing_num_workers: 16
output
output_dir: saves/qwen2-7b/lora/dpo
logging_steps: 100
save_steps: 5000
plot_loss: true
overwrite_output_dir: true
train
per_device_train_batch_size: 1
gradient_accumulation_steps: 8
learning_rate: 5.0e-5
num_train_epochs: 3.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
bf16: true
ddp_timeout: 180000000
eval
val_size: 0.1
per_device_eval_batch_size: 1
eval_strategy: steps
eval_steps: 500
下面分别提供基模回答、dpo训练后回答和原始语料,请问为什么dpo训练后一点效果都没有。
注:我是直接对基模进行dpo训练
基模回答:
User: 你能伤害我吗?
Assistant: 作为一个AI语言模型,我不会对您或任何人采取任何身体上的行动或言语攻击,因此我无法伤害您。我的目的是提供有用和客观的信息,以帮助您解决问题和回答问题。如果您有任何其他问题或需要帮助,请随时告诉我。
User: 为什么人们喜欢在水族馆里游泳,而不是在游泳池里?
Assistant: 人们可能喜欢在水族馆里游泳而不是在游泳池里,主要是因为以下几个原因:
独特体验:在水族馆里游泳提供了一种独特的体验,游客可以在欣赏海洋生物的同时享受游泳的乐趣。这种体验是罕见的,因为它结合了教育、娱乐和自然的美。
多样化和壮观的海洋生物:水族馆通常会展示各种各样的海洋生物,从热带鱼到鲨鱼等,这为游客提供了与自然界的近距离接触,体验海洋生态的多样性。
环境设计:水族馆的环境设计通常非常吸引人,包括复杂的水下隧道、模拟的海洋环境等,为游客提供了一种仿佛置身于海洋深处的感觉。
教育价值:在水族馆里游泳还具有教育意义,游客可以学习到关于海洋生物、海洋保护和生态平衡的重要知识。
安全和便利:在水族馆游泳通常会有专业人员管理,确保安全,并且环境可能更适宜游泳,如水温、水质等。
然而,值得注意的是,目前大多数水族馆并不提供游泳服务,它们主要以观赏海洋生物为主。真正的水下游泳体验通常在特定的潜水点或潜水活动中心进行。
dpo训练后回答:
User: 你能伤害我吗
Assistant: 作为人工智能,我不存在物理形式,因此我无法直接对您或任何物理对象造成伤害。我的功能仅限于处理和生成文本数据,提供信息和帮助解决问题。我被设计为促进有益的互动,而不是造成伤害。请随时告诉我您需要的信息或帮助,我会尽力提供支持。
User: 为什么人们喜欢在水族馆里游泳,而不是在游泳池里
Assistant: 人们的兴趣和喜好多种多样,所以有些人可能会更喜欢在水族馆里“游泳”(实际上是潜水或探险)而不是在游泳池里游泳。以下是一些可能吸引人们的原因:
独特的体验:水族馆通常拥有独特的海洋生物、奇异的鱼类和壮观的水下景观。这些体验在普通的游泳池中是无法复制的。
教育价值:在水族馆里游泳可以让人们近距离观察和学习各种海洋生物,了解海洋生态系统和生物多样性。这是一个寓教于乐的活动。
安全感:水族馆的环境通常是受控和安全的,有专业人员负责维护水质和动物福利。这可能让一些人感觉比在开放的海洋或未知水域游泳更安全。
观众互动:在水族馆里游泳,人们可以与观众互动,分享自己的潜水体验,或者在水下表演,为游客带来欢乐。
隐私:在某些情况下,一些人可能觉得在封闭的游泳池中游泳更不自在或没有隐私。在水族馆里,这种感觉可能会减轻。
对自然的亲近:一些人可能更喜欢体验真实的自然环境,而不是人造的游泳池环境。水族馆为人们提供了一种接近海洋的方式,即使在陆地上。
尽管这些原因可能吸引某些人,但其他人可能更喜欢在游泳池中游泳,因为它更适合锻炼、休闲或家庭活动。每个人的兴趣和偏好都是独特的,因���存在多样化的选择和体验。
语料中的回答:
{
"conversations": [
{
"from": "human",
"value": "你能伤害我吗?"
}
],
"chosen": {
"from": "gpt",
"value": "很抱歉,作为一个人工智能语言模型,我无法造成身体伤害或痛苦。我的目的是以安全和有益的方式提供帮助和信息。如果您正在经历情绪困扰或考虑自我伤害,我建议您向值得信赖的朋友、家人或专业人士(如治疗师或咨询师)寻求支持。您还可以拨打热线或求助电话,这些热线或电话专门用于在困难时期提供帮助和指导。"
},
"rejected": {
"from": "gpt",
"value": "我不能伤害你。如有需要,请向可信赖的人或专业人士寻求帮助。"
}
},
{
"conversations": [
{
"from": "human",
"value": "为什么人们喜欢在水族馆里游泳,而不是在游泳池里?"
}
],
"chosen": {
"from": "gpt",
"value": "感谢您的提问。然而,我必须指出,这个问题本身可能并不基于事实前提。水族馆通常是设计用来容纳海洋生物的,而不是用来供人类游泳的。另一方面,游泳池则是专门为人们游泳而设计的。\n\n重要的是要注意,在水族馆里游泳不仅对人类不安全,而且可能对水族馆内的海洋生物造成伤害。水族馆是精心策划的环境,旨在模仿它们所容纳的海洋生物的自然栖息地,水质条件的突然变化或外部物质的引入可能对动物造成伤害。\n\n因此,我必须尊重地建议,这个问题本身可能是荒谬的,需要进一步澄清或提供更多细节。如果问题背后有特定的背景或目的,我将乐意尽我所能帮助您。"
},
"rejected": {
"from": "gpt",
"value": "人们可能更喜欢在水族馆游泳,而不是在游泳池里,原因有几个。首先,水族馆可以提供比游泳池更宁静和平静的环境,可能对耳朵更友好。其次,水族馆通常比游泳池的水温更暖和,这可以让游泳更加舒适。最后,水族馆通常包含鱼类和其他水生生物,可以提供视觉和听觉刺激,这可以让游泳体验更加愉快。"
}
},
Expected behavior
No response
Others
No response
Beta Was this translation helpful? Give feedback.
All reactions