章节出错了,点此刷新,刷新后小编会在两分钟内校正章节内容,请稍后再试。
会议厅,罗靖环视众:“如一问是对一孩释什是登入火星,给的回答是一了火星。这对话内容为一数据集,让灵境GPT进学习,光是课不毕业,毕业做、考试。”
罗靖环视众笑:“实是一個馈,所们接来的任务是给灵境GPT来类馈的强学习,当是参考试。回答错误,修;回答确,进一步学习,灵境GPT过考试拿足够的学来证己的。”
回头瞄了眼会议屏幕且按了遥控器,罗靖条清晰说:“具怎做呢?还是刚刚的问举例,给一孩释什叫登陆火星,让微调过的是完课的灵境GPT来回答,会答案,A释、B释战争、C释火星是一、D类了火星。”
说这里,罗靖顿了片刻继续说:“是根据真实、无害、有帮助若干维来给这答案排序、评,排序结构是D>C>B=A,是将这问答案及答案的排序,将这数据集拿来训练一奖励模型,训练的目标是让模型的评标准接近排序标准。”