AI / Machine Learningproces

RLHF

Reinforcement Learning from Human Feedback

Uczenie ze wzmocnieniem na podstawie preferencji ludzi — dostrajanie modelu tak, by jego wyjścia maksymalizowały nagrodę odzwierciedlającą oceny człowieka.

Typ
proces
Pojęcie nadrzędne
uczenie ze wzmocnieniem
Źródło
Christiano et al., Deep RL from Human Preferences, 2017

Chcesz wykorzystać AI w swojej firmie?

Wdrażamy chatboty, agentów głosowych i automatyzacje dla MŚP. Pierwsza konsultacja jest bezpłatna.

Bezpłatna konsultacja