اپن ای آی ChatGPT را منتشر کرد، یک مدل هوش مصنوعی محاوره ای بر اساس مدل زبان GPT-3.5 (LM)

 
با استفاده از یادگیری تقویتی از بازخورد انسانی (RLHF) تنظیم شده است و دارای یک فیلتر تعدیل برای جلوگیری از تعاملات نامناسب است. خبر انتشار در وبلاگ OpenAI اعلام شد. ChatGPT با استفاده از همان روش‌های RLHF که برای آموزش InstructGPT، مدل زبان پیروی از دستورالعمل OpenAI استفاده می‌شود، آموزش داده می‌شود. RHLF از دو مجموعه داده استفاده می‌کند: یکی از نمونه‌های نوشته شده توسط انسان برای تنظیم دقیق GPT-3.5 LM با نظارت، و مقایسه با برچسب انسانی خروجی‌های LM برای آموزش یک مدل پاداش برای یادگیری تقویتی.

بیشتر بدانید: https://lnkd.in/gF2FC9eT