اپن ای آی ChatGPT را منتشر کرد، یک مدل هوش مصنوعی محاوره ای بر اساس مدل زبان GPT-3.5 (LM)
با استفاده از یادگیری تقویتی از بازخورد انسانی (RLHF) تنظیم شده است و دارای یک فیلتر تعدیل برای جلوگیری از تعاملات نامناسب است. خبر انتشار در وبلاگ OpenAI اعلام شد. ChatGPT با استفاده از همان روشهای RLHF که برای آموزش InstructGPT، مدل زبان پیروی از دستورالعمل OpenAI استفاده میشود، آموزش داده میشود. RHLF از دو مجموعه داده استفاده میکند: یکی از نمونههای نوشته شده توسط انسان برای تنظیم دقیق GPT-3.5 LM با نظارت، و مقایسه با برچسب انسانی خروجیهای LM برای آموزش یک مدل پاداش برای یادگیری تقویتی.