‌چکیده محتوای فایل

یادگیری تقویتی از دو جنبه با یادگیری با ناظر تفاوت دارد:
مثالهائی یادگیری بصورت زوج >ورودی/ خروجی< مطرح نمیشوند. بلکه بعد از اینکه عامل عملی را انجام داد پاداشی را دریافت میکند و به مرحله بعدی میرود.عامل هیچ گونه اطلاعی در مورد اینکه در هر حالت بهترین عمل چیست را ندارد. بلکه این وظیفه عامل است که در طول زمان تجربه کافی در مورد حالتها، عمل های ممکن، انتقال و پاداش جمع آوری نموده و عملکرد بهینه را یاد بگیرد.
تفاوت دیگر در اینجاست که سیستم باید کارائی آنلاین بالائی داشته باشد. زیرا اغلب ارزیابی سیستم با  عمل یادگیری  بطور همزمان صورت می پذیرد ...
 

‌فهرست

یادگیری تقویتی
مشخصه های اصلی یادگیری تقویتی
الگوریتم کلی یادگیری تقویتی
بدست آوردن سیاست بهینه
الگوریتم یادگیری Q برای MDP قطعی
اپیزود های یادگیری
مسایل مطرح در یادگیری تقویتی
سیستمهای بزرگ
نتیجه گیری

این فایل را در شبکه های اجتماعی به اشتراک بزارید



: برچسب‌ها

منتشر شده در تاریخ: 1399/09/05
بازدید شده توسط 1415 نفر
تعداد دانلود این فایل : 42 مرتبه
در صورت بروز خطا هنگام دانلود به بخش (پنل کاربری - خریدهای من) مراجعه فرمایید.

دیدگاه کاربران

system          

مدیریت

  • لطفا نظرات خود را با ما در میان بگذارید