در تازهترین پژوهشهای حوزه هوش مصنوعی، داوود سارانی و دکتر پرویز رشیدیخزاعی موفق شدهاند با بهرهگیری از الگوریتم یادگیری تقویتی عمیق (Deep Reinforcement Learning) و مدل پیشرفته A3C (Asynchronous Advantage Actor-Critic)، استراتژیهای معاملاتی در بازار جهانی فارکس را به صورت چشمگیری بهینه کنند. این مدل چندعاملی که بهطور همزمان روی چند جفت ارز آموزش میبیند، در شبیهسازیهای انجامشده، عملکرد بهتری نسبت به روشهای مرسوم همچون PPO (Proximal Policy Optimization) از خود نشان داده و بازدهی معاملات را به شکل قابل توجهی افزایش داده است. چنین دستاوردی نویدبخش تحولی بزرگ در شیوه معاملات الگوریتمی و برخورد معاملهگران با بازارهای مالی پرنوسان است.
بازار فارکس به عنوان بزرگترین بازار مالی دنیا، به علت نوسانات شدید و پیچیدگیهای ساختاری، از جمله بازارهایی است که مدیریت ریسک و بهینهسازی استراتژیهای معاملاتی در آن اهمیت ویژهای دارد. طی سالهای اخیر، معاملات الگوریتمی با استفاده از هوش مصنوعی و یادگیری ماشین به کمک معاملهگران آمدهاند تا تصمیمگیریهای سریعتر و دقیقتری داشته باشند. در این میان، یادگیری تقویتی عمیق (DRL) گامی فراتر برداشته است؛ چرا که در این روش، عاملهای هوشمند نه تنها الگوها را شناسایی میکنند، بلکه با آزمون و خطا در محیط، یاد میگیرند بهترین تصمیم را اتخاذ کنند تا حداکثر پاداش را کسب کنند.
پژوهش سارانی و همکاران با طراحی یک مدل چندعاملی (multi-agent) که در آن هر عامل به طور موازی روی جفت ارزهای مختلف آموزش میبیند، توانسته است انعطاف و دقت این تصمیمگیریها را به سطح جدیدی برساند. این روش ضمن افزایش سرعت یادگیری، امکان طراحی استراتژیهای تخصصی متناسب با شرایط متفاوت بازار را فراهم میکند.
تشریح روش تحقیق و طراحی الگوریتم A3C چندعاملی
در تحقیق ارائه شده در arXiv با عنوان «یک رویکرد یادگیری تقویتی عمیق برای بهینهسازی معاملات در بازار فارکس با مدل چندعاملی ناهمزمان»، پژوهشگران دو نسخه از الگوریتم A3C چندعاملی را به کار بردهاند. نسخه اول «A3C با قفل» است که هماهنگی بیشتری بین عاملها ایجاد میکند و عمدتاً برای معاملات روی یک جفت ارز مناسب است. نسخه دوم «A3C بدون قفل» با استقلال بیشتر عاملها برای سناریوهای چند-ارزی بهینهسازی شده است.
هر عامل یا Worker در یک محیط شبیهسازی شده معاملات فارکس، به صورت موازی عمل میکند و با آزمون و خطا یاد میگیرد که چگونه بیشترین سود را به دست آورد. این روش توانسته است استراتژیهای متنوع و دقیقتری را برای شرایط متفاوت بازار ارائه دهد. عملکرد هر دو نسخه الگوریتم در مقایسه با روش PPO ارزیابی شده و نتایج نشان دادهاند که الگوریتمهای A3C به خصوص نسخه بدون قفل، در معاملات چند-ارزی عملکرد بهتری دارند و بازده معاملات را افزایش میدهند.
نتایج عملی و مزایای مدل پیشنهادی
نتایج این پژوهش نشان میدهد که استفاده از الگوریتم A3C چندعاملی مزایای قابل توجهی برای معاملهگران به همراه دارد. نسخه با قفل این الگوریتم در معاملات تکارزی بازده بسیار خوبی ارائه کرده و نسخه بدون قفل برای معاملات چند-ارزی انعطافپذیری و سودآوری بیشتری به ارمغان آورده است. این امر اهمیت بالایی دارد، زیرا بسیاری از تریدرهای حرفهای در بازار فارکس همزمان با چندین جفت ارز کار میکنند و نیاز به استراتژیهای پیچیده و منعطف دارند.
از جمله مزایای کلیدی این مدل میتوان به موارد زیر اشاره کرد: قابلیت اکتشاف وسیعتر گزینهها، سرعت بالاتر در یادگیری استراتژیها به دلیل کار موازی عاملها، افزایش بازده معاملات و انعطافپذیری بالا در پاسخ به شرایط متغیر بازار. این ویژگیها باعث میشود این الگوریتم برای تریدرهایی که به دنبال کاهش ریسک و بهبود سودآوری هستند بسیار جذاب باشد.
پژوهش مکمل و استفاده از وظایف کمکی برای بهبود عملکرد
همزمان با این تحقیق، پژوهشگران دیگری از جمله سحر عربها به همراه تیم سارانی و رشیدیخزاعی روی بهبود عملکرد الگوریتمهای یادگیری تقویتی با افزودن وظایف کمکی (Auxiliary Tasks) کار کردهاند. در این پژوهش، با استفاده از الگوریتم PPO و افزودن یک تابع کمکی، مدل قادر شده است اطلاعات بیشتری از دادههای ورودی استخراج کرده و تابع پاداش بهتری ایجاد کند.
این مدل در شبیهسازی معاملات جفت ارز EUR/USD عملکرد فوقالعادهای داشته است؛ بهطوریکه بازده معاملات به شکل چشمگیری افزایش یافته و نسبت شارپ که معیار نسبت سود به ریسک است، بهبود یافته است. این یافتهها نشاندهنده پتانسیل بالای ترکیب یادگیری تقویتی عمیق با وظایف کمکی برای افزایش سودآوری و کاهش ریسک در معاملات فارکس هستند.
چالشها و محدودیتهای پیش رو
اگرچه نتایج این پژوهشها بسیار امیدوارکننده است، اما محققان به برخی محدودیتها و چالشها نیز اشاره کردهاند. نخست آنکه مدلها عمدتاً روی دادههای شبیهسازی شده و تاریخی آموزش دیدهاند و بازار واقعی ممکن است پیچیدگیها و نویزهای بیشتری داشته باشد که مدل را به چالش میکشد. همچنین عدم قابلیت تبیینپذیری تصمیمات مدلها (Explainability) میتواند باعث شود معاملهگران به سختی به نتایج اعتماد کنند. گسترش این روش به بازارهای دیگر مانند بورس، کالا و ارزهای دیجیتال نیز موضوعی است که باید بیشتر بررسی شود. همچنین، برای بهکارگیری این مدلها در شرایط واقعی، آزمایشهای زنده (Live Trading) ضروری است تا عملکرد و پایداری آنها در بازار واقعی سنجیده شود.
پیام به تریدرها و فعالان بازار مالی
برای معاملهگران حرفهای و مدیران سرمایهگذاری، این پژوهش نویدبخش راهکارهای نوینی است که میتواند به کاهش خطاهای انسانی، افزایش بازده و بهبود مدیریت ریسک کمک کند. بهرهگیری از یادگیری تقویتی عمیق و الگوریتمهای چندعاملی میتواند تحولی در نحوه تعامل با بازارهای مالی پرنوسان ایجاد کند. علاوه بر این، برای پژوهشگران و توسعهدهندگان حوزه هوش مصنوعی، این دستاوردها نمونهای پیشرفته و الهامبخش در ترکیب فناوریهای نوین هوش مصنوعی و مالی به شمار میرود و میتواند به خلق ایدههای جدید در این حوزه کمک کند.
پژوهش داوود سارانی و همکاران در زمینه یادگیری تقویتی عمیق برای بهینهسازی ترید فارکس، نقطه عطفی در حوزه معاملات الگوریتمی محسوب میشود. استفاده از مدلهای چندعاملی A3C و بهبودهای ساختاری مانند وظایف کمکی در الگوریتم PPO توانستهاند به افزایش قابل توجه بازده معاملاتی و انعطافپذیری استراتژیها منجر شوند. اگر این رویکردها در بازار واقعی نیز موفق عمل کنند، میتوانند آینده معاملات فارکس و سایر بازارهای مالی را متحول کنند و نسل جدیدی از تریدرهای هوش مصنوعی را شکل دهند.
