پیش بینی روند قیمت بورس سهام کوتاه مدت با استفاده از یک سیستم جامع یادگیری عمیق

  • 2021-06-13

در دوره Big Data ، یادگیری عمیق برای پیش بینی قیمت ها و روندهای بازار سهام حتی از گذشته محبوب تر شده است. ما 2 سال داده از بازار سهام چین جمع آوری کردیم و یک سفارشی سازی جامع از مهندسی ویژگی ها و مدل یادگیری عمیق را برای پیش بینی روند قیمت بازار سهام ارائه دادیم. راه حل پیشنهادی جامع است زیرا شامل پیش پردازش مجموعه داده های بازار سهام ، استفاده از تکنیک های مهندسی چند ویژگی ، همراه با یک سیستم مبتنی بر یادگیری عمیق سفارشی برای پیش بینی روند قیمت سهام است. ما ارزیابی های جامعی را در مورد مدل های یادگیری ماشین که اغلب استفاده می شود انجام دادیم و نتیجه گرفتیم که راه حل پیشنهادی ما به دلیل مهندسی جامع ویژگی که ما ساخته ایم ، بهتر است. این سیستم برای پیش بینی روند بازار سهام به دقت بالایی می رسد. این کار با طراحی دقیق و ارزیابی طول مدت اصطلاح پیش بینی ، مهندسی ویژگی ها و روش های پیش پردازش داده ها ، در حوزه های مالی و فنی به جامعه تحقیق تجزیه و تحلیل سهام کمک می کند.

مقدمه

بورس اوراق بهادار یکی از مهمترین زمینه هایی است که سرمایه گذاران به آن اختصاص داده شده اند ، بنابراین پیش بینی روند قیمت سهام همیشه موضوع داغ برای محققان از حوزه های مالی و فنی است. در این تحقیق ، هدف ما ساختن یک مدل پیش بینی پیشرفته برای پیش بینی روند قیمت است که بر پیش بینی روند قیمت کوتاه مدت متمرکز است.

همانطور که توسط FAMA در [26] نتیجه گیری شد ، پیش بینی سری زمانی مالی به دلیل شکل عموماً پذیرفته شده ، نیمه قوی کارایی بازار و سطح بالای سر و صدا ، یک کار بسیار دشوار است. در سال 2003 ، وانگ و همکاران. در [44] قبلاً شبکه های عصبی مصنوعی را در مورد پیش بینی قیمت سهام بورس و متمرکز بر حجم ، به عنوان یک ویژگی خاص بازار سهام متمرکز کرده است. یکی از یافته های مهم آنها این بود که این حجم در بهبود عملکرد پیش بینی در مجموعه داده های مورد استفاده ، که S& P 500 و DJI بود ، مؤثر نبود. Ince و Trafalis در [15] مدل پیش بینی کوتاه مدت و مدل بردار پشتیبانی کاربردی (SVM) را در پیش بینی قیمت سهام هدف قرار دادند. سهم اصلی آنها انجام مقایسه بین Perceptron چند لایه (MLP) و SVM است و سپس دریافتند که بیشتر سناریوهای SVM از MLP بهتر عمل می کنند ، در حالی که نتیجه نیز تحت تأثیر استراتژی های مختلف معاملات قرار گرفته است. در این میان ، محققان حوزه های مالی از روشهای آماری معمولی و تکنیک های پردازش سیگنال در تجزیه و تحلیل داده های بازار سهام استفاده می کردند.

تکنیک های بهینه سازی ، مانند تجزیه و تحلیل مؤلفه اصلی (PCA) نیز در پیش بینی قیمت سهام کوتاه مدت اعمال شد [22]. در طی سالها ، محققان نه تنها روی تجزیه و تحلیل مربوط به قیمت سهام متمرکز شده اند بلکه سعی در تجزیه و تحلیل معاملات بازار سهام مانند خطرات پشت سر هم حجم دارند ، که دامنه تحقیق تجزیه و تحلیل بورس را گسترده تر می کند و نشان می دهد که این دامنه تحقیقاتی هنوز از پتانسیل بالایی برخوردار است [39]وادبا تکامل تکنیک های هوش مصنوعی در سالهای اخیر ، بسیاری از راه حل های پیشنهادی سعی در ترکیب یادگیری ماشین و تکنیک های یادگیری عمیق بر اساس رویکردهای قبلی داشتند و سپس معیارهای جدیدی را ارائه دادند که به عنوان ویژگی های آموزشی مانند لیو و وانگ عمل می کنند [23]. این نوع آثار قبلی متعلق به دامنه مهندسی ویژگی است و می تواند به عنوان الهام بخش ایده های توسعه ویژگی در تحقیقات ما در نظر گرفته شود. لیو و همکاران. در [24] یک شبکه عصبی حلقوی (CNN) و همچنین یک مدل مبتنی بر شبکه عصبی کوتاه مدت (LSTM) برای تجزیه و تحلیل استراتژی های کمی مختلف در بازارهای سهام ارائه داد. CNN برای استراتژی انتخاب سهام خدمت می کند ، به طور خودکار ویژگی ها را بر اساس داده های کمی استخراج می کند ، سپس از LSTM پیروی می کند تا ویژگی های سری زمانی را برای بهبود سود حفظ کند.

آخرین کار همچنین یک معماری مشابه شبکه عصبی ترکیبی را پیشنهاد می کند ، و یک شبکه عصبی حلقوی را با یک حافظه کوتاه مدت بلند مدت دو طرفه برای پیش بینی شاخص بازار سهام ادغام می کند [4]. در حالی که محققان غالباً معماری های مختلف راه حل شبکه عصبی را پیشنهاد می کردند ، اگر هزینه بالای آموزش چنین مدلهایی ارزش نتیجه را داشته باشد یا خیر ، بحث های بیشتری را در مورد موضوع ارائه می داد.

سه سهم اصلی در کار ما (1) یک مجموعه داده جدید استخراج و تمیز شده (2) یک مهندسی جامع ویژگی و (3) یک مدل یادگیری عمیق مبتنی بر حافظه کوتاه کوتاه (LSTM).

ما مجموعه داده ها را توسط خودمان از منبع داده به عنوان یک API داده با منبع باز به نام Tushare ساخته ایم [43]. تازگی راه حل پیشنهادی ما این است که ما یک مهندسی ویژگی را به همراه یک سیستم تنظیم شده خوب به جای فقط یک مدل LSTM ارائه دادیم. ما از آثار قبلی رعایت می کنیم و شکاف ها را پیدا می کنیم و قبل از آموزش مدل پیش بینی ، یک معماری راه حل را با یک روش جامع مهندسی ویژگی ارائه می دهیم. با موفقیت در روش توسعه ویژگی با الگوریتم های حذف ویژگی های بازگشتی ، درها را برای بسیاری از الگوریتم های یادگیری ماشین باز می کند تا به نمرات دقت بالا برای پیش بینی روند قیمت کوتاه مدت دست یابد. این اثربخشی از ویژگی های پیشنهادی ما به عنوان مهندسی ویژگی را اثبات کرد. ما همچنین مدل LSTM سفارشی خود را معرفی کردیم و نمرات پیش بینی را در تمام معیارهای ارزیابی بهبود بخشیدیم. راه حل پیشنهادی از یادگیری ماشین و مدل های مبتنی بر یادگیری عمیق در کارهای قبلی مشابه عمل می کند.

باقیمانده این مقاله به شرح زیر سازماندهی شده است. بخش "بررسی آثار مرتبط" بررسی آثار مرتبط را شرح می دهد. بخش "مجموعه داده" جزئیات مربوط به داده هایی را که ما از منابع داده های عمومی و مجموعه داده های تهیه شده استخراج کردیم ، ارائه می دهد. بخش "روشها" مشکلات تحقیق ، روشها و طراحی راه حل پیشنهادی را ارائه می دهد. طراحی فنی دقیق با الگوریتم ها و نحوه اجرای مدل نیز در این بخش گنجانده شده است. بخش "نتایج" نتایج جامع و ارزیابی مدل پیشنهادی ما را ارائه می دهد ، و با مقایسه آن با مدل های مورد استفاده در بیشتر آثار مرتبط. بخش "بحث" بحث و مقایسه نتایج را ارائه می دهد. بخش "نتیجه گیری" نتیجه گیری را ارائه می دهد. این مقاله تحقیق بر اساس شن ساخته شده است [36].

بررسی آثار مرتبط

در این بخش ، ما در مورد آثار مرتبط بحث می کنیم. ما کار مرتبط را در دو حوزه مختلف بررسی کردیم: به ترتیب فنی و مالی.

کیم و هان در [19] مدلی را به عنوان ترکیبی از شبکه های عصبی مصنوعی (ANN) و الگوریتم های ژنتیکی (GAS) با گسسته سازی ویژگی ها برای پیش بینی شاخص قیمت سهام ساخته اند. داده های مورد استفاده در مطالعه آنها شامل شاخص های فنی و همچنین جهت تغییر در شاخص قیمت سهام روزانه کره (KOSPI) است. آنها از داده های حاوی نمونه های 2928 روز معاملاتی ، از ژانویه 1989 تا دسامبر 1998 استفاده کردند و ویژگی ها و فرمول های انتخاب شده خود را ارائه می دهند. آنها همچنین بهینه سازی گسسته سازی ویژگی ها را به عنوان تکنیکی که شبیه به کاهش ابعاد است ، به کار بردند. نقاط قوت کار آنها این است که آنها GA را برای بهینه سازی ANN معرفی کردند. ابتدا میزان ویژگی های ورودی و عناصر پردازش در لایه پنهان 12 و قابل تنظیم نیست. محدودیت دیگر در فرایند یادگیری ANN است و نویسندگان فقط در بهینه سازی دو عامل متمرکز شده اند. در حالی که آنها هنوز هم معتقد بودند که GA پتانسیل خوبی برای بهینه سازی گسسته سازی ویژگی دارد. استخر ویژگی اولیه ما به ویژگی های انتخاب شده اشاره دارد. Qiu و Song در [34] همچنین راه حلی برای پیش بینی جهت بازار سهام ژاپن بر اساس یک مدل شبکه عصبی بهینه شده بهینه ارائه دادند. در این کار ، نویسندگان از الگوریتم های ژنتیکی به همراه مدلهای مبتنی بر شبکه عصبی مصنوعی استفاده می کنند و آن را به عنوان یک مدل GA-ANN نامگذاری می کنند.

Piramuthu در [33] ارزیابی کاملی از روش های مختلف انتخاب ویژگی برای برنامه های داده کاوی انجام داد. وی برای مجموعه داده ها ، که داده های تأیید اعتبار ، داده های پیش فرض وام ، داده های ترافیک وب ، TAM و داده های Kiang بود ، استفاده کرد و نحوه انتخاب روش های مختلف انتخاب ویژگی را بهینه کرد. روش های انتخاب ویژگی که وی در مقایسه با آن مقایسه کرد شامل اندازه گیری فاصله احتمالی: اندازه گیری Bhattacharyya ، اندازه گیری Matusita ، اندازه گیری واگرایی ، اندازه گیری فاصله Mahalanobis و اندازه گیری پاتریک-فیشر است. برای اقدامات فاصله بین کلاس: اندازه گیری فاصله Minkowski ، اندازه گیری فاصله بلوک شهر ، اندازه گیری فاصله اقلیدسی ، اندازه گیری فاصله Chebychev و اندازه گیری فاصله غیرخطی (Parzen و Hyper-Sperical). قدرت این مقاله این است که نویسنده هم از راه دور مبتنی بر فاصله و هم چندین روش انتخاب ویژگی بین کلاس را ارزیابی کرده است. علاوه بر این ، نویسنده ارزیابی را بر اساس مجموعه داده های مختلف انجام داده است ، که قدرت این مقاله را تقویت می کند. با این حال ، الگوریتم ارزیابی فقط یک درخت تصمیم بود. ما نمی توانیم نتیجه بگیریم که آیا روش های انتخاب ویژگی هنوز هم در یک مجموعه داده بزرگتر یا یک مدل پیچیده تر یکسان را انجام می دهند.

حسن و نات در [9] مدل مخفی مارکوف (HMM) را در پیش بینی بازار سهام در قیمت سهام چهار شرکت هواپیمایی مختلف به کار بردند. آنها حالت های مدل را به چهار ایالت کاهش می دهند: قیمت افتتاح ، قیمت بسته شدن ، بالاترین قیمت و کمترین قیمت. نکته مهم این مقاله این است که این رویکرد برای ساختن یک مدل پیش بینی به دانش تخصصی احتیاج ندارد. در حالی که این کار در صنعت خطوط هوایی محدود است و در یک مجموعه داده بسیار کوچک ارزیابی می شود ، ممکن است منجر به یک مدل پیش بینی با کلیت نشود. یکی از رویکردهای مربوط به آثار مربوط به پیش بینی بازار سهام می تواند برای انجام کار مقایسه مورد سوء استفاده قرار گیرد. نویسندگان حداکثر 2 سال را به عنوان محدوده تاریخ مجموعه داده های آموزش و آزمایش انتخاب کردند ، که یک مرجع تاریخ را برای قسمت ارزیابی ما فراهم کرد.

لی در [21] از شبکه عصبی موجک (WNN) برای پیش بینی روند قیمت سهام استفاده شده است. نویسنده همچنین از مجموعه خشن (RS) برای کاهش ویژگی به عنوان بهینه سازی استفاده کرد. برای کاهش ابعاد ویژگی روند قیمت سهام از مجموعه خشن استفاده شد. همچنین برای تعیین ساختار شبکه عصبی موجک استفاده شد. مجموعه داده های این کار شامل پنج شاخص شناخته شده بازار سهام ، یعنی (1) شاخص کامپوزیت SSE (چین) ، (2) شاخص CSI 300 (چین) ، (3) تمام شاخص Ordinaries (استرالیا) ، (4)Nikkei 225 Index (ژاپن) ، و (5) شاخص داو جونز (ایالات متحده). ارزیابی این مدل بر اساس شاخص های مختلف بازار سهام بود و نتیجه آن با کلیت قانع کننده بود. با استفاده از مجموعه خشن برای بهینه سازی بعد ویژگی قبل از پردازش ، پیچیدگی محاسباتی را کاهش می دهد. با این حال ، نویسنده فقط بر تنظیم پارامتر در قسمت بحث تأکید کرده است اما ضعف خود مدل را مشخص نکرده است. در همین حال ، ما همچنین دریافتیم که ارزیابی ها بر روی شاخص ها انجام شده است ، در صورت اعمال روی یک سهام خاص ، همان مدل ممکن است عملکرد یکسانی نداشته باشد.

لی در [20] از دستگاه بردار پشتیبانی (SVM) به همراه روش انتخاب ویژگی ترکیبی برای انجام پیش بینی روند سهام استفاده کرد. مجموعه داده در این تحقیق یک مجموعه فرعی از شاخص NASDAQ در پایگاه داده مجله اقتصادی تایوان (TEJD) در سال 2008 است. بخش انتخاب ویژگی با استفاده از یک روش ترکیبی ، از جستجوی متوالی پشتیبانی شده (SSFS) نقش بسته بندی را بازی می کرد. یکی دیگر از مزایای این کار این است که آنها یک روش دقیق از تنظیم پارامتر با عملکرد تحت مقادیر پارامتر مختلف طراحی کردند. ساختار واضح مدل انتخاب ویژگی نیز در مرحله اصلی ساختار مدل اکتشافی است. یکی از محدودیت ها این بود که عملکرد SVM فقط با شبکه عصبی با تولید مجدد (BPNN) مقایسه شد و با سایر الگوریتم های یادگیری ماشین مقایسه نمی شود.

Sirignano و Cont یک راه حل یادگیری عمیق را که در یک مجموعه ویژگی جهانی از بازارهای مالی در [40] آموزش دیده است ، استفاده کردند. مجموعه داده های مورد استفاده شامل سوابق خرید و فروش کلیه معاملات و لغو سفارشات برای تقریباً 1000 سهام NASDAQ از طریق کتاب سفارش بورس اوراق بهادار است. NN از سه لایه با واحدهای LSTM و یک لایه تغذیه به جلو با واحدهای خطی اصلاح شده (RELU) در آخر ، با الگوریتم شیب تصادفی (SGD) به عنوان بهینه سازی تشکیل شده است. مدل جهانی آنها قادر به تعمیم و پوشش سهام غیر از نمونه های موجود در داده های آموزش بود. اگرچه آنها به مزایای یک مدل جهانی اشاره کردند ، اما هزینه آموزش هنوز گران بود. در همین حال ، با توجه به برنامه نویسی غیر صریح الگوریتم یادگیری عمیق ، مشخص نیست که اگر در هنگام تغذیه داده ها ، ویژگی های بی فایده آلوده وجود داشته باشد. نویسندگان دریافتند که اگر آنها قبل از آموزش مدل ، بخش انتخاب ویژگی را انجام می دادند بهتر می شد و آن را به عنوان روشی مؤثر برای کاهش پیچیدگی محاسباتی می دانستند.

نی و همکاران. در [30] روند قیمت سهام را با بهره برداری از SVM پیش بینی کرده و انتخاب ویژگی های فراکتال را برای بهینه سازی انجام داد. مجموعه داده های مورد استفاده آنها شاخص کامپوزیت بورس سهام شانگهای (SSECI) است که 19 شاخص فنی به عنوان ویژگی ها دارد. آنها قبل از پردازش داده ها ، داده های ورودی را با انجام انتخاب ویژگی بهینه کردند. هنگام یافتن بهترین ترکیب پارامتر ، آنها همچنین از یک روش جستجوی شبکه استفاده می کنند که اعتبار سنجی k است. علاوه بر این ، ارزیابی روشهای مختلف انتخاب ویژگی نیز جامع است. همانطور که نویسندگان در بخش نتیجه گیری خود ذکر کردند ، آنها فقط شاخص های فنی را در نظر گرفتند اما عوامل کلان و خرد در حوزه مالی نبودند. منبع مجموعه داده هایی که نویسندگان استفاده می کردند مشابه مجموعه داده های ما بود ، که باعث می شود نتایج ارزیابی آنها برای تحقیقات ما مفید باشد. آنها همچنین از روشی به نام اعتبار سنجی متقاطع K هنگام آزمایش ترکیبات بیش از حد پارامتر استفاده کردند.

مک نالی و همکاران. در [27] RNN و LSTM را در پیش بینی قیمت بیت کوین ، بهینه سازی شده با استفاده از الگوریتم Boruta برای بخش مهندسی ویژگی ، بهینه کرد و به طور مشابه با طبقه بندی کننده جنگل تصادفی کار می کند. علاوه بر انتخاب ویژگی ، آنها همچنین از بهینه سازی بیزی برای انتخاب پارامترهای LSTM استفاده کردند. مجموعه داده های بیت کوین از 19 آگوست 2013 تا 19 ژوئیه 2016 متغیر بود. از روشهای بهینه سازی چندگانه برای بهبود عملکرد روشهای یادگیری عمیق استفاده کرد. مشکل اصلی کار آنها بیش از حد است. مشکل تحقیق پیش بینی روند قیمت بیت کوین دارای شباهت هایی با پیش بینی قیمت سهام سهام است. ویژگی های پنهان و سر و صداهای تعبیه شده در داده های قیمت تهدیدات این کار است. نویسندگان با سؤال تحقیق به عنوان یک مشکل دنباله زمانی رفتار کردند. بهترین قسمت این مقاله بخش مهندسی و بهینه سازی ویژگی است. ما می توانیم روش هایی را که در پیش پردازش داده های ما مورد سوء استفاده قرار داده اند ، تکرار کنیم.

ونگ و همکاران. در [45] با استفاده از روشهای گروهی از چهار مدل یادگیری ماشین مشهور ، بر پیش بینی قیمت سهام کوتاه مدت متمرکز شده است. مجموعه داده این تحقیق پنج مجموعه داده است. آنها این مجموعه داده ها را از سه API با منبع باز و یک بسته R به نام TTR به دست آوردند. مدل های یادگیری ماشینی که آنها استفاده می کردند (1) گروه رگرسیون شبکه عصبی (NNRE) ، (2) یک جنگل تصادفی با درختان رگرسیون غیرمستقیم به عنوان زبان آموزان پایه (RFR) ، (3) adaboost با درختان رگرسیون غیرمجاز به عنوان زبان آموزان پایه (BRT) و(4) یک گروه رگرسیون بردار پشتیبانی (SVRE). یک مطالعه کامل از روشهای گروه مشخص شده برای پیش بینی قیمت سهام کوتاه مدت. با دانش پیش زمینه ، نویسندگان هشت شاخص فنی را در این مطالعه انتخاب کردند و سپس ارزیابی متفکرانه از پنج مجموعه داده را انجام دادند. سهم اصلی این مقاله این است که آنها بستری را برای سرمایه گذاران با استفاده از R ایجاد کردند که نیازی به کاربران برای وارد کردن داده های خود ندارد بلکه با API تماس می گیرد تا داده ها را از منبع آنلاین مستقیم بگیرد. از دیدگاه تحقیق ، آنها فقط پیش بینی قیمت 1 تا 10 روز پیش رو ارزیابی کردند اما شرایط طولانی تر از دو هفته معاملاتی یا مدت کوتاه تر از 1 روز را ارزیابی نکردند. محدودیت اصلی تحقیقات آنها این بود که آنها فقط 20 سهام مستقر در ایالات متحده را مورد تجزیه و تحلیل قرار داده اند ، این مدل ممکن است به سایر بورس اوراق بهادار تعمیم نیافته باشد یا نیاز به تجدید نظر بیشتر برای دیدن اینکه آیا از مشکلات بیش از حد رنج می برد یا خیر.

کارا و همکاراندر [17] همچنین از ANN و SVM در پیش بینی حرکت شاخص قیمت سهام بهره برداری کرد. مجموعه داده ای که آنها استفاده کردند دوره زمانی از 2 ژانویه 1997 تا 31 دسامبر 2007 در بورس اوراق بهادار استانبول را پوشش می دهد. نقطه قوت اصلی این کار ثبت دقیق روش های تنظیم پارامتر است. در حالی که نقاط ضعف این اثر این است که نه شاخص فنی و نه ساختار مدل تازگی ندارند و نویسندگان توضیح نداده اند که چگونه مدل آنها در کارهای قبلی بهتر از سایر مدل ها عمل کرده است. بنابراین، کارهای اعتبار سنجی بیشتر روی مجموعه داده های دیگر کمک خواهد کرد. آنها توضیح دادند که ANN و SVM چگونه با ویژگی های بازار سهام کار می کنند، همچنین تنظیم پارامتر را ثبت کردند. بخش اجرایی تحقیق ما می تواند از این کار قبلی بهره مند شود.

جئون و همکاراندر [16] با استفاده از ردیابی نمودار الگوی برای تکمیل وظایف پیش بینی قیمت سهام، تحقیقاتی را روی مجموعه داده بزرگ مبتنی بر فاصله میلی ثانیه انجام داد. مجموعه داده ای که آنها استفاده کردند یک مجموعه داده بزرگ مبتنی بر فاصله میلی ثانیه از داده های موجودی تاریخی از KOSCOM، از آگوست 2014 تا اکتبر 2014، با ظرفیت 10G-15G است. نویسنده از فاصله اقلیدسی، تاب زمانی پویا (DTW) برای تشخیص الگو استفاده کرد. برای انتخاب ویژگی از رگرسیون گام به گام استفاده کردند. نویسندگان کار پیش بینی را توسط ANN و Hadoop و RHive برای پردازش کلان داده تکمیل کردند. بخش "نتایج" بر اساس نتیجه پردازش شده توسط ترکیبی از فاصله SAX و Jaro-Winkler است. قبل از پردازش داده ها، آنها داده های جمع آوری شده را در فواصل 5 دقیقه ای از داده های گسسته تولید کردند. نقطه قوت اصلی این کار ساختار صریح کل رویه پیاده سازی است. در حالی که آنها از یک مدل نسبتا قدیمی استفاده کردند، ضعف دیگر این است که بازه زمانی کلی مجموعه داده آموزشی بسیار کوتاه است. دسترسی به داده های مبتنی بر فاصله میلی ثانیه در زندگی واقعی دشوار است، بنابراین این مدل به اندازه یک مدل داده مبتنی بر روزانه عملی نیست.

هوانگ و همکاران. در [12] یک مدل فازی-GA را برای تکمیل کار انتخاب سهام اعمال کرد. آنها از سهام اصلی 200 سرمایه بزرگ بازار که به عنوان جهان سرمایه گذاری در بورس اوراق بهادار تایوان ذکر شده است ، استفاده کردند. علاوه بر این ، داده های سالانه صورتهای مالی و بازده سهام از پایگاه داده مجله اقتصادی تایوان (TEJ) در www. tej. com. tw/ برای دوره زمانی از سال 1995 تا سال 2009 گرفته شده است. آنها عملکرد عضویت فازی را با مدل انجام دادندپارامترهای بهینه سازی شده با GA و ویژگی های استخراج شده برای بهینه سازی نمره گذاری سهام. نویسندگان یک مدل بهینه شده برای انتخاب و به ثمر رساندن سهام پیشنهاد دادند. متفاوت از مدل پیش بینی ، نویسندگان بیشتر روی رتبه بندی سهام ، انتخاب و ارزیابی عملکرد متمرکز بودند. ساختار آنها در بین سرمایه گذاران عملی تر است. اما در بخش اعتبار سنجی مدل ، آنها مدل را با الگوریتم های موجود اما آمار معیار مقایسه نکردند ، و این باعث می شود تشخیص دهد که آیا GA از الگوریتم های دیگر بهتر است.

فیشر و کراوس در [5] از حافظه کوتاه مدت بلند مدت (LSTM) در پیش بینی بازار مالی استفاده کردند. مجموعه داده های مورد استفاده آنها ترکیبات شاخص S& P 500 از تامسون رویترز است. آنها تمام لیست های تشکیل دهنده پایان ماه را برای S& P 500 از دسامبر 1989 تا سپتامبر 2015 به دست آوردند ، سپس لیست ها را در یک ماتریس باینری تثبیت کردند تا تعصب بازمانده را از بین ببرند. نویسندگان همچنین از RMSPROP به عنوان یک بهینه ساز استفاده کردند که یک نسخه مینی دسته ای از RPROP است. قدرت اصلی این کار این است که نویسندگان از آخرین تکنیک یادگیری عمیق برای انجام پیش بینی ها استفاده کردند. آنها به تکنیک LSTM ، عدم دانش پیش زمینه در حوزه مالی اعتماد کردند. اگرچه LSTM از الگوریتم های استاندارد DNN و رگرسیون لجستیک پیشی گرفت ، در حالی که نویسنده به تلاش برای آموزش LSTM با وابستگی های طولانی مدت اشاره نکرد.

Tsai و Hsiao در [42] راه حل را به عنوان ترکیبی از روش های مختلف انتخاب ویژگی برای پیش بینی سهام پیشنهاد دادند. آنها از بانک اطلاعاتی مجله اقتصادی تایوان (TEJ) به عنوان منبع داده استفاده کردند. داده های مورد استفاده در تجزیه و تحلیل آنها از سال 2000 تا 2007 بود. در کار آنها ، آنها از یک روش پنجره کشویی استفاده کردند و آن را با شبکه های عصبی مصنوعی مبتنی بر چند لایه (MLP) با انتشار پشت ، به عنوان مدل پیش بینی خود ترکیب کردند. در کار خود ، آنها همچنین از تجزیه و تحلیل مؤلفه اصلی (PCA) برای کاهش ابعاد ، الگوریتم های ژنتیکی (GA) و طبقه بندی و درختان رگرسیون (CART) استفاده کردند تا ویژگی های مهم را انتخاب کنند. آنها فقط به شاخص های فنی اعتماد نکردند. در عوض ، آنها همچنین شامل شاخص های اساسی و کلان اقتصادی در تجزیه و تحلیل خود بودند. نویسندگان همچنین از مقایسه روشهای انتخاب ویژگی خبر دادند. قسمت اعتبار سنجی با ترکیب آمار عملکرد مدل با تجزیه و تحلیل آماری انجام شد.

Pimenta و همکاران. در [32] با استفاده از برنامه نویسی ژنتیکی چند منظوره و استفاده از آن در بورس ، یک روش سرمایه گذاری خودکار را اعمال کرد. این مجموعه داده از بازار بورس اوراق بهادار برزیل (BOVESPA) به دست آمد و تکنیک های اصلی که آنها مورد بهره برداری قرار گرفتند ترکیبی از بهینه سازی چند هدف ، برنامه نویسی ژنتیکی و قوانین تجارت فنی بود. برای بهینه سازی ، آنها برای بهینه سازی قوانین تصمیم گیری ، از برنامه نویسی ژنتیکی (GP) استفاده کردند. تازگی این مقاله در بخش ارزیابی بود. آنها شامل یک دوره تاریخی بودند که هنگام انجام اعتبار سنجی یک لحظه مهم سیاست و اقتصاد برزیل بود. این رویکرد قدرت تعمیم مدل پیشنهادی آنها را تقویت کرد. هنگام انتخاب زیر داده برای ارزیابی ، آنها همچنین معیارهایی را برای اطمینان از نقدینگی دارایی بیشتر تعیین می کنند. در حالی که مبنای مقایسه بسیار اساسی و اساسی بود و نویسندگان هیچ مقایسه ای با سایر مدلهای موجود انجام ندادند.

هوانگ و تسای در [13] یک انتخاب ویژگی مبتنی بر فیلتر همراه با مدل رگرسیون برداری پشتیبان (SVR) ترکیبی نقشه ویژگی خودسازماندهی (SOFM) برای پیش‌بینی روند شاخص تایوان (FITX) انجام دادند. آنها نمونه‌های آموزشی را به خوشه‌هایی تقسیم کردند تا کارایی تمرین را به طور جزئی بهبود بخشند. نویسندگان یک مدل جامع پیشنهاد کردند که ترکیبی از دو تکنیک جدید یادگیری ماشین در تحلیل بازار سهام بود. علاوه بر این، بهینه‌ساز انتخاب ویژگی نیز قبل از پردازش داده‌ها برای بهبود دقت پیش‌بینی و کاهش پیچیدگی محاسباتی پردازش داده‌های روزانه شاخص سهام اعمال شد. اگرچه آنها بخش انتخاب ویژگی را بهینه کردند و داده های نمونه را به خوشه های کوچک تقسیم کردند، آموزش داده های روزانه شاخص سهام این مدل از قبل سخت بود. پیش‌بینی فعالیت‌های معاملاتی در بازه‌های زمانی کوتاه‌تر برای این مدل دشوار است زیرا حجم داده‌ها به شدت افزایش می‌یابد. علاوه بر این، ارزیابی به اندازه کافی قوی نیست زیرا آنها یک مدل SVR منفرد را به عنوان خط پایه تعیین کردند، اما عملکرد را با سایر کارهای قبلی مقایسه نکردند، که باعث شد محققان آینده در شناسایی مزایای مدل SOFM-SVR مشکلی ایجاد کنند که چرا از سایر الگوریتم‌ها بهتر عمل می‌کند..

تاکور و کومار در [41] همچنین با بهره‌برداری از طبقه‌بندی‌کننده‌های چند طبقه‌ای و جنگل تصادفی (RAF) یک سیستم پشتیبانی تجاری مالی ترکیبی توسعه دادند. آنها تحقیقات خود را بر روی شاخص های سهام NASDAQ، DOW JONES، S& P 500، NIFTY 50 و NIFTY BANK انجام دادند. نویسندگان یک مدل ترکیبی ترکیبی از الگوریتم‌های جنگل تصادفی (RF) را با یک ماشین بردار پشتیبانی ارزش ویژه تعمیم یافته چند دسته‌ای وزنی (WMGEPSVM) برای تولید سیگنال‌های «خرید/نگه‌دار/فروش» پیشنهاد کردند. قبل از پردازش داده ها، آنها از جنگل تصادفی (RF) برای هرس ویژگی استفاده کردند. نویسندگان یک مدل عملی طراحی شده برای فعالیت‌های سرمایه‌گذاری واقعی پیشنهاد کردند که می‌تواند سه سیگنال اساسی را برای سرمایه‌گذاران ایجاد کند تا به آن رجوع کنند. آنها همچنین مقایسه کاملی از الگوریتم های مرتبط انجام دادند. در حالی که به زمان و پیچیدگی محاسباتی آثار خود اشاره ای نکردند. در این میان، موضوع غیر قابل چشم پوشی کار آنها، نداشتن پیشینه دانش حوزه مالی بود. سرمایه گذاران داده های شاخص را به عنوان یکی از ویژگی ها در نظر می گیرند، اما نمی توانند سیگنال را از شاخص ها دریافت کنند تا یک سهام خاص را به طور مستقیم اداره کنند.

Hsu در [11] انتخاب ویژگی را با یک شبکه عصبی پس انتشار (BNN) همراه با برنامه‌ریزی ژنتیکی برای پیش‌بینی قیمت سهام/آینده جمع‌آوری کرد. مجموعه داده در این تحقیق از شرکت بورس اوراق بهادار تایوان (TWSE) به دست آمده است. نویسندگان شرح دانش پیشینه را به تفصیل معرفی کرده اند. در حالی که ضعف کار آنها عدم ارائه توضیحات مجموعه داده است. این ترکیبی از مدل ارائه شده توسط سایر آثار قبلی است. اگرچه ما تازگی این کار را ندیدیم، اما همچنان می‌توان نتیجه گرفت که الگوریتم برنامه‌ریزی ژنتیک (GP) در حوزه تحقیقات بازار سهام پذیرفته شده است. برای تقویت نقاط قوت اعتبارسنجی، اگر مدل قیمت خاصی را پیش‌بینی می‌کند، خوب است که مدل‌های GP را به ارزیابی اضافه کنیم.

حافظی و همکاراندر [7] یک سیستم چند عاملی شبکه عصبی خفاش (BN-NMAS) برای پیش بینی قیمت سهام ایجاد کرد. مجموعه داده از Deutsche bundes-bank به دست آمده است. آنها همچنین از الگوریتم Bat (BA) برای بهینه سازی وزن شبکه عصبی استفاده کردند. نویسندگان ساختار کلی و منطق طراحی سیستم خود را در نمودارهای جریان واضح نشان دادند. در حالی که کارهای قبلی بسیار کمی وجود داشت که روی داده‌های DAX اجرا شده بود، تشخیص اینکه آیا مدل پیشنهادی آنها همچنان عمومیت دارد اگر روی مجموعه‌های داده دیگر منتقل شود، دشوار است. طراحی سیستم و منطق انتخاب ویژگی جذاب است که ارزش مراجعه به آن را دارد. یافته‌های آنها در الگوریتم‌های بهینه‌سازی نیز برای تحقیق در حوزه تحقیقاتی پیش‌بینی قیمت بازار سهام ارزشمند است. ارزش امتحان الگوریتم Bat (BA) هنگام ساخت مدل های شبکه عصبی را دارد.

لانگ و همکاراندر [25] یک رویکرد یادگیری عمیق برای پیش بینی حرکت قیمت سهام انجام داد. مجموعه داده ای که آنها استفاده کردند، شاخص بازار سهام چین CSI 300 است. برای پیش بینی حرکت قیمت سهام، آنها یک شبکه عصبی چند فیلتری (MFNN) با گرادیان نزولی تصادفی (SGD) و بهینه ساز انتشار پس برای یادگیری پارامترهای NN ساختند. نقطه قوت این مقاله این است که نویسندگان از یک مدل جدید با یک مدل ترکیبی ساخته شده توسط انواع مختلف شبکه‌های عصبی استفاده کرده‌اند و الهام‌بخشی برای ساخت ساختارهای شبکه عصبی ترکیبی است.

Atsalakis و Valavanis در [1] راه حل یک سیستم عصبی فازی ، که از کنترلر به نام سیستم استنتاج نورو فازی سازگار (ANFIS) تشکیل شده است ، برای دستیابی به پیش بینی روند قیمت سهام کوتاه مدت ارائه دادند. قدرت قابل توجه این کار بخش ارزیابی است. آنها نه تنها سیستم پیشنهادی خود را با مدلهای داده محبوب مقایسه کردند ، بلکه با استراتژی های سرمایه گذاری نیز مقایسه شدند. در حالی که ضعف که از راه حل پیشنهادی آنها پیدا کردیم این است که معماری راه حل آنها عدم بهینه سازی قسمت است که ممکن است عملکرد مدل آنها را محدود کند. از آنجا که راه حل پیشنهادی ما نیز بر پیش بینی روند قیمت سهام کوتاه مدت متمرکز است ، این کار برای طراحی سیستم ما اکتشافی است. در همین حال ، با مقایسه با استراتژی های تجاری محبوب سرمایه گذاران ، کار آنها به ما الهام بخش بود تا استراتژی های مورد استفاده سرمایه گذاران را با تکنیک های مورد استفاده محققان مقایسه کنیم.

Nekoeiqachkanloo و همکاران. در [29] سیستمی با دو رویکرد مختلف برای سرمایه گذاری سهام ارائه داد. نقاط قوت راه حل پیشنهادی آنها آشکار است. اول ، این یک سیستم جامع است که شامل پیش پردازش داده ها و دو الگوریتم مختلف برای پیشنهاد بهترین بخش های سرمایه گذاری است. دوم ، این سیستم همچنین با یک مؤلفه پیش بینی تعبیه شده است ، که همچنین ویژگی های سری زمانی را حفظ می کند. نکته آخر اینکه ویژگی های ورودی آنها ترکیبی از ویژگی های اساسی و شاخص های فنی است که هدف آن پر کردن شکاف بین دامنه مالی و حوزه فنی است. با این حال ، کار آنها در بخش ارزیابی ضعف دارد. آنها به جای ارزیابی سیستم پیشنهادی در یک مجموعه داده بزرگ ، 25 سهام مشهور را انتخاب کردند. احتمال بالایی وجود دارد که سهام شناخته شده ممکن است به طور بالقوه برخی از ویژگی های پنهان مشترک را به اشتراک بگذارد.

به عنوان یکی دیگر از آخرین کار های مرتبط ، Idrees و همکاران.[14] یک رویکرد پیش بینی مبتنی بر سری زمانی را برای نوسانات بازار سهام منتشر کرد. Arima یک رویکرد جدید در حوزه تحقیق پیش بینی سری زمانی نیست. کار آنها بیشتر روی سمت مهندسی ویژگی تمرکز دارد. آنها قبل از تغذیه ویژگی ها در مدل های ARIMA ، آنها سه مرحله را برای مهندسی ویژگی ها طراحی کردند: سری زمانی را تجزیه و تحلیل کنید ، مشخص کنید که آیا سری زمانی ثابت است یا خیر ، تخمین را با نمودارهای ACF و PACF انجام دهید و به دنبال پارامترها باشید. تنها ضعف راه حل پیشنهادی آنها این است که نویسندگان هیچ سفارشی سازی را در مدل ARIMA موجود انجام ندادند ، که ممکن است عملکرد سیستم را بهبود بخشد.

یکی از اصلی ترین نقاط ضعف موجود در آثار مرتبط ، مکانیسم های پیشبرد داده های محدود است که ساخته و مورد استفاده قرار می گیرند. کارهای فنی بیشتر تمایل دارند که روی مدل های پیش بینی ساختمان تمرکز کنند. هنگامی که آنها ویژگی ها را انتخاب می کنند ، تمام ویژگی های ذکر شده در آثار قبلی را لیست می کنند و الگوریتم انتخاب ویژگی را طی می کنند و سپس بهترین ویژگی ها را انتخاب می کنند. آثار مرتبط در حوزه سرمایه گذاری علاقه بیشتری به تجزیه و تحلیل رفتار نشان داده اند ، مانند اینکه چگونه رفتارهای گله ای بر عملکرد سهام تأثیر می گذارد ، یا اینکه چگونه درصد مدیران داخلی سهام مشترک شرکت را بر عملکرد یک سهام خاص تأثیر می گذارد. این رفتارها اغلب به یک روش پیش پردازش شاخص های فنی استاندارد و تجربه سرمایه گذاری برای تشخیص نیاز دارند.

در آثار مرتبط ، اغلب یک تجزیه و تحلیل آماری کامل بر اساس یک مجموعه داده ویژه انجام می شود و به جای انجام انتخاب ویژگی ، ویژگی های جدید را نتیجه می گیرد. برخی از داده ها ، مانند درصد نوسان شاخص خاص ، ثابت شده است که در عملکرد سهام مؤثر است. ما معتقدیم که با استخراج ویژگی های جدید از داده ها ، سپس ترکیب چنین ویژگی هایی با شاخص های فنی متداول وجود دارد که به طور قابل توجهی به مدلهای پیش بینی موجود و به خوبی آزمایش می شود.

مجموعه داده

در این بخش داده هایی که از منابع داده های عمومی استخراج شده است ، و مجموعه داده نهایی تهیه شده است. داده های مرتبط با بازار سهام متنوع هستند ، بنابراین ما ابتدا آثار مرتبط را از نظرسنجی از کارهای تحقیقات مالی در تجزیه و تحلیل داده های بازار سهام برای مشخص کردن جهت های جمع آوری داده ها مقایسه کردیم. پس از جمع آوری داده ها ، ما یک ساختار داده از مجموعه داده را تعریف کردیم. با توجه به زیر ، ما مجموعه داده ها را با جزئیات ، از جمله ساختار داده و جداول داده در هر دسته از داده ها با تعاریف بخش شرح می دهیم.

شرح مجموعه داده ما

در این بخش ، مجموعه داده ها را با جزئیات شرح خواهیم داد. این مجموعه داده شامل 3558 سهام از بازار سهام چین است. علاوه بر داده های قیمت روزانه ، داده های اساسی روزانه هر شناسه سهام ، ما همچنین تاریخ تعلیق و از سرگیری ، 10 سهامدار برتر و غیره را جمع آوری کردیم. ما دو دلیل را که 2 سال را به عنوان بازه زمانی این مجموعه داده انتخاب می کنیم ذکر می کنیم: (1) بیشتراز بین سرمایه گذاران ، تجزیه و تحلیل روند قیمت سهام را با استفاده از داده ها در طی 2 سال گذشته انجام می دهند ، (2) با استفاده از داده های جدیدتر به سود تجزیه و تحلیل می پردازند. ما داده ها را از طریق API با منبع باز ، یعنی Tushare [43] جمع آوری کردیم ، در حالی که ما همچنین یک تکنیک تفکر وب را برای جمع آوری داده ها از صفحات وب مالی سینا ، وب سایت تحقیق SWS استفاده کردیم.

ساختار داده ها

شکل 1 تمام جداول داده موجود در مجموعه داده را نشان می دهد. ما چهار دسته از داده ها را در این مجموعه داده جمع آوری کردیم: (1) داده های اساسی ، (2) داده های معاملاتی ، (3) داده های مالی و (4) داده های مرجع دیگر. تمام جداول داده را می توان با یک زمینه مشترک به نام "شناسه سهام" به یکدیگر مرتبط کرد. این یک شناسه سهام منحصر به فرد است که در بازار سهام چین ثبت شده است. جدول 1 نمای کلی از مجموعه داده را نشان می دهد.

برچسب ها

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.