رگرسیون لجستیک مجازات شده با شاخص های فنی روند بالا و پایین را پیش بینی می کند

  • 2022-03-16

پیش بینی صحیح روند بالا و پایین برای قیمت سهام در بازار مالی بسیار مهم است. برای بهبود بیشتر عملکرد پیش بینی ، در این مقاله پنج مجازات را معرفی می کنیم: خط الراس ، کمترین انقباض و انتخاب مطلق ، شبکه الاستیک ، انحراف مطلق و مجازات مقعر Minimax را به رگرسیون لجستیک با 19 شاخص فنی پیشنهاد می کنیم و پنج رگرسیون لجستیک مجازات شده را پیشنهاد می کنیمبرای پیش بینی روند بالا و پایین برای قیمت سهام. در مرحله اول ، ما پنج توابع مربوط به ورود به سیستم لجستیک مجازات را به پنج عملکرد حداقل مربعات وزنی مجازات ترجمه می کنیم و آنها را با روش اعتبار سنجی متقابل ده برابر برای محاسبه مسیر راه حل به برآوردگرهای پارامتر ترکیب می کنیم. ثانیا ، ما انحراف دوتایی را با خطای اعتبار سنجی متقاطع به عنوان یک اندازه گیری خطر برای انتخاب یک پارامتر تنظیم مناسب برای توابع مجازات و استفاده از مجموعه آموزش و الگوریتم نزول مختصات برای به دست آوردن برآوردگرهای پارامتر و برآوردگرهای احتمال ترکیب می کنیم. سوم ، ما از مجموعه آزمایش و آستانه های بهینه انتخاب شده برای ساخت ماتریس سردرگمی دو طبقه و منحنی های مشخصه گیرنده گیرنده برای ارزیابی عملکرد پیش بینی به پنج رگرسیون استفاده می کنیم. سرانجام ، ما پنج رگرسیون لجستیکی پیشنهادی را با رگرسیون لجستیک ، دستگاه بردار پشتیبانی و شبکه عصبی مصنوعی مقایسه می کنیم و دریافتیم که رگرسیون لجستیک مجازات مقعر Minimax بهترین عملکرد را از نظر عملکرد پیش بینی به روند بالا و پایین برای قیمت سهام Google انجام می دهد. بنابراین ، در این مقاله پنج روش پیش بینی جدید را برای بهبود دقت پیش بینی بازده سهام و به دست آوردن مزایای اقتصادی برای سرمایه گذاران پیشنهاد می کنیم.

روی نسخه خطی کار می کنید؟

معرفی

بازار سهام برخی از خصوصیات ذاتی مانند عدم اطمینان مدل ، بی ثباتی پارامتر و تجمع نویز وجود دارد. این خصوصیات پیش بینی بازار سهام را پیچیده تر می کند. دیدگاه های مختلف در اقتصادی و مالی به وجود می آید. به عنوان مثال ، هر دو فرضیه بازار کارآمد و تئوری پیاده روی تصادفی فرض کردند که بازار سهام غیرقابل پیش بینی است ، در حالی که نظریه داو و مورفی (1999) فرض کردند که بازار مالی قابل پیش بینی است. به طور خاص ، مورفی (1999) بسیاری از شاخص های فنی را ارائه داد و روش های تحلیل فنی را برای بازار مالی تهیه کرد ، در حالی که الیوت و همکاران.(2013) به طور سیستماتیک مشکلات پیش بینی اقتصادی را خلاصه کرد ، بر چالش های پیش بینی قیمت سهام تأکید کرد و راهکارهایی را برای بهبود عملکرد پیش بینی ارائه داد. در سالهای اخیر ، برخی از روشهای یادگیری ماشین برای پیش بینی بازار سهام پیشنهاد شده است. به عنوان مثال ، وانگ و زو (2010) رگرسیون وکتور پشتیبانی و یک روش یادگیری هسته دو مرحله ای را برای پیش بینی سری زمانی مالی ایجاد کردند. نیر و همکاران.(2011) شبکه عصبی مصنوعی تطبیقی (ANN) را برای پیش بینی قیمت بسته شدن روز دوم شاخص بازار سهام پیشنهاد کرد. Cavalcante و همکاران.(2016) به طور سیستماتیک پیشرفت در زمینه هوش مصنوعی ، شبکه عصبی و دستگاه بردار پشتیبانی (SVM) را در پیش بینی تغییر قیمت یا جهت سهام بررسی کرد. ژانگ و همکاران.. ون و همکاران.(2019) روش جدیدی را برای ساده سازی سری زمانی مالی پر سر و صدا از طریق بازسازی توالی با استفاده از نقوش (الگوهای مکرر) معرفی کرد و سپس از یک شبکه عصبی حلقوی برای پیش بینی روند بالا و پایین برای قیمت سهام استفاده کرد. نبی پور و همکاران.(2020) الگوریتم های یادگیری ماشین و یادگیری عمیق برای کاهش قابل توجهی خطر پیش بینی روند. شن و شفیق (2020) سفارشی سازی جامع از مهندسی ویژگی ها و مدل یادگیری عمیق را برای پیش بینی روند قیمت برای بورس سهام چین پیشنهاد دادند.

به خوبی شناخته شده است که احساسات عمومی از نزدیک با بازارهای مالی مرتبط است. در سالهای اخیر ، تأثیر احساسات سرمایه گذار بر بازده سهام مورد بررسی قرار گرفته است. به عنوان مثال ، جوشی و همکاران.(2016) حرکات سهام آینده را از طریق طبقه بندی احساسات خبری پیش بینی کرد. لی و همکاران.(2017) با ترکیب احساسات سرمایه گذار با عوامل بازار برای بهبود عملکرد پیش بینی ، یک شبکه عصبی کوتاه مدت حافظه کوتاه مدت را پیشنهاد کرد. زینگ و همکاران.(2019) یک مدل پیش بینی نوسانات آگاهی از احساسات جدید را ارائه داد تا با ضبط تعامل دو جهته بین حرکات قیمت دارایی و احساسات بازار ، تخمین دقیق تری برای واریانس زمانی به بازده دارایی ارائه دهد. خان و همکاران.(2020) روشهای یادگیری ماشین پیشنهادی با احساسات و ویژگی های موقعیتی برای پیش بینی حرکات آینده سهام. لی و همکاران.(2021) با افزودن متغیرهای آگاهی از احساسات ، توزیع بازگشت برای شاخص کامپوزیت امنیتی شانگهای را ساخت. علاوه بر این ، دیدگاه های احساسات بازار و نمونه کارها مبتنی بر احساسات عمومی یا تخصیص دارایی نیز مورد تجزیه و تحلیل قرار گرفته است. به عنوان مثال ، مالاندری و همکاران.(2018) در مورد چگونگی تأثیر احساسات عمومی بر مدیریت نمونه کارها بحث کرد. زینگ و همکاران.(2018) نقش احساسات بازار را در یک مشکل تخصیص دارایی بررسی کرد. زینگ و همکاران.(2018) پیشنهاد کرد تا احساسات عمومی را به عنوان یک دیدگاه بازار رسمی کند و آن را در تئوری مدرن نمونه کارها ادغام کند. پیکاسو و همکاران.(2019) تجزیه و تحلیل فنی را با تجزیه و تحلیل احساسات برای اخبار ترکیب کرد و یک مدل پیش بینی بازگشت نمونه کارها را توسط یادگیری ماشین و غیره ساخت.

پیش بینی روند بالا و پایین برای قیمت سهام یک معما مهم در زمینه مالی است. حتی پیشرفت های بسیار اندک در عملکرد پیش بینی می تواند بسیار سودآور باشد. به عنوان مثال ، هو و جیانگ (2021) رگرسیون لجستیک را با 6 شاخص فنی پیشنهاد کردند تا روند بالا و پایین را برای قیمت سهام Google پیش بینی کنند و دقت پیش بینی بالاتر را بدست آورند. در این مقاله پنج مجازات را معرفی می کنیم: ریج ، حداقل عملگر کوچک و انتخابی مطلق (Lasso) ، شبکه الاستیک ، انحراف مطلق (SCAD) و مجازات مقعر Minimax (MCP) به رگرسیون لجستیک با 19 شاخص فنی پیشنهاد می کنیم و پنج را پیشنهاد می کنیم. رگرسیون لجستیک مجازات شده برای بهبود بیشتر عملکرد پیش بینی در بازده سهام. در مرحله اول ، ما الگوریتم حداقل مربعات وزنی تکراری را با روش اعتبار سنجی متقاطع ده برابر ترکیب می کنیم ، مسیر راه حل کلی پارامترهای مدل را محاسبه می کنیم و یک مسیر راه حل خاص را از مسیر راه حل کلی انتخاب می کنیم. ثانیا ، ما انحراف دوتایی را با خطای اعتبار سنجی متقاطع به عنوان یک اندازه گیری خطر برای انتخاب یک پارامتر تنظیم مناسب \ (\ lambda \) ترکیب می کنیم و مجموعه آموزش و الگوریتم نزول مختصات را برای به دست آوردن برآوردگرهای پارامتر و برآوردگرهای احتمال استفاده می کنیم. سوم ، ما از مجموعه آزمایش و آستانه های بهینه انتخاب شده برای ساخت ماتریس سردرگمی دو کلاس و منحنی های مشخصه عملکرد گیرنده (ROC) استفاده می کنیم تا عملکرد پیش بینی را به پنج رگرسیون ارزیابی کنیم. سرانجام ، ما پنج رگرسیون لجستیکی پیشنهادی را با رگرسیون لجستیک ، SVM و ANN مقایسه می کنیم و دریافتیم که رگرسیون لجستیک MCP بهترین عملکرد را از نظر عملکرد پیش بینی در بازده سهام انجام می دهد. بنابراین ما به سرمایه گذاران توصیه می کنیم از رگرسیون لجستیک MCP برای پیش بینی روند بالا و پایین برای قیمت سهام و به دست آوردن سود اقتصادی غنی تر استفاده کنند.

بقیه این مقاله به شرح زیر سازماندهی شده است. در فرقه2 ، ما پنج رگرسیون لجستیک مجازات شده را با شاخص های فنی ایجاد می کنیم. در فرقه3 ، ما مجموعه آموزش را برای یادگیری پنج رگرسیون لجستیک مجازات و به دست آوردن برآوردگرهای پارامتر و برآوردگرهای احتمال استفاده می کنیم. در فرقه4 ، ما آزمایش را برای به دست آوردن دو ماتریس سردرگمی کلاس و منحنی های ROC برای پنج رگرسیون برای ارزیابی عملکرد پیش بینی آنها اتخاذ می کنیم. در فرقه5 ، ما پنج روش پیش بینی پیشنهادی را با رگرسیون لجستیک ، SVM و ANN مقایسه می کنیم.

رگرسیون لجستیک مجازات شده

بگذارید \ (C_ \) قیمت بسته شدن سهام معین در پایان روز معاملات T-th باشد ، \ (K_ = C _-C_ \) بازده اضافی سهام

عملکرد نشانگر جهت را نشان می دهد ، جایی که \ (y_ = 1 \) روندها را نشان می دهد ، و \ (y_ = 0 \) روندهای پایین را نشان می دهد. هدف اصلی این مقاله پیش بینی روند بالا و پایین برای قیمت سهام است. در ادامه ما یک مجموعه آموزشی را اعمال می کنیم (d = \_^\) برای یادگیری روند بالا و پایین برای قیمت سهام و ساختن یک قانون طبقه بندی دو طبقه که ممکن است عمیقاً در مجموعه داده خام پنهان شود ، جایی که \ (x_ \) نمونه ای از بردار پیش بینی کننده \ (x_ \) استتوزیع معمولاً ناشناخته است. کاملاً مشهور است که رگرسیون لجستیک یک روش طبقه بندی قدرتمند دو طبقه است. در این مقاله ، رگرسیون لجستیک را با تجزیه و تحلیل فنی تهیه شده توسط مورفی (1999) ترکیب می کنیم و رگرسیون لجستیک زیر را با 19 شاخص فنی پیشنهاد می کنیم:

جایی که \ (\ beta _ \) یک اصطلاح رهگیری ناشناخته است ، \ (\ beta = (\ beta _ ، \ beta _ ، \ ldots ، \ beta _)^\ top \) یک وکتور پارامتر ناشناخته است و \ (x_ (x_ ()= (x_ ، x _ ، \ ldots ، x _)^\ top \) بردار پیش بینی کننده است که از 19 شاخص فنی ذکر شده در جدول 1 تشکیل شده است. برای جلوگیری از چند همبستگی و بیش از حد ، ما پنج مجازات را برای رگرسیون لجستیک معرفی می کنیم تا حذف شودبرخی از شاخص های فنی که از روند بالا و پایین برای قیمت سهام بی ارتباط هستند و پنج رگرسیون لجستیک مجازات شده را برای پیش بینی روند بالا و پایین برای قیمت سهام ایجاد می کنند. بگذارید \ (x _ = (x_ ، x _ ، \ ldots ، x _)^\ top \) و \ (y_ \) به ترتیب نمونه های مشاهده برای \ (x_ \) و \ (y_ \) باشند. با توجه به مجموعه آموزش \ (\_^\) ، ما از ورود به سیستم منفی زیر به دست می آوریم

$$\begin l(\beta )= & <>-l (\ beta) =-\ sum _^\ سمت چپ \< y_\left( \beta _+x_^ \beta \right) \right. \nonumber \\&\left. -\log \left[ 1+\exp \left( \beta _+x_^ \beta \right) \right] \right\> , \end$$

و عملکرد احتمالی ورود به سیستم منفی مجازات

جایی که \ (p_<\lambda ,\gamma >(\ Beta) \) تابعی از ضرایب است که توسط یک پارامتر تنظیم \ (\ lambda \) نمایه شده است که تجارت بین عملکرد ضرر و مجازات را کنترل می کند ، و همچنین ممکن است توسط یک یا چند پارامتر منظم شکل بگیرد ((\ گاما \). در این مقاله پنج عملکرد پنالتی ذکر شده در جدول 2 را انتخاب می کنیم.

برآوردگرهای پارامتر و برآوردگرهای احتمال

Negative log-likelihood function (4) is not differentiable. Hence if the current estimates of the parameters are \((>_,>(م)) \) ، ما (4) را به عملکرد حداقل مربعات وزنی تبدیل می کنیم و یک تقریب درجه دوم را به عملکرد منفی ورود به سیستم (4) تبدیل می کنیم:

and \(C(>_,>(م))^\) ثابت است. به طور مشابه ، عملکرد احتمالی ورود به سیستم منفی مجازات (5) متفاوت نیست. بنابراین ، ما عملکرد منفی ورود به سیستم \ (l (\ beta) \) را در (5) توسط عملکرد حداقل مربعات وزنی \ (l _ (\ beta _ ، \ beta) \) جایگزین می کنیم ، الگوریتم نزول هماهنگ را اجرا کنید تابرآوردگر پارامتر را بدست آورید

جایی که اصطلاح رهگیری \ (\ بتا _ \) مجازات نمی شود. جزئیات بیشتر به الگوریتم نزول هماهنگی برای رگرسیون لجستیک مجازات به Breheny و Huang (2011) اشاره دارد. در جدول 3 سه برآوردگر پارامتر خاص ذکر شده است.

برای J در \ (\<1,2,\ldots ,p\>\) , the coordinate descent algorithm partially optimizes a target function \(Q(\beta ;\lambda ,\gamma )\) with respect to a single parameter \(\beta _\) with the remaining parameters \(\beta _,l\ne j\) fixed at their most recently updated values \(>^<\lambda ,\gamma >_(m+1),\ldots , >^<\lambda ,\gamma >_(m+1),>^<\lambda ,\gamma >_(m),\ldots ,\) \(>^<\lambda ,\gamma >_

(m)\) , then iteratively cycling through all the parameters until convergence or a maximum iteration number M is reached, and this process repeats over a grid of values for \(\lambda \) to produce a path of the solution. Usually, we are interested in obtaining \(>^<\lambda ,\gamma >\) نه فقط برای یک مقدار واحد از \ (\ lambda \ در [\ lambda _ ، \ lambda _] \) ، بلکه برای طیف وسیعی از مقادیر که از یک مقدار حداکثر \ (\ lambda _ \) گسترش می یابد0 پایین به \ (\ lambda = 0 \) یا به حداقل مقدار \ (\ lambda _ \) هستند که در آن مدل بیش از حد بزرگ می شود یا قابل شناسایی است. بنابراین ، با شروع از \ (\ lambda \) حداکثر با \ (\ beta (0) = 0 \) و به سمت \ (\ lambda _ \) حرکت می کنیم ، می توانیم اطمینان حاصل کنیم که مقادیر اولیه هرگز از راه حل دور نخواهد بود. برای \ (\ gamma \) ، ما به طور کلی \ (\ gamma = 3. 7 \) را می گیریم. در اینجا مقادیر مختلفی را برای \ (\ gamma \) می گیریم و دریافتیم که \ (\ gamma = 5 \) برای MCP و \ (\ gamma = 10 \) برای SCAD بهتر است. الگوریتم 1 شبه کد خاص در مورد نحوه استفاده از الگوریتم نزول مختصات را برای محاسبه برآوردگرهای پارامتر برای رگرسیون لجستیک MCP ارائه می دهد. الگوریتم های نزول مختصات برای برآوردگرهای پارامتر برای چهار رگرسیون لجستیک مجازات دیگر مشابه الگوریتم 1 است. ما آنها را به دلیل کمبود فضا در اینجا لیست نمی کنیم.

In this paper we apply the coordinate descent algorithm to the five penalized logistic regressions to obtain the final parameter estimators \(>_^<\lambda ,\gamma >\) and \(>^<\lambda ,\gamma >\) ، سپس برآوردگرهای احتمال را محاسبه کنید

اظهار

در مقایسه با الگوریتم تقریبی خطی/درجه دوم محلی ، الگوریتم نزول مختصات دارای مزایای زیر است: 1) بهینه سازی بیش از هر پارامتر واحد دارای یک راه حل بسته است. 2) به روزرسانی می تواند خیلی سریع محاسبه شود. 3) مقادیر اولیه هرگز از راه حل ها دور نخواهد بود و چند تکرار لازم است.

figure a

عملکرد پیش بینی دو طبقه

ماتریس سردرگمی دو طبقه یک جدول احتمالی کلاس واقعی و کلاس پیش بینی شده است که نتایج طبقه بندی دو طبقه را توصیف می کند ، به جدول 4 مراجعه کنید.

این ساده ترین شاخص برای ارزیابی عملکرد پیش بینی است. با این حال ، این نمی تواند ضررهای دو نوع خطا را منعکس کند. بنابراین ، یک منحنی ROC برای ارزیابی عملکرد پیش بینی معرفی شده است. فرض کنید که \ (tpr (c) = p (x_

در بخش5 ما بسته R pROC را برای رسم منحنی ROC و محاسبه AUC (مساحت زیر منحنی ROC، نشانگر خلاصه ای از عملکرد طبقه بندی) اتخاذ می کنیم. جزئیات بیشتر در مورد ROC می توانید به فصل 7 در Hu and Liu (2020) مراجعه کنید.

تجزیه و تحلیل واقعی داده ها

شاخص های فنی و واریانس عوامل تورم

بازار سهام در طول دسامبر 2019 به دلیل همه‌گیری کروناویروس جدید، نوسانات زیادی دارد. بنابراین، قیمت‌های سهام Google را از ژانویه ۲۰۱۰ تا نوامبر ۲۰۱۹ به‌عنوان داده‌های مشاهده با حجم نمونه \(n+N=2450\) انتخاب می‌کنیم، داده‌های مشاهده \(80\%\) را به عنوان مجموعه آموزشی با حجم نمونه انتخاب می‌کنیم.(n=1960\) برای یادگیری روندهای صعودی و نزولی قیمت سهام و انتخاب باقیمانده داده های مشاهده \(20\%\) به عنوان مجموعه آزمون با حجم نمونه \(N=490\) برای پیش بینی روندهای بالا و پایین. در این مقاله از تابع R getSymbols از پورت Yahoo Finance استفاده می کنیم تا قیمت افتتاحیه \((O_ )\) , بالاترین قیمت \((H_)\) , کمترین قیمت \((L_)\) , قیمت بسته شدن \((C_ )\) ، حجم \((V_)\) و قیمت تنظیم شده \((A_)\) برای شرکت Google و سپس بسته R TTR را برای محاسبه 19 شاخص فنی: WMA، DEMA، ADX، MACD، CCI اتخاذ کنید., Mo, RSI, ATR, CLV, CMF, CMO, EMV, MFI, ROC, VHF, SAR, TRIX, WPR, SNR. در این مقاله ما \(Y_\) را به عنوان متغیر پاسخ و 19 نشانگر فنی را به عنوان بردار پیش‌بینی می‌کنیم تا پنج رگرسیون لجستیک جریمه‌شده فوق را برای پیش‌بینی روندهای بالا و پایین قیمت سهام گوگل بسازیم. جدول 5 پنج آمار خلاصه به 19 شاخص فنی و عوامل تورم واریانس (VIF) بر اساس مجموعه آموزشی \(\ را فهرست می کند._^\) ، که در آن آمار خلاصه ویژگی های داده ها را نشان می دهد و VIF روابط هم خطی را بین 19 شاخص فنی نشان می دهد.

دو شاخص \(WMA_\) و \(DEMA_\) میانگین متحرک قیمت سهام را نشان می دهند و عمدتاً دامنه نوسان و درجه پراکندگی قیمت سهام را نشان می دهند. از جدول 5 مشاهده می کنیم که حداقل، حداکثر، میانه، میانگین و انحراف معیار \(WMA_\) , \(DEMA_\) و \(SAR_\) بزرگتر از شاخص های دیگر است. مقدار میانگین \(ADX_\) نشان می دهد که میانگین درجه تغییر روند سهام گوگل 40. 1045 است.\(MACD_\) ، \(CCI_\) ، \(ATR_\) ، \(CLV_\) ، \(CMF_\) ، \(ROC_\) ، \(VHF_\) ، \(TRIX_\) ، \(WPR_\) و \(SNR_\) دامنه، میانگین و انحراف استاندارد کمتری دارند. مقدار میانگین خط حرکت \(MO_\) در 1. 9375 نشان دهنده روند صعودی کلی قیمت سهام گوگل است. مقدار میانگین \(RSI_\) 54. 1628 و حداکثر مقدار 98. 7890 است که بزرگتر از 80 است و مربوط به دوره فروش است، در حالی که حداقل مقدار 5. 5085 کمتر از 10 است و مربوط به دوره خرید است. از طریق تجزیه و تحلیل برای میانگین و میانگین تا 19 شاخص، متوجه شدیم که آنها به طور مساوی توزیع شده اند. با این حال، شاخص ها درجات مختلفی از تنوع دارند و مقادیر برخی از شاخص ها بسیار متفاوت است. بنابراین، به منظور از بین بردن تأثیر تغییرات مقیاس، داده‌ها را قبل از مدل‌سازی استاندارد می‌کنیم. برای بررسی اینکه آیا همخطی بین 19 شاخص وجود دارد، ما VIF را برای بررسی معرفی می کنیم. از جدول 5 می توان مشاهده کرد که VIF برای \(WMA_\), \(DEMA_\) و \(SAR_\) به مراتب بزرگتر از 10 است و VIF برای \(MO_\), \(RSI_\),\(CMO_\) ، \(ROC_\) و \(WPR_\) نیز بزرگتر از 10 هستند. این نشان می دهد که بین 19 اندیکاتور هم خطی وجود دارد. بنابراین، معرفی توابع جریمه برای رگرسیون لجستیک برای کاهش هم خطی و جلوگیری از برازش بیش از حد، از نظر آماری معنادار است.

تنظیم انتخاب پارامتر

برای رج یا LASSO یا جریمه خالص الاستیک، انتخاب متغیر با پارامتر تنظیم \(\lambda \) تعیین می‌شود. برای انتخاب یک \(\lambda \) مناسب، یک روش اعتبارسنجی متقاطع ده برابری برای محاسبه مسیر حل کامل پارامترهای مدل اعمال می‌کنیم، یک مسیر حل خاص را از مسیر حل کامل انتخاب می‌کنیم و انحراف دو جمله‌ای را به عنوان معیار ریسک در نظر می‌گیریم.. سپس میانگین منحنی خطای اعتبار متقاطع و یک باند انحراف استاندارد را دریافت می‌کنیم، به شکل 1 مراجعه کنید. تخمین‌گرهای پارامتر برای رگرسیون لجستیک MCP و رگرسیون لجستیک جریمه‌شده SCAD به پارامتر تنظیم \(\lambda \) و پارامتر تنظیم \ بستگی دارد.(\گاما \) .

figure 1

روابط بین خطای انحراف دوتایی/خطای اعتبارسنجی و \ (\ log (\ lambda) \)

در این بخش ما انحراف دوتایی را با روش اعتبار سنجی متقاطع ده برابر ترکیب می کنیم تا یک پارامتر تنظیم مناسب \ (\ lambda \) را انتخاب کنیم. شکل 1a ، b ، c ، به ترتیب ، منحنی های انحرافی دوتایی را برای خط الراس ، لاسو و الاستیک که توسط عملکرد r cv. glmnet ترسیم شده است ، نشان می دهد ، در حالی که شکل 1D ، E ، به ترتیب ، منحنی خطای اعتبار سنجی متقابل را برای SCAD نشان می دهد. و MCP که توسط تابع r plot. cv. ncvreg ترسیم شده اند. برای شکل 1 ، اعداد بالای هر نمودار اعداد متغیر انتخاب شده را نشان می دهد. خط عمودی چپ مطابق با \ (log (\ lambda) \) مطابقت دارد وقتی حداقل خطای مربع میانگین رخ می دهد ، خط عمودی راست نشان دهنده \ (log (\ lambda) \) است که 1 بار خطای استاندارد رخ می دهد ، و \ (ورود به سیستم(\ lambda) \) بین دو خط عمودی نشان می دهد که خطاهای آنها در محدوده خطای استاندارد قرار دارد (یعنی قانون "یک استاندارد-خطا"). ما اغلب از این قانون برای انتخاب مدل نسبتاً بهینه استفاده می کنیم. از شکل 1 ما مشاهده می کنیم که دامنه "یک خطای یک استاندارد" برای ریج ، لاسو و الاستیک \ (0. 0173--0. 0401 \) ، \ (0. 0020--0. 0154 \) و \ (0. 0033--0. 0213 \ است.) ، به ترتیب. با این حال ، برای MCP و SCAD ، فقط یک خط عمودی وجود دارد و در صورت بروز حداقل خطای متوسط ، با \ (log (\ lambda) \) مطابقت دارد ، به شکل 1d ، e مراجعه کنید. ما عملکرد پیش بینی را در هر مقدار \ (\ lambda \) و \ (\ gamma \) ارزیابی می کنیم ، مدل نسبتاً مطلوب مربوط به \ (\ lambda = 0. 0121 \) و \ (\ gamma = 5 \) را برای MCP یا \ \ انتخاب می کنیم.(\ lambda = 0. 0035 \) و \ (\ gamma = 10 \) برای SCAD و به دست آوردن پنج رگرسیون مجازات نهایی. ما پنج رگرسیون مجازات شده را با رگرسیون لجستیک مقایسه می کنیم و دریافتیم که رگرسیون لجستیک ریج 19 متغیر را بدون از بین بردن یک متغیر حفظ می کند ، که شبیه به رگرسیون لجستیک است ، در حالی که چهار رگرسیون لجستیک مجازات دیگر متغیرهای مختلفی را انتخاب می کنند ، جزئیات بیشتر به جدول 6 مراجعه کنید.

برای پنج رگرسیون لجستیک مجازات شده ، ما مقادیر VIF آنها را محاسبه می کنیم ، جدول 7 را ببینید. از جدول 5 ، دریافتیم که VIF \ (WMA_ \) ، \ (DEMA_ \) و \ (SAR_ \) 58264. 2178 ، 57089. 3227 و 289. 936060 هستند، به ترتیب ، در حالی که VIF های \ (mo_ \) ، \ (rsi_ \) ، \ (cmo_ \) ، \ (roc_ \) و \ (wpr_ \) بیشتر از 10 هستند ، که نشان می دهد روابط چند قلو قوی در بین اینهاشاخص ها وجود دارند. از جدول 7 ، ما مشاهده می کنیم که VIF های شاخص های باقیمانده پس از مجازات لاسو کمتر از 10 هستند ، پس از مجازات الاستیک ، MCP و SCAD ، فقط VIF های \ (RSI_ \) بیشتر از 10 هستند که 14. 1372 هستند، به ترتیب 11. 7272 و 15. 1485. بنابراین ، رگرسیون لجستیک مجازات شده می تواند روابط همبستگی را در بین شاخص های فنی تضعیف یا از بین ببرد.

عملکرد پیش بینی

We take advantage of the training set \(\,y_\>_^\) to learn up and down trends for Google’s stock price and apply the testing set \(\,y_\>_^، \) و منحنی ROC برای ارزیابی عملکرد پیش بینی. با توجه به کلاس پیش بینی شده از مجموعه آموزش و کلاس واقعی از مجموعه آزمایش ، ما ماتریس سردرگمی دو طبقه زیر را ایجاد می کنیم ، به جدول 8 مراجعه کنید.

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.