Thursday, 3 August 2017

Contoh of both linear regression and the moving averages and smoothing techniques


Peramalan dengan Teknik Smoothing Situs ini adalah bagian dari objek pembelajaran JavaScript E-lab untuk pengambilan keputusan. JavaScript lain dalam seri ini dikategorikan dalam berbagai bidang aplikasi di bagian MENU di halaman ini. Seri waktu adalah urutan pengamatan yang dipesan tepat waktu. Inheren dalam pengumpulan data yang diambil dari waktu ke waktu adalah beberapa bentuk variasi acak. Ada metode untuk mengurangi pembatalan efek karena variasi acak. Teknik yang banyak digunakan adalah smoothing. Teknik-teknik ini, bila diterapkan dengan benar, menunjukkan lebih jelas tren dasarnya. Masukkan deret waktu Row-wise secara berurutan, mulai dari sudut kiri atas, dan parameternya, lalu klik tombol Hitung untuk mendapatkan peramalan satu periode di depan. Kotak kosong tidak termasuk dalam perhitungan tapi angka nol. Dalam memasukkan data Anda untuk berpindah dari sel ke sel di matriks data gunakan tombol Tab bukan panah atau masukkan kunci. Fitur deret waktu, yang mungkin terungkap dengan memeriksa grafiknya. Dengan nilai perkiraan, dan perilaku residual, pemodelan peramalan kondisi. Moving Averages: Moving averages rank antara teknik yang paling populer untuk preprocessing time series. Mereka digunakan untuk menyaring suara putih acak dari data, membuat rangkaian waktu lebih halus atau bahkan untuk menekankan komponen informasi tertentu yang terdapat dalam deret waktu. Exponential Smoothing: Ini adalah skema yang sangat populer untuk menghasilkan Time Series yang merapikan. Sedangkan dalam Moving Averages, pengamatan terakhir tertimbang secara merata, Exponential Smoothing memberikan bobot yang menurun secara eksponensial saat pengamatan bertambah tua. Dengan kata lain, observasi terakhir diberi bobot yang relatif lebih banyak dalam peramalan daripada pengamatan yang lebih tua. Double Exponential Smoothing lebih baik dalam menangani tren. Triple Exponential Smoothing lebih baik dalam menangani tren parabola. Rata-rata pergerakan tertimbang secara eksponensial dengan konstanta pemulusan a. Sesuai kira-kira dengan panjang rata-rata bergerak sederhana (yaitu periode) n, di mana a dan n dihubungkan oleh: a 2 (n1) ATAU n (2 - a) a. Jadi, misalnya, rata-rata bergerak tertimbang secara eksponensial dengan konstanta pemulusan sama dengan 0,1 akan sesuai kira-kira dengan rata-rata pergerakan 19 hari. Dan rata-rata pergerakan sederhana 40 hari akan sesuai kira-kira dengan rata-rata pergerakan tertimbang eksponensial dengan konstanta pemulusan sama dengan 0,04878. Holts Linear Exponential Smoothing: Misalkan deret waktunya tidak musiman namun memang menunjukkan tren. Metode Holts memperkirakan tingkat arus dan tren saat ini. Perhatikan bahwa rata-rata pergerakan sederhana adalah kasus khusus dari perataan eksponensial dengan menetapkan periode rata-rata bergerak ke bagian integer (Alpha 2). Untuk kebanyakan data bisnis, parameter Alpha yang lebih kecil dari 0,40 sering kali efektif. Namun, seseorang dapat melakukan pencarian grid dari ruang parameter, dengan 0,1 sampai 0,9, dengan penambahan 0,1. Kemudian alpha terbaik memiliki Mean Absolute Error terkecil (MA Error). Bagaimana membandingkan beberapa metode pemulusan: Meskipun ada indikator numerik untuk menilai keakuratan teknik peramalan, pendekatan yang paling banyak adalah menggunakan perbandingan visual beberapa perkiraan untuk menilai keakuratannya dan memilih di antara berbagai metode peramalan. Dalam pendekatan ini, seseorang harus merencanakan (menggunakan, misalnya Excel) pada grafik yang sama dengan nilai asli dari variabel deret waktu dan nilai prediksi dari beberapa metode peramalan yang berbeda, sehingga memudahkan perbandingan visual. Anda mungkin ingin menggunakan Prakiraan Masa Lalu oleh Teknik Smoothing JavaScript untuk mendapatkan perkiraan perkiraan masa lalu berdasarkan teknik pemulusan yang hanya menggunakan satu parameter tunggal. Metode Holt, dan Winters masing-masing menggunakan dua dan tiga parameter, oleh karena itu bukanlah tugas yang mudah untuk memilih nilai optimal, atau mendekati nilai optimal dengan trial and error untuk parameter. Pemulusan eksponensial tunggal menekankan perspektif jarak pendek yang menetapkan tingkat pada pengamatan terakhir dan didasarkan pada kondisi bahwa tidak ada kecenderungan. Regresi linier, yang sesuai dengan garis kuadrat terkecil terhadap data historis (atau data historis yang ditransformasikan), mewakili rentang panjang, yang dikondisikan pada tren dasarnya. Holts linear exponential smoothing menangkap informasi tentang tren terkini. Parameter dalam model Holts adalah level-parameter yang harus diturunkan bila jumlah variasi data besar, dan parameter tren harus ditingkatkan jika arah tren terkini didukung oleh faktor penyebab. Peramalan Jangka Pendek: Perhatikan bahwa setiap JavaScript di halaman ini memberikan perkiraan satu langkah di depan. Untuk mendapatkan ramalan dua langkah di depan. Cukup tambahkan nilai perkiraan ke akhir data deret waktu Anda lalu klik tombol Hitung yang sama. Anda dapat mengulangi proses ini beberapa kali untuk mendapatkan perkiraan jangka pendek yang dibutuhkan. Metode Seri Waktu Metode deret waktu adalah teknik statistik yang memanfaatkan akumulasi data historis selama periode waktu tertentu. Metode time series mengasumsikan bahwa apa yang telah terjadi di masa lalu akan terus terjadi di masa depan. Seperti yang ditunjukkan oleh deret waktu, metode ini menghubungkan perkiraan hanya dengan satu faktor waktu. Mereka termasuk rata-rata bergerak, eksponensial smoothing, dan garis tren linier dan mereka adalah salah satu metode yang paling populer untuk peramalan jangka pendek di antara perusahaan jasa dan manufaktur. Metode ini mengasumsikan bahwa pola historis atau tren permintaan yang dapat diidentifikasi dari waktu ke waktu akan berulang. Moving Average Sebuah perkiraan deret waktu dapat sesederhana dengan menggunakan permintaan pada periode saat ini untuk memprediksi permintaan pada periode berikutnya. Ini kadang disebut ramalan naif atau intuitif. 4 Misalnya, jika permintaan 100 unit minggu ini, perkiraan permintaan minggu depan adalah 100 unit jika permintaan berubah menjadi 90 unit, maka permintaan minggu berikut adalah 90 unit, dan seterusnya. Metode peramalan jenis ini tidak memperhitungkan perilaku permintaan historis yang hanya bergantung pada permintaan pada periode berjalan. Ini bereaksi langsung terhadap pergerakan acak yang normal. Metode rata-rata bergerak sederhana menggunakan beberapa nilai permintaan selama masa lalu untuk mengembangkan perkiraan. Hal ini cenderung mereda, atau kelancaran keluar, peningkatan acak dan penurunan ramalan yang hanya menggunakan satu periode. Rata-rata pergerakan sederhana berguna untuk meramalkan permintaan yang stabil dan tidak menampilkan perilaku permintaan yang menonjol, seperti tren atau pola musiman. Moving averages dihitung untuk periode tertentu, seperti tiga bulan atau lima bulan, tergantung pada seberapa banyak keinginan peramal untuk memperlancar data permintaan. Semakin lama periode rata-rata bergerak, semakin halus jadinya. Rumus untuk menghitung rata-rata pergerakan sederhana adalah Computing a Simple Moving Average Perusahaan Klip Kertas Klip Instan yang menjual dan menjual perlengkapan kantor ke perusahaan, sekolah, dan agensi dalam radius 50 mil dari gudangnya. Bisnis penyediaan kantor sangat kompetitif, dan kemampuan untuk menyampaikan pesanan segera merupakan faktor dalam mendapatkan pelanggan baru dan mempertahankan bisnis lama. (Kantor biasanya memesan tidak ketika mereka kehabisan persediaan, tapi ketika mereka benar-benar kehabisan. Akibatnya, mereka memerlukan pesanan mereka segera.) Manajer perusahaan ingin cukup yakin bahwa pengemudi dan kendaraan tersedia untuk segera mengirimkan pesanan dan Mereka memiliki persediaan yang memadai. Oleh karena itu, manajer ingin meramalkan jumlah pesanan yang akan terjadi selama bulan depan (yaitu untuk meramalkan permintaan pengiriman). Dari catatan pesanan pengiriman, manajemen telah mengumpulkan data berikut selama 10 bulan terakhir, dari mana ia ingin menghitung rata-rata bergerak 3- dan 5 bulan. Mari kita asumsikan bahwa itu adalah akhir Oktober. Perkiraan yang dihasilkan dari rata-rata pergerakan rata-rata 3 atau 5 bulan biasanya untuk bulan berikutnya dalam urutan, yang dalam kasus ini adalah bulan November. Rata-rata bergerak dihitung dari permintaan pesanan untuk 3 bulan sebelumnya dalam urutan sesuai dengan rumus berikut: Rerata moving average 5 bulan dihitung dari data permintaan 5 bulan sebelumnya sebagai berikut: 3- dan 5 bulan Perkiraan rata-rata bergerak untuk semua data permintaan bulan ditunjukkan pada tabel berikut. Sebenarnya hanya perkiraan untuk bulan November berdasarkan permintaan bulanan terbaru yang akan digunakan oleh manajer. Namun, prakiraan sebelumnya untuk bulan-bulan sebelumnya memungkinkan kita membandingkan perkiraan dengan permintaan aktual untuk melihat seberapa akurat metode peramalan - yaitu, seberapa baik kinerjanya. Rata-rata Tiga dan Lima Bulan Perkiraan rata-rata bergerak dalam tabel di atas cenderung memperlancar variabilitas yang terjadi pada data aktual. Efek perataan ini dapat diamati pada gambar berikut di mana rata-rata 3 bulan dan 5 bulan telah ditumpangkan pada grafik data asli: Rata-rata pergerakan 5 bulan pada gambar sebelumnya menghaluskan fluktuasi ke tingkat yang lebih tinggi daripada Rata-rata pergerakan 3 bulan. Namun, rata-rata 3 bulan lebih dekat mencerminkan data terbaru yang tersedia bagi manajer pasokan kantor. Secara umum, prakiraan menggunakan moving average jangka panjang lebih lambat untuk bereaksi terhadap perubahan permintaan terakhir daripada yang dilakukan dengan menggunakan rata-rata bergerak jangka pendek. Periode ekstra data mengurangi kecepatan perkiraan ramalan. Menetapkan jumlah periode yang tepat untuk digunakan dalam perkiraan rata-rata bergerak seringkali memerlukan sejumlah eksperimentasi coba-coba. Kerugian dari metode rata-rata bergerak adalah tidak bereaksi terhadap variasi yang terjadi karena suatu alasan, seperti siklus dan efek musiman. Faktor yang menyebabkan perubahan umumnya diabaikan. Ini pada dasarnya adalah metode mekanis, yang mencerminkan data historis secara konsisten. Namun, metode moving average memang memiliki keunggulan karena mudah digunakan, cepat, dan relatif murah. Secara umum, metode ini bisa memberikan ramalan yang bagus untuk jangka pendek, tapi seharusnya tidak didorong terlalu jauh ke masa depan. Weighted Moving Average Metode moving average dapat disesuaikan untuk lebih dekat mencerminkan fluktuasi data. Dengan metode rata-rata bergerak tertimbang, bobot ditetapkan ke data terbaru sesuai dengan rumus berikut: Data permintaan untuk Layanan Komputer PM (ditunjukkan pada tabel untuk Contoh 10.3) nampak mengikuti tren linier yang meningkat. Perusahaan ingin menghitung garis tren linier untuk melihat apakah lebih akurat daripada eksponensial smoothing eksponensial dan perkiraan eksponensial yang dikembangkan pada Contoh 10.3 dan 10.4. Nilai yang dibutuhkan untuk perhitungan kuadrat terkecil adalah sebagai berikut: Dengan menggunakan nilai-nilai ini, parameter untuk garis tren linier dihitung sebagai berikut: Oleh karena itu, persamaan garis linier linier adalah menghitung ramalan untuk periode 13, misalkan x 13 pada linier Garis tren: Grafik berikut menunjukkan garis tren linier dibandingkan dengan data aktual. Garis tren tampaknya mencerminkan secara cermat data aktual - yaitu, menjadi sesuai - dan dengan demikian akan menjadi model perkiraan yang baik untuk masalah ini. Namun, kelemahan garis tren linier adalah bahwa ia tidak akan menyesuaikan diri dengan perubahan tren, karena metode ramalan eksponensial eksponensial akan berlanjut, diasumsikan bahwa semua perkiraan masa depan akan mengikuti garis lurus. Ini membatasi penggunaan metode ini ke kerangka waktu yang lebih singkat di mana Anda dapat yakin bahwa tren tidak akan berubah. Penyesuaian Musiman Pola musiman adalah peningkatan berulang dan penurunan permintaan. Banyak item permintaan menunjukkan perilaku musiman. Penjualan pakaian mengikuti pola musiman tahunan, dengan permintaan akan pakaian hangat meningkat di musim gugur dan musim dingin dan menurun pada musim semi dan musim panas karena permintaan akan pakaian dingin meningkat. Permintaan untuk banyak barang ritel, termasuk mainan, peralatan olah raga, pakaian, peralatan elektronik, ham, kalkun, anggur, dan buah, meningkat selama musim liburan. Permintaan kartu ucapan meningkat bersamaan dengan hari-hari istimewa seperti Hari Kasih Sayang dan Hari Ibu. Pola musiman juga bisa terjadi setiap bulan, mingguan, atau bahkan setiap hari. Beberapa restoran memiliki permintaan lebih tinggi di malam hari daripada makan siang atau pada akhir pekan dibandingkan dengan hari kerja. Lalu lintas - maka penjualan - di pusat perbelanjaan mengambil pada hari Jumat dan Sabtu. Ada beberapa metode untuk mencerminkan pola musiman dalam perkiraan deret waktu. Kami akan menjelaskan salah satu metode sederhana menggunakan faktor musiman. Faktor musiman adalah nilai numerik yang dikalikan dengan perkiraan normal untuk mendapatkan perkiraan musiman yang disesuaikan. Salah satu metode untuk mengembangkan permintaan faktor musiman adalah membagi permintaan untuk setiap periode musiman dengan total permintaan tahunan, sesuai dengan rumus berikut: Faktor musiman yang dihasilkan antara 0 dan 1.0, pada dasarnya, merupakan bagian dari total permintaan tahunan yang ditugaskan pada Setiap musim Faktor musiman ini dikalikan dengan permintaan tahunan yang diperkirakan untuk menghasilkan perkiraan yang disesuaikan untuk setiap musim. Menghitung Prakiraan dengan Penyesuaian Musiman Peternakan Wishbone menanam kalkun untuk dijual ke perusahaan pengolahan daging sepanjang tahun. Namun, peak season-nya jelas pada kuartal keempat tahun ini, dari Oktober hingga Desember. Wishbone Farms telah mengalami permintaan untuk kalkun selama tiga tahun terakhir yang ditunjukkan pada tabel berikut: Karena kita memiliki data permintaan tiga tahun, kita dapat menghitung faktor musiman dengan membagi permintaan triwulanan selama tiga tahun dengan total permintaan sepanjang tiga tahun : Selanjutnya, kita ingin melipatgandakan perkiraan permintaan untuk tahun depan, 2000, oleh masing-masing faktor musiman untuk mendapatkan perkiraan permintaan untuk setiap kuartal. Untuk mencapai hal ini, kita memerlukan perkiraan permintaan untuk tahun 2000. Dalam kasus ini, karena data permintaan dalam tabel tampaknya menunjukkan tren yang meningkat secara umum, kita menghitung garis tren linier selama tiga tahun data dalam tabel untuk mendapatkan nilai kasar Perkiraan perkiraan: Dengan demikian, perkiraan untuk tahun 2000 adalah 58,17, atau 58.170 kalkun. Dengan menggunakan perkiraan permintaan tahunan ini, perkiraan musiman yang disesuaikan, SF i, untuk tahun 2000 adalah Membandingkan perkiraan kuartalan ini dengan nilai permintaan aktual dalam tabel, perkiraan perkiraan perkiraan mereka relatif baik, yang mencerminkan variasi musiman dalam data dan Tren kenaikan umum. 10-12. Bagaimana metode moving average mirip dengan smoothing eksponensial 10-13. Apa efek pada model smoothing eksponensial yang akan meningkatkan konstanta smoothing memiliki 10-14. Bagaimana cara menyesuaikan eksponensial smoothing berbeda dari smoothing eksponensial 10-15. Apa yang menentukan pilihan konstanta pemulusan untuk tren dalam model pemulusan eksponensial yang disesuaikan 10-16. Dalam contoh bab untuk metode time series, perkiraan awal selalu diasumsikan sama dengan permintaan aktual pada periode pertama. Sarankan cara lain agar ramalan awal bisa digunakan secara aktual. 10-17. Bagaimana model peramalan linier linier berbeda dari model regresi linier untuk peramalan 10-18. Dari model deret waktu yang disajikan dalam bab ini, termasuk rata-rata bergerak dan rata-rata bergerak tertimbang, pemulusan eksponensial dan pemulusan eksponensial yang disesuaikan, dan garis tren linier, mana yang menurut Anda paling baik Mengapa 10-19. Keuntungan apa yang disesuaikan dengan eksponensial smoothing memiliki garis linier linier untuk perkiraan permintaan yang menunjukkan tren 4 K. B. Kahn dan J. T. Mentzer, Peramalan Pasar Konsumen dan Industri, Journal of Business Forecasting 14, no. 2 (Musim panas 1995): 21-28. Analisis regresi linier adalah teknik statistik yang paling banyak digunakan: ini adalah studi linier. Hubungan aditif antara variabel. Misalkan Y menunjukkan variabel 8220dependent8221 yang nilainya ingin Anda prediksi, dan biarkan X 1. 8230, X k menunjukkan variabel 8220independent8221 dari mana Anda ingin memprediksinya, dengan nilai variabel X i pada periode t (atau pada baris t dari kumpulan data) yang dilambangkan dengan X itu. Kemudian persamaan untuk menghitung nilai prediksi Y t adalah: Rumus ini memiliki properti bahwa prediksi untuk Y adalah fungsi garis lurus dari masing-masing variabel X, yang mempertahankan yang lain tetap, dan kontribusi dari variabel X yang berbeda terhadap Prediksi adalah aditif Lereng hubungan garis lurus individu mereka dengan Y adalah konstanta b 1. B 2, 8230, b k. Yang disebut koefisien variabel. Artinya, b i adalah perubahan nilai prediksi Y per unit perubahan pada X i. Hal lainnya sama. Konstanta tambahan b 0. Yang disebut mencegat Adalah prediksi bahwa model akan membuat jika semua X 8217s adalah nol (jika itu mungkin). Koefisien dan intercept diperkirakan oleh kuadrat terkecil. Yaitu menyetelnya sama dengan nilai unik yang meminimalkan jumlah kesalahan kuadrat dalam sampel data tempat model dipasang. Dan kesalahan prediksi model biasanya diasumsikan independen dan identik terdistribusi secara normal. Hal pertama yang harus Anda ketahui tentang regresi linier adalah bagaimana istilah aneh regresi mulai diterapkan pada model seperti ini. Mereka pertama kali belajar secara mendalam oleh ilmuwan abad ke-19, Sir Francis Galton. Galton adalah seorang naturalis, antropolog, astronom, dan ahli statistik yang otodidak, dan karakter Indiana Jones yang nyata. Dia terkenal dengan penjelajahannya, dan dia menulis buku terlaris tentang bagaimana bertahan di padang gurun yang berjudul quotThe Art of Travel: Shifts and Contrivances Available in Wild Places, quot and the sequel, quotThe Art of Rough Travel: From the Practical Ke Peculiar. quot Mereka masih dicetak dan masih dianggap sebagai sumber yang berguna. Mereka memberi banyak petunjuk praktis untuk tetap hidup - seperti bagaimana mengobati luka di mata atau mengekstrak kuda dari pasir hisap - dan mengenalkan konsep kantong tidur ke Dunia Barat. Klik pada gambar-gambar ini untuk lebih jelasnya: Galton adalah pelopor dalam penerapan metode statistik untuk pengukuran di banyak cabang sains, dan dalam mempelajari data tentang ukuran relatif orang tua dan keturunan mereka di berbagai jenis tumbuhan dan hewan, dia mengamati hal berikut Fenomena: orang tua yang lebih besar dari rata-rata cenderung menghasilkan anak yang lebih besar dari rata-rata, tapi anak cenderung kurang besar daripada orang tua dalam hal posisi relatifnya di dalam generasinya sendiri. Jadi, misalnya, jika ukuran orang tua adalah x penyimpangan standar dari mean di dalam generasinya sendiri, maka Anda harus memperkirakan bahwa ukuran anak akan rx (r times x) penyimpangan standar dari mean dalam rangkaian anak-anak dari orang tua tersebut. , Di mana r adalah angka yang kurang dari 1 besarnya. (R adalah apa yang akan didefinisikan di bawah ini sebagai korelasi antara ukuran induk dan ukuran anak.) Hal yang sama berlaku untuk hampir semua pengukuran fisik (dan dalam kasus manusia, sebagian besar pengukuran kemampuan kognitif dan fisik) Yang bisa dilakukan pada orang tua dan keturunannya. Berikut adalah gambaran pertama dari garis regresi yang menggambarkan efek ini, dari ceramah yang disampaikan oleh Galton pada tahun 1877: Simbol R pada tabel ini (yang nilainya 0,33) menunjukkan koefisien kemiringan, bukan korelasi, meskipun keduanya sama. Jika kedua populasi memiliki standar deviasi yang sama, seperti yang akan ditunjukkan di bawah ini. Galton menyebut fenomena ini sebagai regresi terhadap biasa-biasa saja. Yang dalam istilah modern adalah regresi dengan mean. Bagi seorang pengamat naiumlve, ini mungkin menunjukkan bahwa generasi selanjutnya akan menunjukkan variabilitas yang kurang - secara harfiah lebih biasa-biasa saja - daripada yang sebelumnya, tapi itu bukan kasusnya. Ini adalah fenomena statistik murni. Kecuali setiap anak memiliki ukuran yang sama persis dengan orang tua secara relatif (kecuali korelasi sama persis dengan 1), prediksi harus menurun terhadap mean tanpa memandang biologi jika kesalahan kuadrat rata-rata harus diminimalkan. (Kembali ke atas halaman.) Regresi terhadap mean adalah fakta kehidupan yang tak terhindarkan. Anak-anak Anda bisa diharapkan kurang luar biasa (lebih baik atau lebih buruk) daripada Anda. Skor Anda pada ujian akhir dalam kursus dapat diharapkan kurang baik (atau buruk) daripada skor Anda pada ujian tengah semester, relatif terhadap kelas lainnya. Rata-rata pemain bisbol yang bertaruh pada paruh kedua musim ini diperkirakan bisa mendekati mean (untuk semua pemain) daripada rata-rata pukulannya di paruh pertama musim ini. Dan seterusnya. Kata kuncinya di sini adalah quotexpected. quot Ini tidak berarti pasti bahwa regresi terhadap mean akan terjadi, tapi itulah cara untuk bertaruh Kami telah melihat saran regresi-to-the-mean pada beberapa model peramalan waktu Kami telah mempelajari: plot prakiraan cenderung lebih halus - Mereka menunjukkan variabilitas kurang - dari plot data asli. Ini tidak berlaku untuk model jalan acak, namun pada umumnya berlaku untuk model rata-rata bergerak dan model lain yang mendasarkan perkiraan mereka pada lebih dari satu pengamatan sebelumnya. Penjelasan intuitif untuk efek regresi sederhana: hal yang ingin kita prediksi biasanya terdiri dari komponen yang dapat diprediksi (quotsignalquot) dan komponen tak terduga yang tidak dapat diprediksi secara statistik (quotnoisequot). Yang terbaik yang bisa kita harapkan adalah memprediksi (hanya) bagian dari variabilitas yang disebabkan oleh sinyal. Oleh karena itu prakiraan kita akan cenderung menunjukkan variabilitas yang kurang dari nilai sebenarnya, yang berarti regresi terhadap mean. Cara lain untuk memikirkan efek regresi adalah dalam hal bias seleksi. Secara umum, penampilan pemain dalam beberapa periode waktu tertentu dapat dikaitkan dengan kombinasi keterampilan dan keberuntungan. Misalkan kita memilih sampel atlet profesional yang kinerjanya jauh lebih baik daripada rata-rata (atau siswa yang nilainya jauh lebih baik daripada rata-rata) pada paruh pertama tahun ini. Fakta bahwa mereka melakukannya dengan baik di paruh pertama tahun ini membuat kemungkinan bahwa kedua keterampilan dan keberuntungan mereka lebih baik daripada rata-rata selama periode tersebut. Pada paruh kedua tahun ini kita bisa mengharapkan mereka untuk menjadi sama terampil, tapi kita seharusnya tidak mengharapkan mereka untuk sama-sama beruntung. Jadi kita harus meramalkan bahwa di babak kedua kinerjanya akan mendekati mean. Sementara itu, pemain yang kinerjanya hanya rata-rata di babak pertama mungkin memiliki keterampilan dan keberuntungan bekerja berlawanan arah dengan mereka. Oleh karena itu kita harus mengharapkan kinerjanya di babak kedua untuk menjauh dari mean dalam satu arah atau yang lain, karena kita mendapatkan tes independen keterampilan mereka. Kami tidak tahu ke arah mana mereka akan bergerak, meski begitu, bagi kami, kami harus memperkirakan bahwa kinerja paruh kedua mereka akan mendekati mean daripada kinerja babak pertama mereka. Namun, kinerja sebenarnya dari para pemain harus diharapkan memiliki varians sama besar di paruh kedua tahun ini seperti di babak pertama, karena ini hanya hasil dari redistribusi keberuntungan acak secara independen di antara pemain dengan distribusi keterampilan yang sama dengan sebelum. Sebuah diskusi bagus tentang regresi dengan mean dalam konteks penelitian ilmu sosial yang lebih luas dapat ditemukan di sini. (Kembali ke atas halaman.) Pembenaran untuk asumsi regresi Mengapa kita harus mengasumsikan bahwa hubungan antar variabel bersifat linier. Karena hubungan linear adalah hubungan non-sepele yang paling sederhana yang dapat dibayangkan (karenanya paling mudah untuk bekerja dengan), dan. Karena hubungan quottruequot antara variabel kita seringkali paling sedikit kira-kira mendekati rentang nilai yang menarik bagi kita, dan. Bahkan jika mereka tidak melakukannya, kita sering dapat mengubah variabel sedemikian rupa sehingga bisa menjajarkan hubungan. Ini adalah asumsi yang kuat, dan langkah pertama dalam pemodelan regresi harus melihat scatterplots dari variabel (dan dalam kasus data deret waktu, plot dari variabel vs waktu), untuk memastikannya masuk akal secara apriori. Dan setelah memasang model, plot kesalahan harus dipelajari untuk melihat apakah ada pola nonlinier yang tidak dapat dijelaskan. Hal ini sangat penting ketika tujuannya adalah membuat prediksi untuk skenario di luar rentang data historis, di mana keberangkatan dari linieritas sempurna cenderung memiliki efek terbesar. Jika Anda melihat bukti hubungan nonlinear, adalah mungkin (meski tidak dijamin) bahwa transformasi variabel akan meluruskannya dengan cara yang akan menghasilkan kesimpulan dan prediksi yang berguna melalui regresi linier. (Kembali ke atas halaman.) Dan mengapa kita harus mengasumsikan bahwa efek dari variabel independen yang berbeda terhadap nilai yang diharapkan dari variabel dependen adalah aditif. Ini adalah asumsi yang sangat kuat, lebih kuat dari yang disadari kebanyakan orang. Ini menyiratkan bahwa efek marjinal dari satu variabel independen (yaitu koefisien kemiringannya) tidak bergantung pada nilai variabel independen lainnya saat ini. Tetapi mengapa tidak dapat dipastikan bahwa satu variabel independen dapat memperkuat efek yang lain, atau pengaruhnya mungkin berbeda secara sistematis dari waktu ke waktu. Dalam model regresi berganda, koefisien perkiraan variabel independen yang diberikan seharusnya mengukur pengaruhnya saat harga berlaku untuk kehadiran yang lain. Namun, cara pengendalian dilakukan sangat sederhana: kelipatan variabel lain hanya ditambahkan atau dikurangi. Banyak pengguna hanya membuang banyak variabel independen ke dalam model tanpa memikirkan secara seksama masalah ini, seolah software mereka akan secara otomatis mengetahui secara pasti bagaimana kaitannya. Metode seleksi model otomatis (misalnya regresi bertahap) mengharuskan Anda untuk memiliki pemahaman yang baik terhadap data Anda sendiri dan menggunakan panduan dalam analisis. Mereka bekerja hanya dengan variabel yang mereka berikan, dalam bentuk yang diberikan, dan kemudian mereka hanya melihat pola linier dan aditif di antara mereka dalam konteks satu sama lain. Model regresi tidak hanya mengasumsikan bahwa Y adalah quotome functionquot dari Xs. Ini mengasumsikan bahwa itu adalah fungsi yang sangat khusus dari Xs. Praktik yang umum adalah memasukkan variabel independen yang efek prediktifnya secara logis tidak dapat aditif, katakanlah, beberapa di antaranya adalah total dan lainnya yaitu tingkat atau persentase. Terkadang hal ini dapat dirasionalisasi oleh argumen pendekatan orde pertama, dan terkadang tidak dapat dilakukan. Anda perlu mengumpulkan data yang relevan, mengerti apa tindakannya, membersihkannya jika perlu, melakukan analisis deskriptif untuk mencari pola sebelum memasang model apa pun, dan mempelajari tes diagnostik asumsi model sesudahnya, terutama statistik dan plot dari kesalahan. Anda juga harus mencoba menerapkan penalaran ekonomi atau fisik yang tepat untuk menentukan apakah persamaan prediksi aditif masuk akal. Di sini juga, adalah mungkin (tapi tidak dijamin) bahwa transformasi variabel atau pemasukan istilah interaksi dapat memisahkan pengaruhnya menjadi bentuk tambahan, jika tidak memiliki bentuk seperti itu, namun ini memerlukan pemikiran dan usaha. Bagianmu (Kembali ke atas halaman.) Dan mengapa kita harus menganggap kesalahan model linier secara independen dan identik terdistribusi secara normal. 1. Asumsi ini sering dibenarkan dengan mengacu pada Teorema Batas Pusat statistik, yang menyatakan bahwa jumlah atau rata-rata sejumlah variabel independen independen yang cukup banyak - apapun distribusi masing-masing - mendekati distribusi normal. Banyak data dalam bidang bisnis dan ekonomi dan teknik dan ilmu alam diperoleh dengan menambahkan atau merata pengukuran numerik yang dilakukan pada banyak orang atau produk atau lokasi atau interval waktu yang berbeda. Sejauh aktivitas yang menghasilkan pengukuran mungkin terjadi agak acak dan agak independen, mungkin saja variasi atau jumlah rata-rata akan terdistribusi normal. 2. Ini adalah (lagi) secara matematis yang nyaman: ini menyiratkan bahwa perkiraan koefisien optimal untuk model linier adalah yang meminimalkan kesalahan kuadrat rata-rata (yang mudah dihitung), dan ini membenarkan penggunaan sejumlah uji statistik berdasarkan pada Keluarga normal distribusi. (Keluarga ini mencakup distribusi t, distribusi F, dan distribusi Chi-kuadrat). 3. Bahkan jika proses kesalahan kuototalquot tidak normal dalam hal unit data asli, mungkin saja untuk mengubah data jadi Bahwa kesalahan prediksi model Anda kira-kira normal. Tapi di sini terlalu hati-hati harus dilakukan. Bahkan jika variasi yang tidak dapat dijelaskan dalam variabel dependen kira-kira terdistribusi normal, tidak dijamin bahwa mereka juga akan terdistribusi secara normal untuk semua nilai variabel independen. Mungkin variasi yang tidak dapat dijelaskan lebih besar dalam beberapa kondisi daripada kondisi lainnya, yang dikenal dengan istilah quotheteroscedasticityquot. Misalnya, jika variabel dependen terdiri dari penjualan total harian atau bulanan, mungkin ada pola hari atau minggu yang signifikan atau pola musiman. Dalam kasus seperti itu varians dari total akan lebih besar pada hari atau musim dengan aktivitas bisnis yang lebih besar - konsekuensi lain dari teorema batas pusat. (Transformasi variabel seperti penebangan dan penyesuaian musiman sering digunakan untuk mengatasi masalah ini.) Juga tidak dijamin bahwa variasi acak akan independen secara statistik. Ini adalah pertanyaan yang sangat penting saat data terdiri dari deret waktu. Jika model tidak ditentukan dengan benar, ada kemungkinan kesalahan berturut-turut (atau kesalahan yang dipisahkan oleh beberapa periode lainnya) akan memiliki kecenderungan sistematis untuk memiliki tanda yang sama atau kecenderungan sistematis untuk memiliki tanda yang berlawanan, sebuah fenomena yang dikenal sebagai quotautocorrelationquot atau Korelasi korelasi kuartalan Kasus khusus yang sangat penting adalah data harga saham. Di mana persentase perubahan daripada perubahan absolut cenderung terdistribusi normal. Ini menyiratkan bahwa pada skala sedang sampai skala besar, pergerakan harga saham didistribusikan secara logal daripada terdistribusi normal. Transformasi log biasanya diterapkan pada data harga saham historis saat mempelajari pertumbuhan dan volatilitas. Perhatian: Meskipun model regresi sederhana sering disesuaikan dengan return saham historis untuk memperkirakan quotbetasquot, yang merupakan indikator risiko relatif dalam konteks portofolio terdiversifikasi, saya tidak menyarankan Anda menggunakan regresi untuk mencoba memprediksi return saham di masa depan. Lihat halaman acak geometris berjalan sebagai gantinya. Anda mungkin masih berpikir bahwa variasi nilai portofolio saham cenderung terdistribusi normal, berdasarkan teorema batas pusat, namun teorema batas pusat sebenarnya agak lambat untuk digigit pada distribusi lognormal karena sangat asimetris jangka panjang. Berekor. Sejumlah 10 atau 20 variabel independen dan identik lognormal didistribusikan memiliki distribusi yang masih cukup dekat dengan lognormal. Jika Anda tidak percaya ini, cobalah mengujinya dengan simulasi Monte Carlo: Anda akan terkejut. (I was.) Karena asumsi regresi linier (hubungan linier, aditif dengan kesalahan terdistribusi normal) sangat kuat, sangat penting untuk menguji validitasnya saat model pas, topik yang dibahas lebih rinci pada model pengujian - Halaman asumsi Dan waspada terhadap kemungkinan bahwa Anda mungkin memerlukan data yang lebih banyak atau lebih baik untuk mencapai tujuan Anda. Anda tidak bisa mendapatkan sesuatu dari nol. Terlalu sering, pengguna naiumlve analisis regresi melihatnya sebagai kotak hitam yang secara otomatis memprediksi variabel tertentu dari variabel lain yang dimasukkan ke dalamnya, padahal model regresi adalah jenis prediksi yang sangat spesial dan sangat transparan. Keluarannya tidak mengandung informasi lebih banyak daripada yang diberikan oleh inputnya, dan mekanisme dalamnya perlu dibandingkan dengan kenyataan di setiap situasi di mana ia diterapkan. (Kembali ke atas halaman.) Korelasi dan rumus regresi sederhana Variabel adalah, menurut definisi, kuantitas yang mungkin berbeda dari satu pengukuran ke pengukuran lainnya dalam situasi di mana sampel yang berbeda diambil dari populasi atau pengamatan dilakukan pada titik waktu yang berbeda. Dalam menyesuaikan model statistik di mana beberapa variabel digunakan untuk memprediksi orang lain, apa yang ingin kita temukan adalah bahwa variabel yang berbeda tidak berbeda secara independen (dalam arti statistik), namun cenderung bervariasi bersama-sama. Secara khusus, ketika menyesuaikan model linier, kami berharap dapat menemukan bahwa satu variabel (katakanlah, Y) bervariasi sebagai fungsi garis lurus dari variabel lain (katakanlah, X). Dengan kata lain, jika semua variabel lain yang mungkin relevan dapat dipertahankan, kami berharap dapat menemukan grafik Y versus X menjadi garis lurus (terlepas dari kesalahan acak yang tak terelakkan atau quotnoisequot). Ukuran jumlah absolut variabilitas dalam variabel adalah (secara alami) variansnya. Yang didefinisikan sebagai penyimpangan kuadrat rata-rata dari meannya sendiri. Secara ekivalen, kita bisa mengukur variabilitas dalam hal standar deviasi. Yang didefinisikan sebagai akar kuadrat dari varians. Deviasi standar memiliki keuntungan bahwa ia diukur dalam satuan yang sama dengan variabel aslinya, bukan unit kuadrat. Tugas kita dalam memprediksi Y dapat digambarkan sebagai penjelasan beberapa atau semua variansnya - yaitu. Kenapa Atau dalam kondisi apa, apakah itu menyimpang dari meannya Mengapa tidak konstan Artinya, kita ingin dapat memperbaiki model prediktif naif: 374 t CONSTANT, di mana nilai terbaik untuk konstanta mungkin adalah mean historis Y. Lebih tepatnya, kami berharap menemukan model yang kesalahan prediksinya lebih kecil, dalam arti rata-rata persegi, daripada penyimpangan variabel asli dari meannya. Dalam menggunakan model linier untuk prediksi, ternyata sangat mudah bahwa satu-satunya statistik yang diminati (paling tidak untuk tujuan memperkirakan koefisien untuk meminimalkan kesalahan kuadrat) adalah mean dan varians dari masing-masing variabel dan koefisien korelasi antara masing-masing pasangan variabel. Koefisien korelasi antara X dan Y biasanya dilambangkan dengan r XY. Dan mengukur kekuatan hubungan linier di antara keduanya pada skala relatif (yaitu tanpa satuan) dari -1 sampai 1. Artinya, ia mengukur sejauh mana model linier dapat digunakan untuk memprediksi penyimpangan satu variabel dari meannya. Diberi pengetahuan tentang deviasi orang lain dari meannya pada titik waktu yang sama. Koefisien korelasi paling mudah dihitung jika kita pertama kali menstandardisasi variabel, yang berarti mengkonversikannya ke satuan standar deviasi-dari-mean, menggunakan deviasi standar populasi daripada deviasi standar sampel, yaitu dengan menggunakan statistik yang rumusnya Memiliki n daripada n-1 di denominator, di mana n adalah ukuran sampel. Versi standar X akan dilambangkan di sini oleh X. Dan nilainya pada periode t didefinisikan dalam notasi Excel sebagai: di mana STDEV. P adalah fungsi Excel untuk deviasi standar populasi. (Di sini dan di tempat lain saya akan menggunakan fungsi Excel daripada simbol matematika konvensional di beberapa formula untuk menggambarkan bagaimana penghitungannya dilakukan pada spreadsheet). Misalnya, anggaplah RATA-RATA (X) 20 dan STDEV. P (X ) 5. Jika X t 25, maka X t 1, jika X t 10. maka X t -2, dan seterusnya. Y akan menunjukkan nilai Y yang sama standarnya. Sekarang, koefisien korelasi sama dengan produk rata-rata dari nilai standar dari dua variabel dalam sampel n pengamatan yang diberikan: Jadi, misalnya, jika X dan Y disimpan dalam kolom Pada spreadsheet, Anda dapat menggunakan fungsi RATA-RATA dan STDEV. P untuk menghitung rata-rata dan standar deviasi populasi, Anda dapat membuat dua kolom baru di mana nilai X dan Y pada setiap baris dihitung sesuai dengan rumus di atas. Kemudian buat kolom baru ketiga dimana X dikalikan dengan Y di setiap baris. Rata-rata nilai pada kolom terakhir adalah korelasi antara X dan Y. Tentu saja, di Excel, Anda bisa menggunakan rumus CORREL (X, Y) untuk menghitung koefisien korelasi, di mana X dan Y menunjukkan kisaran sel dari Data untuk variabel. (Catatan: dalam beberapa situasi mungkin menarik untuk membakukan data relatif terhadap standar deviasi sampel, yaitu STDEV. S di Excel, namun statistik populasi adalah yang benar untuk digunakan dalam rumus di atas.) (Kembali ke atas Dari halaman.) Jika kedua variabel cenderung bervariasi pada sisi yang sama dari masing-masing alat pada saat bersamaan, maka produk rata-rata penyimpangannya (dan karenanya korelasi di antara keduanya) akan menjadi positif. Karena produk dua angka dengan tanda sama positif. Sebaliknya, jika mereka cenderung bervariasi pada sisi berlawanan dari sarana masing-masing pada saat bersamaan, korelasi mereka akan negatif. Jika mereka berbeda secara independen sehubungan dengan kemampuan mereka - yaitu, jika seseorang sama-sama cenderung berada di atas atau di bawah mean-nya terlepas dari apa yang sedang dilakukan - maka korelasi akan menjadi nol. Dan jika Y adalah fungsi linear X yang tepat, maka Y t X t untuk semua t atau yang lain Y t - X t untuk semua t. Dalam hal ini rumus untuk korelasi dikurangi menjadi 1 atau -1. Koefisien korelasi dapat dikatakan untuk mengukur kekuatan hubungan linier antara Y dan X karena alasan berikut. Persamaan linier untuk memprediksi Y dari X yang meminimalkan kesalahan kuadrat rata-rata adalah sederhana: Jadi, jika X diamati sebagai satu standar deviasi di atas meannya sendiri, maka kita harus memprediksi bahwa Y akan menjadi standar deviasi r XY di atas meannya sendiri jika X Adalah 2 standar deviasi di bawah meannya sendiri, maka kita harus memprediksi bahwa Y akan menjadi standar deviasi 2 r XY di bawah meannya sendiri, dan seterusnya. Dalam istilah grafis, ini berarti bahwa, pada scatterplot Y versus X. Garis untuk memprediksi Y dari X sehingga memperkecil mean squared error adalah garis yang melewati titik asal dan memiliki kemiringan r XY. Fakta ini tidak seharusnya jelas, tapi mudah dibuktikan dengan kalkulus diferensial dasar. Inilah contohnya: pada scatterplot Y versus X. Sumbu simetri visual adalah garis yang melewati titik asal dan kemiringannya sama dengan 1 (yaitu garis 45 derajat), yang merupakan garis putus-putus abu-abu pada plot di bawah ini. Ini melewati asal karena sarana dari kedua variabel standar adalah nol, dan kemiringannya sama dengan 1 karena standar deviasi keduanya sama dengan 1. (Fakta terakhir berarti bahwa titik-titik itu sama-sama tersebar secara horisontal dan vertikal dalam kaitannya dengan Berarti penyimpangan kuadrat dari nol, yang memaksa pola mereka muncul kira-kira simetris di sekitar garis 45 derajat jika hubungan antara variabel benar-benar linier.) Namun, garis putus-putus abu-abu bukanlah garis terbaik yang digunakan untuk memprediksi nilai Y untuk nilai X tertentu. Garis terbaik untuk memprediksi Y dari X memiliki kemiringan kurang dari 1: ia menuju ke sumbu X. Garis regresi ditunjukkan dalam warna merah, dan kemiringannya adalah korelasi antara X dan Y. yaitu 0,46 dalam kasus ini. Mengapa ini benar Karena, itu adalah cara untuk bertaruh jika Anda ingin meminimalkan kesalahan kuadrat rata-rata yang diukur dalam arah Y. Jika Anda ingin memprediksi X dari Y sehingga meminimalkan kesalahan kuadrat rata-rata yang diukur pada arah X, garis akan bergeser ke arah lain relatif terhadap garis 45 derajat, dan dengan jumlah yang persis sama. Jika kita ingin mendapatkan persamaan regresi linier untuk memprediksi Y dari X dengan persyaratan yang tidak standar. Kita hanya perlu mengganti formula untuk nilai standar pada persamaan sebelumnya, yang kemudian menjadi: Dengan menata ulang persamaan ini dan mengumpulkan konstanta, kita memperoleh: adalah perkiraan kemiringan garis regresi, dan merupakan perkiraan Y - intercept dari garis. Perhatikan bahwa, seperti yang kita klaim sebelumnya, koefisien dalam persamaan linier untuk memprediksi Y dari X hanya bergantung pada mean dan standar deviasi X dan Y dan pada koefisien korelasi mereka. Rumus tambahan yang dibutuhkan untuk menghitung kesalahan standar. T-statistik Dan nilai P (statistik yang mengukur ketepatan dan signifikansi koefisien perkiraan) diberikan dalam catatan matematika tentang regresi sederhana dan juga diilustrasikan dalam file spreadsheet ini. Korelasi positif sempurna (r XY 1) atau korelasi negatif sempurna (r XY -1) hanya diperoleh jika satu variabel adalah fungsi linier yang persis sama dengan yang lain, tanpa kesalahan, dalam hal ini mereka sama sekali tidak memiliki variabel yang sama persis. Secara umum kita menemukan korelasi yang kurang sempurna, artinya, kita menemukan bahwa r XY kurang dari 1 dalam nilai absolut. Oleh karena itu prediksi kami untuk Y biasanya lebih kecil nilainya absolut dari nilai X yang kami amati. Artinya, prediksi Y selalu mendekati meannya sendiri, dalam satuan deviasi standarnya sendiri, dari pada X yang diamati, yaitu fenomena fenomena regresi Gps terhadap mean. Jadi, penjelasan teknis tentang efek regresi-ke-rata bergantung pada dua fakta matematika: (i) koefisien korelasi, yang dihitung dengan cara yang dijelaskan di atas, kebetulan adalah koefisien yang meminimalkan kesalahan kuadrat dalam memprediksi Y dari X . Dan (ii) koefisien korelasi tidak pernah lebih besar dari 1 dalam nilai absolut, dan hanya sama dengan 1 bila Y adalah fungsi linier X yang tepat (tidak bersuara). Istilah quotregressionquot telah macet dan bahkan bermutasi dari kata kerja intransitif menjadi transitif sejak zaman Galton. Kita tidak hanya mengatakan bahwa prediksi untuk Y quotregress ke meanquot - sekarang kita mengatakan bahwa kita melakukan quote terhadap Y pada X quot ketika kita memperkirakan persamaan linier untuk memprediksi Y dari X. dan kita mengacu pada X sebagai quotregressorquot dalam kasus ini. Ketika kita telah memasang model regresi linier, kita dapat menghitung varians dari kesalahannya dan membandingkannya dengan varians variabel dependen (yang terakhir adalah varians kesalahan dari model intersep-only). Jumlah relatif dimana model regresi varians error kurang dari varians variabel dependen yang disebut sebagai fraksi varians yang dijelaskan oleh variabel independen (s). Sebagai contoh, jika varians kesalahannya adalah 20 kurang dari varians aslinya, kita mengatakan bahwa kita telah mengutip 20 variannya. Kuot Ternyata dalam model regresi sederhana, fraksi varians menjelaskan adalah kuadrat dari koefisien korelasi - - yaitu Alun-alun r. Oleh karena itu, pecahan-varians-jelas telah dikenal sebagai quotR-squaredquot. Penafsiran dan penggunaan R-kuadrat dibahas secara lebih rinci di sini. Dalam model regresi berganda (satu dengan dua atau lebih variabel X), ada banyak koefisien korelasi yang harus dihitung, disamping semua mean dan varians. Sebagai contoh, kita harus mempertimbangkan korelasi antara masing-masing variabel X dan variabel Y, dan juga korelasi antara masing-masing pasangan variabel X. Dalam hal ini, ternyata koefisien model dan statistik pecahan-varians-variabel dapat dihitung seluruhnya dari pengetahuan tentang mean, standar deviasi, dan koefisien korelasi antar variabel - namun perhitungannya tidak mudah lagi. . Kami akan meninggalkan rincian tersebut ke komputer. (Kembali ke atas halaman.) Ikuti topik di tempat terdekat:

No comments:

Post a Comment