Doğrusal Regresyon Analizi Nedir
3.1. Doğrusal Regresyon Nedir ?
Regresyon analizi, bağımlı veya açıklanan değişken Y ile bağımsız veya açıklayıcı değişken X (yada X’ler) arasındaki ilişkiyi tanımlamaya, anlamaya ve bu ilişkinin derecesini hesaplama ve tahminleme ile ilgilidir. Örneğin elinizde döviz kuru, enflasyon oranı ve faiz oranı verileri olsun. Enflasyon ve faiz oranı döviz kurunu ne kadar etkilediğini bulmak ve bu değişkenler arasındaki ilişkiyi hesaplamak için doğrusal regresyon analizi kullanırız.
Regresyon analizini anlatmadan önce analizin bazı önemli amaçları vardır, bu amaçları anladıktan sonra analizde kullandığımız matematiksel ifadeler daha kolay anlam kazanacaktır.
Regresyon analizinin temel amaçları:
· Bağımsız değişkenleri verilen değerleri ile bağımlı değişkenin ortalama değerini tahmin etmek.
· Bağımsız değişkenlerin, bağımlı değişken üzerinde önemli bir etkiye sahip olup olmadığını araştırmak.
· Bağımsız değişkenlerin verilen değerleri ile bağımsız değişkenin ortalama değerini öngörmek (tahmin) veya gelecekte alacağı değeri tahmin etmek (forecast).
Senelerdir gördüğümüz bir matematiksel ifade ile regresyon analizinin matematiksel bölümü Y = f(x) olarak karşımıza çıkıyor. Buna fonksiyonel ilişki denir. Aynı zamanda Y, x’in bir fonksiyonudur. Yani x’te meydana gelen değişimler Y’deki değişimleri etkilemektedir.
Regresyon denklemi ise:
Y = a + bX + e
Buradaki ifadeleri tanımlamak gerekirse:
a = Sabit terim veya kesişme noktası katsayısı
b = Regresyon katsayısı veya parametresi, bu katsayı X’te meydana gelecek bir birimlik değişme karşısında Y’de kaç birimlik bir değişme olacağını gösterir.
X = X (veya X’ler) Regresyon Analizi içerisindeki ele alacağımız değişken.
e = Modelde yer alan e terimi, çeşitli X değerleri için regresyon denklemine göre bulunacak tahmini Y değerleri ile gerçek Y değerleri arasındaki farkları gösterir ve hata terimi olarak adlandırılır.
Esasen regresyon analizi hata terimlerinin analizine dayanır. Regresyon analizi Y ile X arasındaki kesin ilişkiyi değil, olasılık ilkelerine dayalı ortalama ilişkiyi bulmaya çalışır.
Şekil 3.1. Doğrusal Regresyon Grafiği
Şekil 3.1. Bir veri setindeki verilerin grafik üzerinde dağılımını veriyor. Aslında regresyon analizinde amacımız bu noktalar arasındaki en iyi verim alınacak çizgiyi çekmek. Peki bu çizgi neden önemli ? Çizginin amacı bizim hata terimlerimizi hesaplamamıza ve bu sayede regresyon analizinde sonuç bulmamıza olanak sağlar. Yani kabaca konuşmak gerekirse, grafikteki noktalar, doğrunun tam üzerinde olmadığı zaman doğru ile nokta arasındaki dikey fark hata terimi olarak isimlendirilir ve e ile gösterilir. (Bazı kaynaklarda bunu u olarakta verebilirler aklınız karışmasın.) Bu durumda olasılıklı veya doğrusal model;
Yi = b0 + b1X + ei
Yi = Y’deki değişim
b0 + b1X = Açıklanan Değişim veya Düzenli Değişim
ei = Açıklanamayan Değişim veya Rassal Değişim
Denklem yardımı ile bulunan tahmin değeri ile hata terimi arasındaki farkın bazı ortaya çıkış nedenleri vardır:
1. Modele Alınmayan Bağımsız Değişkenler: Gerçekte bağımlı değişken çok sayıda bağımsız değişkenin etkisi altındadır fakat bazı değişkenler modelin dışında kalmaktadır. Bunun sebebi bilgi eksikliği, bazı tahmin problemlerinden kaçınmak, veri bulamamak gibi nedenler olabilir.
2. İnsan Davranışlarının belirsizliği.
3. Matematiksel kalıbın yanlış seçilmesi.
4. Toplulaştırma Yanlışlıkları: Farklı durumlar anlatan çeşitli verilere ait değerlerin toplanarak tek bir veri olarak ele alınması olayıdır.
5. Ölçme Yanlışlıkları.
3.2. Doğrusal Regresyon’un Varsayımları
· Bağımlı değişken ve bağımsız değişkenler arasında doğrusal bir ilişki vardır, yani oluşturudğunuz modelin verilerle uyuşuyor olması gerekir.
· Verilerin hataları ve artıkları normal dağılmıştır ve birbirinden bağımsızdır.
· Değişkenler arasında çoklu bağlantı problemi olmamalı.
· Homoscedasticity. Bu, regresyon çizgisi etrafındaki tahmin edici değişkenin varyansın tüm değerler için aynı olması anlamına gelir.
3.3. P-Value, Coefficients (Kat Sayı), R Kare Değerleri
P-Value değeri, katsayının ilgili olduğu minimum anlamlılık değeridir. P değeri ne kadar düşükse tahmin etmede değişken o kadar önemlidir. Genellikle %5 hata payı belirleriz böylece. Değişkenimizin güven düzeyi %95 olur. P değeri sıfır hipotezinin reddedileceği en küçük önem düzeyini sağlamak için reddetme noktalarına alternatif olarak kullanılır. Daha küçük bir p değeri, alternatif hipotez lehine daha güçlü kanıtlar olduğu anlamına gelir. Yani p değeri (< 0.05) sıfır hipotezini reddeder, modelin anlamlı olduğunu gösterir.
Katsayı değeri, diğer değişkenleri modelde sabit tutarken, bağımsız değişkende bir birimlik bir değişme olduğunda bağımlı değişkenin ortalamasının ne kadar değiştiğini gösterir. Diğer değişkenleri sabit tutma özelliği çok önemlidir çünkü her bir değişkenin etkisini diğerlerinden ayrı olarak değerlendirmenize olanak tanır.
R kare, bir bağımsız değişken veya bir regresyon modelindeki değişkenler tarafından açıklanan bir bağımlı değişken için varyansın oranını temsil eden istatistiksel bir ölçüdür. Yani R kare değeri, bağımsız değişkenlerin bağımlı değişkeni ne ölçüde açıkladığının bir göstergesidir. Bunu size bir örnekle açıklamak istiyorum. Örneğin bir araç tahmin modeli oluşturmak istiyorsunuz.Bunun için elinizde birkaç değişken var.Bunlardan bir kaç tanesi, motor gücü, aracın rengi, vites, yakıt gibi değişkenlerimizi var.Bizim istediğimiz aracın fiyatını tahmin etmek.Yani bağımlı değişkenimiz araç fiyatı.Bağımsız değişkenimizde aracın motor gücü olduğunu düşünelim.Şimdi bu iki değişkeni modelde çalıştırdığınız zaman bize bir r-kare değeri verecektir.R-kare değerimiz %80 çıkmış olsun.(Genel olarak, R-kare değeri ne kadar yüksek olursa, model verilerinize o kadar iyi uyar.) Bu şu demek : Bizim fiyatını tahmin ettiğimiz aracın fiyatını açıklayan en iyi değişken aracın motor gücü olduğunu görüyoruz.Geriye kalan %20'lik kısım, diğer bahsettiğimiz değişkenler tarafından açıklanıyor demektir.İşte bu değişkenlerin hepsini modelde çalıştrabildiğimiz zaman bize aracın asıl fiyatını tahmin edecektir.