Aykırı Gözlem Örnekler

Tabii, işte aykırı gözlemlere örnekler:

  1. Örneğin:
    • Bir sınıftaki öğrencilerin boyutları ölçüldü ve çoğunlukla 150-180 cm arasında olduğu tespit edildi. Ancak, bir öğrencinin boyu 220 cm çıkıyorsa bu bir aykırı değer olabilir.
  2. Örneğin:
    • Bir e-ticaret sitesindeki ürün fiyatları incelenirken, genellikle belirli bir aralıkta olan fiyatların dışında, çok yüksek bir fiyatla satılan bir ürün.
  3. Örneğin:
    • Bir restoranın günlük müşteri sayısına ilişkin veriler incelenirken, diğer günlerle karşılaştırıldığında beklenmeyen şekilde düşük ya da yüksek müşteri sayısına sahip bir gün.
  4. Örneğin:
    • Bir şehirdeki ortalama gelir düzeyi üzerine yapılan bir araştırmada, diğer kişilerin gelirleriyle karşılaştırıldığında belirgin şekilde yüksek bir gelire sahip kişi.
  5. Örneğin:
    • Bir sağlık merkezinde yapılan kilo ölçümlerinde, diğer hastaların ağırlığına kıyasla belirgin şekilde farklı ağırlıkta olan bir hasta.
  6. Örneğin:
    • Bir şirketin maaş verilerinde, çalışanların çoğunun ortalama maaş düzeyinde olduğu gözlenirken, bazı çalışanların çok yüksek ya da çok düşük maaşa sahip olması.
  7. Örneğin:
    • Bir sigorta şirketinin sigorta poliçeleri için ödenen primlerde, diğer poliçelere kıyasla çok yüksek prim ödenen bir poliçe.
  8. Örneğin:
    • Bir online alışveriş platformunda yapılan alışverişlerde, alışveriş tutarlarındaki genel eğilime uygun olmayan çok yüksek bir alışveriş miktarı.
  9. Örneğin:
    • Bir otelde müşterilerin oda fiyatlarına ilişkin veriler incelenirken, belirgin şekilde diğerlerinden farklı bir fiyatla kiralanan bir oda.
  10. Örneğin:
  • Bir akademik sınavda, diğer öğrencilerin notlarına göre belirgin şekilde yüksek ya da düşük bir not alan bir öğrenci.
Kategori Python
15.10.2023
57 Okunma

Veri Önişleme Basamakları

Elbette! İşte her bir madde için günlük yaşamdan veya genel geçer örneklerle açıklamalar:

  1. Veri Temizleme:
    • Örnek: Bir anket sonucunda katılımcılar bazı soruları atlayabilir veya yanlış cevaplar verebilir. Bu durumda, veri temizleme işlemi ile eksik veya hatalı cevaplar düzeltilir ya da çıkarılır. Örneğin, yaş bilgisi için yanlış girilmiş 150 yaş gibi anormallikleri temizlemek.
  2. Veri Standardizasyonu ve Normalizasyonu:
    • Örnek: Bir veri setindeki gelir bilgileri genellikle farklı ölçeklerde olabilir. Dolayısıyla, bu gelir bilgilerini 0-1 aralığına normalize ederek, farklı büyüklükteki gelirleri aynı ölçekte karşılaştırabiliriz.
  3. Ayrık ve Sürekli Değişkenlerin Dönüşümü:
    • Örnek: Bir e-ticaret platformunda, bir kullanıcının satın alma geçmişi (sürekli) ve alışveriş kategorileri (ayrık) farklı türlerde verilerdir. Bu verilerin uygun şekilde dönüştürülmesi analizlerde önemlidir.
  4. Boyut Azaltma:
    • Örnek: Bir görüntü işleme projesinde, yüksek çözünürlüklü görüntülerdeki gereksiz bilgilerin (örneğin, gürültü) çıkarılması için boyut azaltma kullanılabilir. Bu, hem işlem süresini azaltır hem de önemli bilgilerin çıkarılmasına yardımcı olur.
  5. Outlier (Aykırı Değer) Tespiti ve Eleme:
    • Örnek: Bir hava durumu veri setinde, sıcaklık ölçümlerinde anormal derecede yüksek veya düşük değerler olabilir. Bu anormallikler, doğru analizler için tespit edilip eleme işlemine tabi tutulmalıdır.
  6. Veri Düzgünleştirme:
    • Örnek: Bir müşteri veri tabanında müşterilerin adres bilgileri tutuluyor. Veri düzgünleştirme, adreslerin tutarlı biçimde yazılmasını sağlar. Örneğin, “str.” yerine “sokak” şeklinde birleştirme.
  7. Hassasiyet (Privacy) Kontrolü:
    • Örnek: Bir sağlık kuruluşunda hastaların kişisel sağlık verilerinin paylaşılması durumunda, bu verilerin gizliliğini sağlamak ve kişisel bilgileri anonim hale getirmek için veri düzenleme yapılır.
  8. Veri Görselleştirme:
    • Örnek: Bir finansal analizde, hisse senedi fiyatları zaman içinde değişiyor. Bu verilerin doğru anlaşılması ve analizi için bu hisse senedi fiyatlarının zaman serileri grafiği çizilebilir. Bu grafik, verilerin trendlerini ve değişikliklerini görsel olarak açıklayabilir.
Kategori Python
15.10.2023
53 Okunma

Binom Dağılımı Nedir. ?

Binom dağılımı, olasılık teorisi ve istatistikte yaygın olarak kullanılan bir olasılık dağılımıdır. Binom dağılımı, belirli bir deneyde başarı veya başarısızlık gibi iki sonuçlu (başarı-başarısızlık, evet-hayır, 1-0) bir olayın belirli sayıda tekrarlanmasıyla ilgilidir.

Bu dağılım, aşağıdaki koşulların sağlandığı durumlar için uygundur:

  1. Her deneme iki sonuçlu (başarı-başarısızlık) ve bağımsızdır.
  2. Her denemede başarı olasılığı (p) sabittir.
  3. Her denemede başarısızlık olasılığı (q = 1 – p) sabittir.

Binom dağılımının olasılık kütlesini hesaplamak için kullanılan formül şu şekildedir: �(�=�)=(��)×��×(1−�)�−� Burada:

  • �(�=�), tam olarak başarıya sahip olma olasılığını temsil eder.
  • , toplam deneme sayısını temsil eder.
  • , başarıların sayısını temsil eder.
  • , her bir denemede başarı olasılığını temsil eder.
  • �=1−�, her bir denemede başarısızlık olasılığını temsil eder.
  • (��) (n faktöriyel bölü k faktöriyel çarpı n – k faktöriyel) kombinasyon sayısını temsil eder.

Binom dağılımı, örneğin belirli bir sayıda madeni para atışının tura gelme sayısını tahmin etme veya belirli bir sayıda doğru cevap alma olasılığını tahmin etme gibi birçok uygulamada kullanılır.

 

Diyelim ki bir madeni paranın tura gelme olasılığı ve bu paranın 10 kez atılacağını düşünelim. Bu durumda, tura gelme sayısının binom dağılımı ile modelleneceğini söyleyebiliriz.

Parametreler:

  • (toplam deneme sayısı): 10 (çünkü madeni para 10 kez atılıyor)
  • (her denemede tura gelme olasılığı): 0.5 (örneğin, adil bir madeni para)
  • (başarı, yani tura gelme sayısı): 0, 1, 2, …, 10

Bu durumda, tura gelme sayısı için olasılıkları hesaplayalım.

Bu kod parçası, 0’dan 10’a kadar olan tura gelme sayıları için binom dağılımı olasılıklarını hesaplar ve bu olasılıkları bir çubuk grafiği ile görselleştirir. Bu durumda, tura gelme olasılığı �=0.5 (adil bir madeni para) ve deneme sayısı �=10 olarak alınmıştır. Çıktıda, her değeri için ilgili olasılıklar görüntülenir.

Kategori Python
12.10.2023
59 Okunma

Büyük Sayılar Yasası Nedir. ?

Büyük Sayılar Yasası (Law of Large Numbers), istatistikte ve olasılık teorisinde önemli bir prensiptir. Bu yasa, büyük bir sayıda bağımsız ve aynı dağılıma sahip rassal değişkenlerin ortalamasının, beklenen değerine (popülasyon ortalaması) yaklaşma eğiliminde olduğunu ifade eder.

Büyük Sayılar Yasası, birçok rassal deneme (örnekleme) yapıldığında, bu denemelerin ortalamasının, deneme sayısı arttıkça beklenen değere (popülasyon ortalaması) yaklaşacağını belirtir. Yani, daha fazla deneme yapıldıkça, elde edilen ortalama değer, gerçek beklenen değere daha yakın olacaktır.

Matematiksel olarak, 1,2,…, şeklinde ifade edilen bağımsız ve aynı dağılıma sahip rassal değişkenlerin ortalaması ˉ ise, Büyük Sayılar Yasası şöyle ifade edilir: lim⁡→∞(∣1+2+…]∣<)=1 Burada:

  • ] rassal değişkenin beklenen değerini (popülasyon ortalaması) temsil eder,
  • küçük bir pozitif sayıdır, ve
  • örnekleme sayısını ifade eder.

Bu formül, büyüdükçe örnekleme ortalamanın beklenen değere yakınsayacağını ifade eder.

Büyük Sayılar Yasası, pratikte istatistiksel sonuçların güvenilirliğini sağlamak ve popülasyon hakkında çıkarımlar yapmak için önemli bir prensiptir. Bu yasa, çok sayıda gözlem yapıldığında ortalamanın beklenen değere yaklaşacağını belirterek güvenilir sonuçlar elde edilmesini sağlar.

Kategori Python
12.10.2023
60 Okunma

Rassal Değişken Nedir. ?

Rassal değişken (veya rasgele değişken), belirli bir deneyin sonucunu temsil eden ve belirli bir olasılık dağılımına sahip olan matematiksel bir değişkendir. Bu değişkenler, bir olayın farklı sonuçlarına sayısal değerler atar ve bu değerlerin her biri belirli bir olasılıkla ilişkilendirilir.

Örneğin, bir zar atma deneyini düşünelim. Zar atışının sonucu 1’den 6’ya kadar olan sayılardan biri olabilir. Bu durumda, bu sayılar rassal değişkenin olası değerleridir. Her bir sayıya atanmış olan olasılık, standart bir zar için her biri 1/6 olacaktır.

Rassal değişkenler iki ana türe ayrılabilir:

Sürekli Rassal Değişkenler: Bu türde, değişkenin alabileceği değerler bir aralık içindedir. Örneğin, kişilerin yaşları gibi.

Kesikli Rassal Değişkenler: Bu türde, değişken belirli değerleri alır ve aralık değildir. Örneğin, bir zar atma sonucu gibi.

Rassal değişkenler, olasılık teorisi ve istatistikte önemli bir rol oynar. Çeşitli deneylerin ve olayların analizinde kullanılırlar ve bu analizler, gelecekteki olayların tahmin edilmesi veya belirli sonuçların olasılığının hesaplanması için kullanılır.

Kategori Python
12.10.2023
66 Okunma

Güven Aralığı Hesaplama

Örneğin, elimizde bir örneklemin ortalama değeri ve standart sapması bulunmaktadır. Bu örnekleme ait 30 veri noktası olduğunu ve %95 güven düzeyi istediğimizi varsayalım. Aşağıdaki adımlarla bu verilerle güven aralığını hesaplayacağız:

  1. Örneklemin Bilgileri:
    • Örneklemin ortalama değeri (): 65.2
    • Örneklemin standart sapması ): 10.4
    • Örneklemin büyüklüğü (): 30
    • Güven seviyesi (%95) için Z-Skoru (): Z-Skoru, %95 güven düzeyi için standart normal dağılım tablosundan alınacak değerdir.
  2. Z-Skorunu Bulma:
    • %95 güven düzeyi için Z-Skorunu bulmak için standart normal dağılım tablosundan bakabiliriz. Bu durumda, ≈1.96 (yaklaşık değer).
  3. Standart Hata Hesaplama:
    • Standart hata () hesaplamak için şu formülü kullanabiliriz: = Bu durumda, ≈10.430≈1.897.
  4. Güven Aralığı Hesaplama:
    • Güven aralığı (CI) hesaplamak için şu formülü kullanabiliriz: CI=Örneklemin Ortalaması±(Z * SE) Güven aralığı, 65.2±(1.96×1.897) olacaktır.

Sonuç olarak, örneklemin ortalama değeri 65.2 ve %95 güven düzeyinde bu örnekleme ait popülasyonun ortalama değerinin tahmini aralığı 62.5 ile 67.9 arasındadır.Ω≈ç√

Bu şekilde, örnekle veriler üzerinden güven aralığını hesaplayabilir ve belirli bir güven düzeyinde parametrenin tahmini değerini ifade eden bir aralık elde edebiliriz.

Kategori Python
12.10.2023
60 Okunma

CategoricalDtype Kullanmanın Olumlu Etkileri

CategoricalDtype kullanmanın olumlu etkilerine odaklanmak için cut sütununun kategorik bir veri tipine dönüştürülmemesi durumunda nelerin eksik olabileceğine ve zorlaşabileceğine bakalım:

  • Sıralama ve Kategori Bilgisi Eksikliği: Eğer cut sütunu kategorik veri tipine dönüştürülmezse, bu sütundaki değerlerin bir sıralama veya öncelik düzeni olmaz. Bu durum, veriyi analiz ederken belirli bir sıralama içinde kategorileri değerlendirmenizi zorlaştırabilir. Örneğin, “Fair” kesim kalitesinin “Ideal” kesim kalitesine göre daha düşük olduğunu belirtmek istediğinizde, bu sıralamanın olmaması anlam karmaşıklığına yol açabilir.
  • Görselleştirme Zorlukları: Veriyi görselleştirirken kategorik değerlerin sıralanabilir olması önemlidir. Eğer kategorik değerler sıralı bir şekilde tanımlanmamışsa, grafiklerde veya grafiklerde bu sıralama yansıtılamaz. Örneğin, bir çubuk grafikle kesim kalitesini sıralı bir şekilde göstermek istediğinizde, sırasız kategorilerle bu görselleştirme daha karmaşık hale gelir.
  • Analiz ve Karşılaştırma Güçlükleri: Kategorik değerlerin sıralanmasının olmaması, veriyi analiz ederken kesim kalitesi gibi kategorileri karşılaştırmayı ve yorumlamayı zorlaştırabilir. Örneğin, en düşük kaliteli kesim ile en yüksek kaliteli kesimi yan yana getirerek karşılaştırmak istediğinizde, sırasız kategorilerle bu karşılaştırma daha karmaşık hale gelir.
  • İstatistiksel Analiz Eksikliği: Kategorik verilerin sıralamasının olmaması, bazı istatistiksel analizleri zorlaştırabilir veya anlamını değiştirebilir. Örneğin, medyan (ortanca) değeri sıralı bir kategori setinde anlamlı bir istatistiksel anlam taşıyabilirken, sırasız bir kategori setinde bu anlamı kaybedebilir.

Sonuç olarak, CategoricalDtype kullanmadan kategorik verilerin sıralamasının eksik olması, veriyi analiz etmek, görselleştirmek ve yorumlamak açısından zorluklara neden olabilir. Kategorik verileri sıralı bir şekilde temsil etmek, veriyi daha anlamlı ve anlaşılır hale getirebilir.

Kategori Pandas, Python
16.08.2023
58 Okunma

Groupby() yöntemiyle ilgili daha detaylı örnekler

Bu örneklerde, farklı groupby() senaryolarını görebilirsiniz:

  1. groupby() ile takımlara göre ortalama maaşları hesaplama.
  2. groupby() ile takımlara göre toplam maaşları hesaplama.
  3. groupby() ile takımlara göre en yaşlı oyuncuyu seçme.
  4. Birden fazla sütuna göre gruplayarak istatistiksel hesaplamalar yapma.

Bu örnekler, groupby() yöntemini daha iyi anlamanıza yardımcı olacaktır. Bu yöntem sayesinde verileri belirli bir sütuna göre gruplayarak gruplar üzerinde çeşitli analizler ve işlemler yapabilirsiniz.

Kategori Pandas, Python
11.08.2023
58 Okunma

Pandas ile Merge Fonksiyonu

Pandas’ın merge() yöntemi, farklı DataFrame’leri birleştirmek veya ilişkilendirmek için kullanılır. merge() yöntemi, SQL’deki JOIN işleminin benzerini yapmanıza yardımcı olur. İki veya daha fazla DataFrame’i birleştirerek yeni bir DataFrame oluşturabilirsiniz. İşte merge() yönteminin kullanımına dair birkaç örnek:

Örnek Veriler:

1. Inner Merge (İç Birleştirme):

İki DataFrame’de ortak bir sütun üzerinde iç birleştirme yapabilirsiniz. Ortak sütunun değerlerine göre uyumlu satırları birleştirir.

 

2. Left Merge (Sol Birleştirme):

Sol DataFrame’deki tüm satırları korur ve sağ DataFrame’deki uyumlu satırları ekler.

 

3. Right Merge (Sağ Birleştirme):

Sağ DataFrame’deki tüm satırları korur ve sol DataFrame’deki uyumlu satırları ekler.

 

4. Outer Merge (Dış Birleştirme):

Her iki DataFrame’deki tüm satırları korur. Ortak sütun değerleri olmayan yerlerde NaN değerler ekler.

Bu örneklerde, farklı how parametreleriyle merge() yöntemini nasıl kullanabileceğinizi gösterdim. Her bir yöntem, DataFrame’leri belirli bir şekilde birleştirir ve sonucunda yeni bir DataFrame oluşturur.

Kategori Pandas, Python
11.08.2023
62 Okunma

Pandas DataFrame üzerinde drop() ve inplace parametresi

Pandas DataFrame üzerinde veri sütunlarını veya satırlarını silmek için drop() yöntemini kullanabilirsiniz. inplace parametresi de bu işlemi DataFrame’i değiştirip değiştirmediğinizi kontrol eder. İşte bu konseptleri açıklayan detaylar:

drop() Yöntemi: drop() yöntemi, belirli bir veya birden fazla sütunu veya satırı DataFrame’den kaldırmak için kullanılır. Varsayılan olarak, bu yöntem kaldırılan sütunları veya satırları içermeyen yeni bir DataFrame döndürür.

Örnek:

Bir satırı silmek için:

 

inplace Parametresi: inplace parametresi, bir işlemi DataFrame’i değiştirip değiştirmediğinizi belirler. Varsayılan olarak inplace=False olarak ayarlıdır, bu da drop() işlemi sonucunu yeni bir DataFrame olarak döndürür. Eğer inplace=True olarak ayarlanırsa, işlem DataFrame’i değiştirir ve ayrı bir dönüş değeri üretmez.

Örnek:

inplace=True kullanırken dikkatli olun, çünkü bu işlem mevcut DataFrame’inizi değiştirir ve herhangi bir geri alma işlemi yapmadan veriyi kalıcı olarak değiştirir.

Yani, drop() yöntemi ile bir DataFrame’den sütun veya satır kaldırırken, inplace parametresini nasıl kullanmanız gerektiğini ihtiyacınıza göre ayarlamalısınız.

Kategori Pandas, Python
10.08.2023
65 Okunma