TAG: apache

Apache Hadoop Nedir?

Hadoop, büyük hacimli, yapılandırılmış ve yapılandırılmamış verileri işlemek için kullanılan yüksek düzeyde ölçeklenebilir bir analiz platformudur . Büyük ölçekli derken, yüzlerce veya binlerce fiziksel depolama sunucusuna yayılmış petabytelarca veriyi kastediyoruz.

2005 yılında geliştirilen ve şimdi Apache Software Foundation altında yönetilen bir açık kaynak platformu olan Hadoop, büyük verileri birden fazla makinede saklar ve yönetir.

Hadoop içerisinde büyük verileri sakladığımız yapıya Hadoop Distributed File System (HDFS) denir .

İşleyiş şu şekilde ilerler;

  • Büyük verileri HDFS sistemine yüklediğimiz zaman , Hadoop bu verileri bloklara ayırır .

  • Farklı bloklara ayrılan veriler çoklanarak (kopyalanarak) farklı nodelara(serverlara, cihazlara) aktarılır. Bu çoklanarak saklama işleminin birincil sebebi ise nodelardan herhangi birisine zarar gelirse en az kayıpla krizi atlatmaktır.

HDFS, geleneksel anlamda bir dosya sistemi değildir ve genellikle bir kullanıcının görüntülemesi için direkt uygulanmaz (direkt görüntülemek için bazı araçlar mevcuttur), bu da bazen kavramın anlaşılmasını zorlaştırabilir; bu sebeple Hadoop’u veri deposu olarak düşünmek daha mantıklıdır.

Bu sistemin asıl can alıcı noktası veri analizi işlemini yapması ve maliyetini azaltmasıdır.

Peki hadoop verileri paralel olarak nasıl işler?

Bu işlemi yapan bileşenin adı MapReduce’dur. Veriler HDFS’ye işlendikten hemen sonra Map ve Reduce aşamaları işletilir. Bu aşamaları PHP, Java vs.. ile getiştirebilirsiniz.

Veri konusunda kaynakça olarak kullanabileceğimiz Buyukveri.co‘da bu işleme örnek olarak bir text dosyasının içerisindeki kelime sayısını bulan MapReduce programının incelemesi yapılmış. Alıntılayarak gösterelim.

MapReduce şu adımlardan oluşacaktır ;

  • Spliting : Veriler 64 MB lık bloklara ayrılır .
  • Mapping : Burada kelimeler key ve value şeklinde bölümlere ayrılır .
  • Shuffling : Map işleminden çıkan sonuçları Reducer’a yönlendirir . Amacımız word-count uygulaması oldugu için aynı kelime grubu aynı Reducer a yönlendirilir .
  • Reducing : Gelen sonuçlar üzerinden toplama işlemi yapılır ve sonuçlar belirlediğiniz kaynaklara yazılır.

Özetle yüksek trafikte akan bir veriniz olduğu zaman (Örnek günlük 10 milyon + ) verileri HDFS üzerinde saklayabilir ve MapReduce ile verilerinizi analiz edebilirsiniz .

Ek olarak eğitim ve üretim için Hadoop’u kullanan şirketlerin ve projelerin tam listesine şuradan ulaşabilirsiniz: PoweredBy – Hadoop

Daha eski bir yazı bulunmamaktadır..