Veri bilimi, yapılandırılmış ve yapılandırılmamış verilerden bilgi ve öngörü elde etmek için bilimsel yöntemleri, süreçleri, algoritmaları ve sistemleri kullanan çok disiplinli bir alandır. Veri bilimi veri madenciliği ve büyük verilerle ilişkilidir.
Veri bilimi, “gerçek olayları verilerle anlamak ve analiz etmek” için “ istatistikleri, veri analizini, makine öğrenimini ve ilgili yöntemlerini birleştirmek için kullanılan bir kavramdır”.[Matematik, istatistik, bilgisayar bilimi ve bilgi bilimi bağlamından birçok teknik ve teori kullanır. Turing ödüllü Jim Gray, veri bilimini bir "dördüncü paradigma" bilimi (ampirik, teorik, hesaplamalı ve şimdi veri odaklı) olarak tanımlar. 2015 yılında Amerikan İstatistik Kurumu veritabanı yönetimi, istatistik ve makine öğrenimi ve dağıtılan ve paralel sistemleri üç temel meslek topluluğu olarak tanımladı.
Veri bilimi, bir dizi ilkeyi, çeşitli algoritmaları, olayları ve büyük veri kümelerinden gelen kullanışlı kalıpları ayıklamak için gerekli süreçleri kapsamaktadır. Bununla birlikte veri bilimi, bu süreçlerde; veri analizini, istatistikleri, makine öğrenmesi ve veri madenciliği gibi alanları ve bunlarla ilgili birçok yöntemi birleştirmek için kullanılan bir kavram olarak belirtilir.
Veri bilimi, makine öğrenmesi ve veri madenciliği kavramları sıklıkla birbirleri yerine kullanılmaktadır. Bu disiplinler arasındaki ortaklık, verilerin analizi yoluyla karar vermenin iyileştirilmesini sağlamaktır. Veri bilimi bu alanlardan beslenmekle birlikte, daha geniş bir kapsama alanına sahiptir. Makine öğrenmesi, veriden örüntü çıkarma algoritmalarının tasarımı ve değerlendirmesine de odaklanır. Veri madenciliği genellikle yapılandırılmış verilerin analizi ile ilgilenir ve ticari uygulamalara vurgu yapar. Veri bilimi ise, tüm bu hususları dikkate almaktadır.
Veri bilimi ile ilgili önemli bazı kavramlardan;
Yapılandırılmış veri, en basit anlamıyla bir Excel tablosu olarak düşünülebilir. Başka bir deyişle buradaki her bir sütundaki veri sütun başlığının içeriğine mutlaka uygun bir biçimde yapısı belli olan bir değer içerir. Yapılandırılmış verilerde girdi verileri, sayısal veya kategorik olan belirli bir değişkenler kümesi için veri noktalarından oluşur.
Yapılandırılmamış veriler, herhangi bir dilde yazılan metin, dil bilgisi kurallarına tabi olsa da yapılandırılmış verileri analiz ederken sahip olduğumuz açıkça tanımlanmış değerlerden yoksundur. Günümüzdeki verilerin çoğu yapılandırılmamış biçimdedir. Resim dosyaları, ses dosyaları, PDF dosyalar, Word gibi metin tabanlı dosyalar, elektronik postalar gibi veriler yapılandırılmamış biçimdeki verilerdir.
Diğer yandan, metin veri tabanlarında saklanan veriler, örneğin doküman başlığı, yazar isimleri, tarih, tür gibi bir kısım yapısal olan, ancak içerik gibi büyük oranda yapısal olmayan alanlar içerebilir. Bu durumda ise veri yarı yapılandırılmış bir hâl alır.
Veri analisti kavramı ise, iş dünyasına yapılandırılmış veri biçimi ile girmiştir. Görev tanımı, veri tabanlarından belirli araçlar yardımıyla sonuçlar üretmek ve bunları raporlamaktır. Veri bilimciler ise, artık büyük veri olarak adlandırılan veri kümesi ile birlikte yapılandırılmamış veri biçimi de organizasyonların veri tabanlarında yer almaktadır.[5] Günümüzde Facebook, Twitter gibi sosyal ağlar; Google, Yahoo gibi bazı portaller veri bilimcilerle çalışmaktadır. Veri bilimciler, farklı veri kaynaklarından beslenen büyük veri yönetimi için hipotezler kurup, bu hipotezlerin doğruluğu ya da yanlışlığını test etmek için araştırmalar yapar. Bu doğrultuda veri odaklı önemli uygulamalar geliştirirler.[6] Veri bilimciler, birçok disipline dayanan eşsiz bir beceri setine sahip olmalıdırlar. Sektörden gelen taleplere dayanarak yeni bir iş profili olarak "veri bilimci" ismi, çeşitli endüstriler arasında yaygın olarak farklılaşan bir biçimde ortaya çıkmıştır. Veri bilimcilerin beceri seti çok yönlüdür. Analitikler, veri yönetimi, sanat ve tasarım, girişimcilik, bilgisayar bilimi gibi alanlarda tecrübeyi içermektedir.
VERİ BİLİMİNİN TARİHİ
Veri biliminin istatistikle yakından bir ilişkisi söz konusudur. 20. yüzyılın önemli istatistikçilerinden birisi olan John W. Tukey, İstatistik matematiğine daha fazla odaklanıldığını ama verilerin analizi konusunda yeteri kadar odaklanılmadığını düşünmüş ve buna karşı bir hareket öngörmüştür. 1977 yılında Tukey, test etmek için ve hipotezler önermek için verilerin kullanılmasına daha fazla vurgu yapılması gerektiğini ve Keşifsel Veri Analizi ile Doğrulayıcı Veri Analizi'nin "yan yana ilerleyebileceğini ve ilerlemesi gerektiğini" savunarak Keşif Verileri Analizini yayınlamıştır.
"Veri Bilimi" kavramı günümüzde daha yaygın bir şekilde kullanılmaya başlanmıştır. Bu yaygın kullanımı sağlayan bazı kaynaklar vardır ve bu kaynaklarla birlikte kitlelerin erişimi de daha kolay hâle gelmiştir. Bunlardan ikisi; 2002'de Bilim ve Teknoloji Veri Komitesi tarafından başlatılan Data Science Journal ve Columbia Üniversitesi tarafından 2003 yılında başlatılan The Journal of Data Science'dır.
VERİ BİLİMİ SÜRECİ
İlgilenilen soruyu tanımla,
Veriyi elde et,
Veriyi ayıkla,
Veriyi kontrol et,
İstatistiksel modeller uydur,
Sonuçları duyur,
Analizi yeniden oluşturabilecek şekilde yap.
VERİ BİLİMİ GÖREVLERİ
Kümeleme
İlişkilendirme
Anomali Algılama
Tahmin
VERİ BİLİMİNİN UYGULANDIĞI BAZI ALANLAR
Sağlık Alanında
İşletme Alanınıda
Eğitim Alanında
Aslında aklınıza gelebilecek her yerde veri bilimi kullanılmaktadır.
Comments