Veri, Bilim, Mühendislik ve Meslek
tarafından Francisco Ruiz y mario piattini (Üniversite Profesörleri).
Santa Barbara'yı sadece gök gürlediğinde hatırladığımızı söylüyorlar. Bu, neredeyse tüm ülkelerde olduğu gibi İspanya'da da, COVID salgınının başlangıcında hükümetlerin durumu anlamak ve daha bilinçli kararlar almak için yeterli veriye sahip olamadığı zamanlarda belirgindi. Yetkililerin kendilerine verileri uygun biçimde ve zamanda sağlayan sistemlere sahip olmaya başlaması için birkaç ay geçmesi gerekti. Yine de güvenilirliği ve doğruluğu geniş çapta kabul görmemiştir.
Veri, Bilgi ve Bilgi Genellikle eşanlamlı olarak kullanılırlar, ancak değildirler. Veri ham değerlerdir, ham maddedir. Bir bağlamda çerçevelendiklerinde bilgi olarak adlandırılırlar. Son olarak, bilgi, belirli amaçlar için yararlı olan bir biçim ve bağlamdaki bilgidir. Örneğin, "195" ham veridir, "Luis 195 cm" bilgidir ve "Luis 195 cm olduğu için uzun bir kişidir" bilgidir.
Veriler, onlardan yeni bilgi üretmek ve/veya daha iyi kararlar almak için yararlı olabilir ve böylece maliyetleri optimize edebilir, vatandaşlara daha iyi hizmetler sunabilir, kullanıcılarımızın veya müşterilerimizin ilgi ve ihtiyaçlarına daha iyi hizmet edebilir veya "içeride geliştirebilir." böylece dışarıdan fark edilir” (süreç iyileştirme). Son yıllarda, bilgi teknolojisinin gelişmesi sayesinde bu ilgi, verilerin bireyler, kuruluşlar veya ülkeler için bir tür yeni zenginlik kaynağı olarak kabul edildiği noktaya kadar büyüdü. Toplanması ve analizi, bir salgınla daha etkili bir şekilde mücadele etmek, uygun önlemleri almak için her şehir ve bölgedeki hava kalitesini bilmek veya önlemler alabilmek için trafik durumunu gerçek zamanlı olarak bilmek gibi yeni keşifler ve faydalı değişiklikler elde etmenin anahtarıdır. trafik sıkışıklığını hızla önleyin veya azaltın. Olasılıklar sonsuzdur, ancak bunların arasında potansiyel olarak olumsuz sonuçlara sahip olanlar da vardır. Bu nedenle Veri uzmanları, güçlü bir sorumluluk duygusu ve profesyonel etik ile aşılanmalıdır.
Verinin Bilimi ve Mühendisliği vardır, ancak tanımı konusunda bir fikir birliği yoktur. Veri Bilimi ve bu nedenle, ne kendi sınırları içinde Veri Mühendisliği.
Açıklığa kavuşturmak için, prestijli bir Macar-Amerikalı fizikçi ve mühendis olan Theodore von Kármán'ın sözlerini alıyoruz: "lbilim adamları dünyayı olduğu gibi incelerken, mühendisler daha önce hiç olmayan bir dünyayı yaratırlar. Başka bir deyişle, Bilimin amacı gerçeği bilmek, mühendisliğin amacı ise yeni teknolojik eserler yaratarak onu değiştirmektir. Fiziksel dünyaya uygulandığında, evrenin kara deliklerini incelemenin Bilim olduğunu, onları incelemek için teleskop tasarlamanın ve inşa etmenin ise Mühendislik olduğunu çıkarabiliriz. Benzer şekilde, Veriye uygulandığında, Veri Biliminin verilerden yeni bilgiler elde etmeye, Veri Mühendisliğinin ise verileri kullanarak gerçekliği değiştirmeye çalıştığını çıkarabiliriz. Daha ayrıntılı ve sınırlı bir tanım "Veri Yönetimine İlişkin Bilgi Tümü"nde bulunabilir (Veri Yönetimi Bilgi Grubu), DAMA tarafından hazırlanan (https://www.dama.org), uluslararası veri yönetimi profesyonelleri derneği. DAMA, Veri Bilimini geleceği tahmin etmeye çalışmakla ilişkilendirir ve onu "verilerde bulunan kalıpları araştıran tahmine dayalı modeller oluşturmak" olarak tanımlar. Ve bunun için "veri madenciliği, istatistiksel analiz ve makine öğrenimini veri entegrasyonu ve modelleme yetenekleriyle birleştirir" ve "hipotezleri formüle edip doğrulayarak, sonuçları gözlemleyerek ve sonuçları açıklayan genel teorileri formüle ederek bilgiyi geliştirmek için bilimsel yöntemi izler".
Gerçek hayatta, Veri Bilimi ve Mühendisliğin amaçları genellikle birbirinden ayrılamaz, çünkü verilerden yeni bilgiler elde etmek (Bilim) için öncelikle bunları uygun şekilde depolayan ve işleyen teknolojik sistemler tasarlamak ve oluşturmak gerekir (Mühendislik).
Aynı kişinin bazen Veri Bilimi ve diğer Veri Mühendisliği yaptığı bile sık görülür. Bu sebeple bahsetmek daha uygundur.Veri Bilimi ve MühendisliğiBilgi teknolojisi (BT) sayesinde Veriden değer elde etmeye odaklanan disiplin olarak her ikisi de dahil.
Verilerden yararlanabilmek için, çeşitli bilgi ve beceriler. Ne olduklarını bilmek için ana uluslararası referans ACM önerisidir (Bilgisayar Makineleri Derneği, bilgi işlem alanındaki en prestijli uluslararası dernek), "Lisans Veri Bilimi Müfredatı için Bilgi İşlem Yeterlilikleri" (uygun https://www.acm.org/education/curricula-recommendations). Aşağıdaki on bir bilgi ve yeterlilik alanını tanımlar (orijinal kısaltmaları İngilizce olarak bırakıyoruz): Verilerin analizi ve sunumu (AP); Yapay Zeka (AI); Büyük Veri Sistemleri (BDS); Bilgisayar ve Bilişimin Temelleri (CCF); Veri toplama, yönetim ve yönetişim (DG); Veri Madenciliği (DM); Veri güvenliği için gizlilik, güvenlik, bütünlük ve analiz (DP); Makine Öğrenimi (ML); Profesyonellik (PR); Programlama, veri yapıları ve algoritmalar (PDA); ve Yazılım geliştirme ve bakım (SDM). Bazıları Bilgi İşlem ve BT içindeki diğer disiplinlerde ortaktır. Diğerleri, verilerin Analizi ve sunumu örneğinde olduğu gibi, özellikle Veri Bilimi ve Mühendisliği alanındaki profesyonellerin sorumluluklarına odaklanır; Büyük Veri Sistemleri; Veri toplama, yönetim ve yönetişim; ve Veri Madenciliği.
Diğer bir ilgili kaynak, veri yönetimine (Veri Mühendisliğinin bir parçası) odaklanan bir yaklaşım sağlayan, yukarıda belirtilen DAMA derneğidir. Tanımladığınız ilgili bilgi ve yeterlilikler, Şekil 1'de gösterilen alanlarda gruplandırılmıştır.
CEPIS (Council of European Professional Informatics Societies), iyi bir profesyonelin diğer insanlara değer katabilmek için bilgi, beceri, eğitim, sorumluluk ve etiği birleştiren kişi olduğunu belirler.
Yukarıdaki iki beceri ve bilgi derlemesi, sınırları belirlemek için iyi bir başlangıç noktasıdır. Veri Bilimi ve Mühendisliği mesleği, amacı verilerden değer çıkarmak olan. Bu nedenle, bu disiplindeki bir profesyonelin değeri, diğer insanlar ve kuruluşlar veya genel olarak toplum için verilerden değer elde etme yetenekleriyle ölçülmelidir. Bu değere ulaşmak için, veri uzmanları, nihai sonucu genellikle verilerin görselleştirilmesine, analiz edilmesine ve bunlardan yeni bilgiler çıkarılabilmesine olanak tanıyan bilgi sistemlerinin oluşturulması olan çabalar ve projeler yürütür. Bu projeler genellikle Şekil 2'de gösterilen aşamalarda gerçekleştirilir.
Bir projenin çeşitli aşamaları boyunca uzmanlar, Veri ve Bilgileri dört farklı seviyede ele alır; Şekil 3'te COVID salgınından alınan verilerle ilgili bir örnekle gösterilmiştir. Ham operasyonel verilerden başlar (her bir bölgede her gün vaka ve ölüm sayısı). Ardından, verileri analiz etmek için boyutları belirlemeniz gerekir; örneğin zamana (ne zaman), bölgeye (nerede olur) ve önem düzeyine (ne olur) göre. Bu, verilerin her bir analiz boyutu için uygun ayrıntı seviyelerinde gruplandırılması için verilerin işlenmesini (genellikle belirli algoritmaları uygulayan yazılım araçları kullanılarak) gerektirir. Örneğin, zamana göre, günlere, haftalara ve aylara göre veya bölgesel konum söz konusu olduğunda yerleşim yerlerine, illere ve özerk topluluklara göre. Bu birleştirilmiş verilerden gerektiği şekilde karar vermeye yönelik ilgili göstergeleri hesaplamaya devam edebiliriz, örneğin her ilde her hafta kümülatif insidans (100 kişi başına düşen vaka sayısı). Son olarak, göstergelerin ve diğer verilerin değerleri, karar verme için verilerin görselleştirilmesini ve analiz edilmesini kolaylaştıran bilgi sistemleri ("gösterge panoları" ve diğer türler) aracılığıyla genellikle bilgisayar olmayanlara sağlanır. İçinde https://alarcos.esi.uclm.es/covid19esp/ Gerçek COVID verileriyle bir örnek gösterilmiştir.
Veri değerlendirme projelerindeki aşamaların bazı ilgili yönleri aşağıda sunulmuştur (Şekil 2).
Öncelikle ihtiyaçları bilmeniz gerekiyor. Bir Veri projesinde bu, tanımlamaya odaklanır neyi ölçmek ve nasıl ölçmek uygun şekilde ve bundan, bul kaynaklar bunun için gerekli Verileri nereden elde edebiliriz.
İkinci aşamada, Data ile çalışmanın önemli bir yönüne değinilir: onu bilgisayarlarda depolayabilmesi ve onunla istediğimiz her şeyi yapabilmesi için ona uygun bir yapı ve biçim vermek. "Bina planlarını doğru yapmak" bir inşaat projesi için ne kadar önemliyse, bu görev de bir Data projesinin başarısıyla o kadar ilgili olabilir. Bu konuda, genel mimari kavramı (ISO 42010 standardında tanımlanan) yararlıdır. Böylece 'veri mimarisiBunları ayırdığımız öğeleri veya bölmeleri (tablolar, dosyalar vb.) ve söz konusu öğeler arasındaki ilişkileri kurar. Ayrıca, her bölümün iç yapısını (hangi belirli verileri sakladığını) ve her belirli verinin türünü veya yapısını (sayı, tarih, metin, ses, video, belge,...) iyi tanımlamak gerekir. bu veri modelleme projenin ihtiyaçlarına uygun bir mimari ve veri yapısı ile 'planların oluşturulması'ndan oluşur. Bu planlar varlık-ilişki, ilişkisel veya çok boyutlu şemalar şeklinde ifade edilebilir.
Ham verilerden analiz için hazırlanan verilere geçmek oldukça karmaşık bir görev olabilir. Bu, insan tüketimine uygun hale gelebilmesi için çıktığı kaynaktan itibaren çeşitli dönüşümlere uğraması ve farklı türde boru ve boruların inşa edilmesi gereken suya benzer. Bu nedenle, net bir yapıya sahip (CSV, Excel vb.) Halihazırda mevcut olan bilgisayar dosyalarından orijinal verilerin tüm kaynaklarını belirlemek gerekir..) web veya sosyal ağlar gibi yapılandırılmamış biçimlerdeki verilere. bu ETL süreçleriayıklamak, dönüştürmek ve yüklemek için şunlardan oluşur: i) orijinal kaynaklardan ham verilerin indirilmesi; ii) bunları uygun ve homojen formatlara ve yapılara dönüştürmek; ve iii) bunları bir havuza entegre edin veya Veri deposu, önceden oluşturulmuş veri mimarisine dayalı. ETL yapmak için geleneksel teknolojileri (SQL gibi) kullanabilirsiniz, ancak bunun için özel olarak tasarlanmış diğer teknolojileri (Power Query, Big Query vb.) kullanarak daha üretken olabilirsiniz. Son yıllarda bir alternatif, bir veri gölü (veri gölü). Bütünleşik bir veri deposu oluşturmaktan kaçınan ve bunun yerine orijinal biçimini koruyan ancak aynı bilgisayar sisteminde depolanan heterojen bir veri topluluğu ile değiştiren bir teknolojidir. Ortak ve entegre erişimi garanti etmek için, meta (veriler hakkında veriler).
Veri Bilimi ve Mühendisliği uzmanının, veri modellemeyle güçlü bir şekilde ilgili bir ihtiyacı, verilerin nasıl ele alınacağını bilmektir. teknoloji için hesaplama Verileri depolamak ve işlemek verimli ve etkili.
Onsuz, veri değerlendirme projelerinin üçüncü aşamasını gerçekleştirmek imkansızdır (Şekil 2). Yukarıda belirtilen veri havuzu iki tür teknoloji ile yapılabilir: veri yönetim sistemleri veritabanları (ORACLE, MySQL, vb. gibi geleneksel ilişkisel olanlar veya MongoDB gibi ilişkisel olmayanlar) ve büyük Veri (Hadoop, Elasticsearch, vb.). İkincisi, büyük miktarda veriyle çalışmak gerektiğinde öncekinin yerini alarak, Büyük Verinin 7 V'si olarak bilinen veri yönetimi zorluklarının ele alınmasına olanak tanır: hacim, hız, çeşitlilik, doğruluk, fizibilite, görselleştirme ve veri değeri. Genellikle Büyük Veri ile eşleştirilen başka bir seçenek, yukarıda belirtilen veri gölü teknolojileridir.
Depo veya eşdeğeri oluşturulduktan ve doldurulduktan sonra, dördüncü aşama, analiz ve görselleştirme yoluyla verilerden gerçekten değer çıkarıldığı zamandır. Bunun için öncelikle türlerini bilmek gerekiyor. Verilerin analizi Bu, cevaplamak istediğiniz soru türlerine bağlı olarak yapılabilir: tanımlayıcı (ne oldu?), tanı (Neden oldu?), tahmini (Bundan sonra ne olması muhtemel?) ve kuralcı (İzlenecek en iyi seçenek nedir?). Her analiz türü, bir tür matematiksel (istatistik, sayısal yöntemler) veya bilgisayar (makine öğrenimi, veri madenciliği, vb.) tekniklerine dayanır. Analiz türünü ve her durum için yararlı olan belirli teknikleri bilmek önemlidir, çünkü bunu yapmak için kullanabileceğimiz araçları belirleyecek olan şey budur. Örneğin, virüsün şehirlerde mi yoksa kırsal alanlarda daha fazla görülme sıklığının olup olmadığını öğrenmek için geleneksel temel istatistikler kullanılarak tanımlayıcı bir analiz yapılabilir. Bunun yerine, bir sonraki virüs dalgasının ne zaman ortaya çıkacağını bilmek için makine öğrenimi ve/veya veri madenciliği kullanabiliriz. Yürütülen analiz türlerine bağlı olarak, veri değerleme girişimleri arasında ayrım yapılabilir. Veri Bilimi projeleri o İş Zekası projeleri (Bİ, İş Zekası). İkincisinde 'iş' kelimesi, bir kuruluşun hedeflerine ulaşması için doğru olanı yapmak anlamına gelir. Tablo 1, aralarındaki temel farkları özetlemektedir. Projeler hem Veri Bilimi hem de İş Zekası olmak üzere çeşitli analiz türlerini birleştirdiğinden, bu ayrım genellikle gerçekte yoktur. İhtiyaçların ve analiz türlerinin önceden tam olarak bilinmediği veya projenin gelişimine bağlı olarak değiştiği de sıklıkla görülür.
Makine öğrenimiveya makine öğrenimi (makine öğrenme), verilerdeki kalıpları keşfetmek ve tahminler yapmak için kullanılan bir grup tekniktir. Karar ağaçları, doğrusal regresyon, kümeleme (kümeleme) ve diğerlerinin yanı sıra sinir ağları. Adını, sinir ağları söz konusu olduğunda, bazılarının insan beyninin nasıl öğrendiğini taklit etmeye dayanmasından alıyor. Gerçekleştirilmesini kolaylaştıracak TensorFlow, Cloud AutoML veya Azure ML gibi birçok yazılım aracı vardır.
Adı veri madenciliği geleneksel madencilikle benzerlik kanıtı. Gerçekten de, fiziksel madencilik, yerden muazzam miktarda toprağı işleyerek küçük ve değerli bir kısmı çıkarmak için teknikler kullanır ve ikincisi, büyük miktarda veriyi işleyerek değerli bilgileri çıkarır. Veri madenciliği için birden fazla teknoloji vardır. Bazıları, RapidMiner gibi özel araçlardır. R ve DAX gibi programlama dilleri de vardır. Python dili gibi diğerleri genel amaçlıdır. özel bir durum ise süreç madenciliği iş için çok alakalı, dönüştürmek dijital Bir kuruluşun iç süreçlerinde (satış, depolama, üretim, hasta bakımı vb.) meydana gelen ilgili her şeyi yansıtan verileri analiz ettiğinden ve bunlara dayanarak daha iyiye doğru değiştirecek bilgileri elde ettiğinden (analiz kuralcı) ) süreçleri yürütmenin yolu.
Veri analizini tamamlayıcı olarak, birçok proje uygun veri görselleştirmesini içerir (Şekil 3'te en üst sıra). bu Veri goruntuleme Karar vermekten sorumlu olanlara danışılmasını ve anlaşılmasını kolaylaştırarak değer katmak çok alakalı olabilir. Önceden tanımlanmış etkileşim kalıplarının kullanımı sayesinde kullanıcı arayüzünün oldukça görsel ve etkileşimli olduğu sistemler elde etmeyi mümkün kılan özel yazılım araçları vardır. Bu, Tableau veya Power BI gibi araçların durumudur (Şekil 4, bunların COVID verileriyle örnek oluşturmak için kullanımlarını göstermektedir). Power BI gibi bazı araçlar, kaynaklardan veri indirmekten çeşitli türlerde analiz ve görselleştirmeye kadar Veri projelerinin tüm aşamaları için olanaklar içerir. ABI platformları olarak bilinirler (Analitik ve İş Zekası).
Bir Veri projesi tamamlandığında (Şekil 2'deki tüm aşamalar tamamlandı), sömürü sonuçlarınızdan. Bu noktada Veri profesyonellerinin diğer bilgi ve becerileri devreye giriyor. Veriler oldukça değerli ve stratejik bir varlıktır ve bu nedenle, kuruluşun ihtiyaç duyduğu verilere, ne zaman, nasıl ve uygun kalite ve güvenlikle sahip olmasını sağlayacak uygulamaları hayata geçirmekle ilgilidir. bu Veri yönetimi bu kurumsal ihtiyaçları karşılama stratejisini oluşturur (örnek: kişisel verilerin korunmasına ilişkin Avrupa yönetmeliğine uyum) ve Veri yönetimi örneğin şirketin farklı departmanlarında izole edilmiş veri silolarından nasıl kaçınılacağı gibi bunlara uymak için somut uygulamalar uygulayın. Veri uzmanlarının her zaman akılda tutması gereken diğer hususlar şunlardır: kalite (doğruluk, kesinlik vb.), güvenlik bütünlük, gizlilik ve erişilebilirliğin tüm boyutlarıyla; ve Gizlilik kişisel veriler söz konusu olduğunda. Farklı değerlere sahip yinelenen veri olmadığından nasıl emin olabilirim? Her bir veriye kim erişebilir? o Veri kaybı risklerini nasıl ortadan kaldırır veya azaltırım? Bunlar, Veri uzmanları tarafından doğru bir şekilde yanıtlanması gereken sorulardır.
Veri odaklı bir projede gerekli olabilecek temel bilgisayar becerileri ve bilgilerini sunduk. Çok geniştirler ve aynı kişinin hepsini yeterli derinlikte toplaması zordur. Bu nedenle, ayarlamak uygun olabilir profesyonel profiller farklı. Normun yaptığı budur"Avrupa BİT Profesyonel Rol Profilleri"(https://itprofessionalism.org/about-it-professionalism/competences/ict-profiles/), Veri Bilimcisi (Veri Bilim Adamı), Veri Uzmanı (Veri Uzmanı) ve Veri Yöneticisi (Veri Yöneticisi). İlki, her şeyden önce veri analizine, ikincisi veri modelleme ve yönetişimin yönlerine ve üçüncüsü veri havuzlarının yönetimine ve bunların güvenliğine odaklanır.
Veri Bilimi ve Mühendisliği mesleğinde vurgulanması gereken son bir husus da şudur: projeler olabilirler multidisipliner. Bu makalede sunulan bilgi ve becerilere sahip profillere ek olarak, birçok projede başka profillere sahip olmak gerekir. bilgisayar dışı profiller, özellikle uygulama alanı uzmanları ve matematikçiler/istatistikçiler.
Jardines de Viveros etki alanı uzmanları uygulama alanı, verilerin uygulama alanını çok iyi bilen kişilerdir (örneğin halk sağlığı ve salgın hastalıklar uzmanları) ve bu nedenle neyin ölçüleceğini ve kararların hangi göstergelerle alınması gerektiğini iyi bilen kişilerdir. yapılacak. Projenin başlangıcındaki rolleri, ihtiyaçların belirlenmesinde ve mevcut veri kaynaklarının bilinmesinde kilit rol oynar. Öte yandan, bu alan uzmanları, Veri projelerinde geliştirilen sistemlerin gelecekteki kullanıcılarıdır ve bu nedenle, sonuçların doğrulanmasına katılmaları çok arzu edilir. bu matematiksel/istatistiksel sayısal nicel veriler için bazı analiz tekniklerine ilişkin daha derin bir bilgiyle katkıda bulunabilirler.
Verinin Bilimi ve Mühendisliği vardır. Sahip oldukları büyük önem, kuruluşlara ve topluma değer katan projeleri nasıl yürüteceğini bilen Veri Bilimi ve Mühendisliği alanında profesyoneller gerektirir.
Francisco Ruiz (francisco.ruizg@uclm.es)
Mario Piattini (Mario.piattini@uclm.es)