Nástroje pro pokročilou práci s daty

Získání opravdu užitečných informací, které se skrývají ve vašich datech, není vždy úplně jednoduché. Data je často třeba transformovat či propojovat z různých zdrojů, k čemuž Excel nestačí. Jaké nástroje vám tedy pomohou?

Spolu s rozšiřujícím se chápáním znalostí jako důležitého zdroje konkurenční výhody podniku roste také význam podnikových dat. Znalosti jsou totiž formovány mimo jiné z informací, které jsou zaznamenávány a uchovávány v datech. Získání těch opravdu zajímavých informací z dat není ovšem žádná banalita. Můžeme při tom narazit na řadu komplikací, jakými jsou nízká datová kvalita nebo takzvané „rozesetí“ dat mezi různými systémy, aplikacemi či nástroji.

Kvůli jednodušší práci s daty a snadnější dostupnosti vznikají datové sklady zvané data warehouses, do kterých jsou za pomoci ETL pump (Extract, Transformation, Load) data z různých zdrojů transformována a nahrávána. Využití ETL nástrojů ale nesouvisí pouze s datovými sklady, lze je využít i pro jednorázovou transformaci dat, která mnohdy musí předcházet jednorázovým datovým analýzám. Mimo to mohou též poskytovat funkcionality pro predikční analytiku.

4 nástroje pro získání užitečných informací

Níže popisujeme čtyři vybrané nástroje, z nichž dva jsou placené a další dva mají základní licenci k dispozici zdarma. Účelem tohoto článku ale není vybrat ten „nejlepší“ nástroj, protože to objektivně ani není možné. Záleží totiž zejména na požadavcích a případném rozpočtu.

Uvedený výčet nástrojů není rozhodně kompletní, ale autor článku vybral čtyři, se kterými má nejvíce zkušeností. Popis jednotlivých nástrojů by měl sloužit zejména jako přehled s poukázáním na zajímavé funkce, případně na nedostatky daného nástroje.

Nástroje jsou popsány ze tří pohledů:

  • Napojení na datové zdroje – Každý nástroj umožňuje napojení na různé datové zdroje, jakými jsou například nástroje, aplikace a databáze, přičemž schopnost načíst data z lokálních souborů (.csv, .xls) je považována za samozřejmost. V prostředí e-commerce nás ale zajímá rovněž napojení na nástroje webové analytiky, jako jsou Google Analytics nebo Adobe Analytics.
  • Možnost práce s daty – Podobně jako u napojení na datové zdroje i v případě práce s daty je řada operací považována za základní, a ty by každý z nástrojů tohoto typu měl bez problémů zvládat, například spojování tabulek, agregace dat či filtrace. V určitých speciálních případech však můžeme chtít dělat složitější transformace, jako doplňovat hodnoty do tabulek na základě hodnoty v buňce, která je v úplně jiném řádku a sloupci – kupříkladu očíslovat pořadí objednávek každého zákazníka.
  • Cenová politika – Každý z uvedených nástrojů má specificky nastavenou cenovou politiku. Některé nabízejí možnost vyzkoušet si po určitou dobu (14 nebo 30 dní) nástroj zdarma, další pak umožňují využívat ořezanou verzi nástroje po neomezenou dobu.

 Alteryxalteryx

Současná verze: 10.5

Napojení na datové zdroje

Kromě možnosti načítat data z lokálních souborů umožňuje Alteryx napojení na datové systémy pomocí standardizovaných API (například ODBC, OleDB, Oracle). Důležité jsou i konektory na konkrétní nástroje, jako jsou Google Analytics, SalesForce či Twitter. Zajímavá je možnost načítat data z map.

Možnosti při práci s daty

Z popisovaných nástrojů disponuje Alteryx asi největší a nejkomplexnější škálou operátorů pro manipulaci s daty. Kromě obecných operátorů (spojování tabulek, agregace a podobně) je zde například možno v rámci workflow odeslat e-mail či vytvořit formulář, který na základě interakce s uživatelem řídí průběh a výsledek workflow a zapsání R scriptů. Velice praktická je též možnost průběžné vizualizace workflow pomocí grafů nebo zobrazení čistých dat v tabulce. Jedná se v podstatě o kontrolní mezivýpočty, hodící se zejména v případě, kdy na výstupu vychází úplně jiný výsledek než ten očekávaný (například prázdná tabulka). Najdeme zde i řadu operátorů pro prediktivní analytiku, jako jsou například rozhodovací stromy či neuronové sítě.

Cenová politika

Alteryx si je možné vyzkoušet v rámci 14denního trialu. Poté je nezbytné, pokud chceme nástroj dále využívat, okamžitě přejít na placenou verzi. Nejzákladnější verze vyjde na 5 194 USD ročně, případně 3 995 USD na rok při platbě na 3 roky dopředu, a to pro jednoho uživatele. Nutno podotknout, že tato verze neumožňuje nastavení automatického spouštění transformací (workflow), a není tak možné v pravidelných intervalech přenášet data z jednoho systému do druhého. Pro tuto funkcionalitu je nezbytné minimálně dokoupit licenci na „add-on“ za 6 500 USD ročně (respektive 5 000 USD). Podrobnější informace o licencích a cenách najdete zde.

obrazek 1

Obrázek 1 – Uživatelské prostředí Alteryx

Obrázek 1 – Uživatelské prostředí Alteryx

knimeKNIME

Současná verze: 3.1.1

Napojení na datové zdroje

KNIME splňuje požadavek na základní možnosti připojení k datovým zdrojům (.csv, .xls, databázové systémy). Určitě zajímavé je také napojení na Google Analytics a Twitter (posty, retweety, uživatelé, síť followerů a tak dále). Napojení na další konkrétní nástroje je již nutné přes speciální operátor, což už je ale o poznání komplikovanější. KNIME též podporuje načítání dat z XML či JSON.

Možnosti při práci s daty

Kromě základních operátorů pro transformaci dat obsahuje KNIME i operátory pro vytváření statistických a prediktivních modelů, i když možnosti jsou zde oproti nástrojům Alteryx a SPSS Modeler omezené. Na druhou stranu nabízí řadu operátorů, které v ostatních nástrojích nenajdeme, jako například odchycení chyby během probíhajícího workflow. Případné chybějící funkcionality operátorů je možné si doprogramovat v R, Javě nebo Pythonu. Podobně jako Alteryx i KNIME umožňuje prohlížet mezivýpočty, tedy stav dat na výstupu operátoru.

Cenová politika

Základní verze KNIME je open source a zdarma. Tato open source verze nabízí veškeré operátory, na rozdíl od níže zmíněného RapidMineru. Vyšší zpoplatněné verze umožňují sofistikovanější práci s takzvanými „metanodes“ (skupina vzájemně provázaných operátorů), rozšíření pro spolupráci v týmu a možnost automatického spouštění workflow. Podrobnější informace jsou uvedené na stránkách poskytovatele.

obrazek 2

Obrázek 2 – Uživatelské prostředí KNIME

rapidminerRapidMiner

Současná verze: 7.1

Napojení na datové zdroje

RapidMiner umí načíst základní datové zdroje a disponuje konektory na SalesForce a Twitter, avšak dosáhne na méně dat než KNIME. Je zde ovšem omezení v závislosti na licenci (zdarma X placená), viz cenová politika níže.

Možnosti při práci s daty

Stejně jako v případě ostatních uvedených nástrojů i RapidMiner obsahuje operátory pro základní transformaci dat, včetně některých pokročilých možností. Pokud RapidMiner nedisponuje operátorem s požadovanou funkcí, je možné si jej napsat přímo v jeho rozhraní, a to buď v R, nebo Javě. Pro kontrolu postupu transformace dat je zde přítomná funkce debuggeru, která se mírně podobá java debuggeru, ale kontrolují se pouze výsledky na výstupu nebo vstupu operátoru, na kterém je debugger nastaven.

Cenová politika

RapidMiner je v základní verzi k dispozici zdarma. Jeho jádro je navíc open-source. Při využívání bezplatné verze je uživatel limitován zejména z pohledu množství operátorů, které jsou k dispozici, ve většině případů se jedná o propojení s datovými zdroji. V základní verzi tak není možné připojit se například do Google Analytics nebo k MS SQL Serveru. Součástí placené verze je rovněž možnost automatizace workflow, která se v RapidMineru nazývá „Process“. Cena za vyšší verzi je věcí dohody s poskytovatelem a není obecně veřejně uváděna. Rozdíly mezi placenou a free verzí jsou uvedeny zde

obrazek 3

Obrázek 3 – Uživatelské prostředí RapidMineru

SPSS ModelerSPSS modeler

Současná verze: 15

Napojení na datové zdroje

Modeler, stejně jako všechny uvedené nástroje, dokáže načíst data z lokálních tabulkových souborů (.csv, .xls) a databázových systémů. Kromě toho zvládne načíst i geoprostorová data. Napojení na konkrétní aplikace je připraveno pouze pro některé IBM produkty, například Cognos a SPSS Statistics.

Možnosti při práci s daty

Přítomny jsou základní transformační operátory a bohatá nabídka operátorů pro vytváření statistických a prediktivních modelů. Modeler nicméně dál neobsahuje větší množství operátorů pro pokročilejší transformaci dat, ty si je ovšem možné doscriptovat pomocí R nebo Pythonu.

Cenová politika

SPSS Modeler si lze vyzkoušet zdarma po 30 dní v rámci trialu. Nejlevnější licence poté stojí 4 371 EUR na jeden rok pro jednoho uživatele. Podrobnější ceník je uveden na stránkách IBM.

obrazek 4

Obrázek 4 – Uživatelské prostředí SPSS Modeler

Výběr je ještě širší

Nástrojů pro pokročilou práci s daty je celá řada a v tomto článku byli stručně popsáni jejich čtyři zástupci. Alteryx je z rozebíraných ETL nástrojů asi ten nejkomplexnější, ale za vysokou cenu. KNIME představuje velice slušnou alternativu, která je v základu zdarma, a navíc obsahuje všechny potřebné operátory (případně umožňuje doprogramování). Podobně je na tom i RapidMiner, který má ale oproti KNIME v základní verzi, která je taktéž zdarma, značná omezení. SPSS Modeler je nejméně univerzální z popisovaných ETL nástrojů. Je na něm vidět, že hodně cílí na interakci s nástroji IBM. I přesto je rozhodně použitelný i v systému, kde se IBM nástroje nevyskytují, a to díky masivním možnostem v predikčním a statistickém modelování.

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Štítky: