New leading tools in Analytics and Machine Learning

2018/ 13/12

Melyek az adatelemzők körében legnépszerűbb eszközök? Mi a különbség az R és a Python között? Cikkünkből megismerheted a data science terület legizgalmasabb kérdéseire adott válaszokat.

Adatelemzés

Annak ellenére, hogy az Excel és a hozzá hasonló adatelemző szoftverek rendkívül hasznosak, mindegyiknek megvan a maga hátránya. Az Excel-nek például meggyűlik a baja a hatalmas adattömegekkel. Más professzionális program vagy túlságosan drága, vagy nem áll mögötte egy lelkes, a nyelv, illetve a program fejlődéséért és előrehaladásáért sokat megtevő közösség.

Két dudás nem fér meg egy csárdában, szokták mondani. Erre most mégis rácáfolnánk. Az R és a Python napjaink két legismertebb és az elemzők által leginkább használt programozási nyelve. Az elmúlt években egyre inkább vezető szerepet töltöttek be az elemzői, programozási iparágakban, ahogy azt a mellékelt ábra is mutatja (Fig 1).

Analytics, Data Science, Machine Learning top tools

Az R egy vezető programozási nyelv, amely lehetővé teszi felhasználói számára, hogy különböző statisztikai számításokat, kimutatásokat, grafikonokat készíthessenek. A nyelvet előszeretettel használják cégek is, mivel könnyen letölthető plug-in-ek színes választékából lehet válogatni, és ha el is akadna valahol a felhasználó, számos forrásból szerezhet tudomást a "hogyan-továbbról".

A Python egy általános célú, magas szintű programozási nyelv, mint a C++ vagy a Java, annyi különbséggel, hogy lényegesen könnyebben elsajátítható. Ez a nyelv mindenre kiterjedő könyvtárral rendelkezik, ahol olyan területekhez készítettek külön bővítményeket, mint a matematika, a statisztika vagy a gépi tanulás.

De mégis minek köszönhető a mindent elsöprő népszerűségük, és hogy mind a szakmai berkekben, mind az átlagos felhasználók körében osztatlan a sikerük? Miért használják többek között olyan óriáscégek is, mint a Google, a Facebook, az IBM vagy a Mozilla?

Ezt vesszük most közelebbről szemügyre!

Nem csak ingyenes, de open source is

Az R és a Python is ingyenesen letölthető, de a szabad forráskódjuk teszi igazán vonzóvá őket. Így a kód szabadon másolható és módosítható, lelkes fejlesztők százai együttműködésének a terméke. Nagyon magas technikai színvonal a jellemzőjük.

Platformfüggetlen

Bármilyen operációs rendszeren futnak. Akár Mac-en, akár Windows-on is, de még Linux-on is, hogy csak a legnépszerűbbeket említsük.

Más programozási nyelveket (C/C++, Java) és különböző adatforrásokat is tudnak kezelni, beleértve az ODBC-adatforrásokat (Excel, Access), vagy más típusúakat, mint a PostgreSQL és egyéb statisztikai csomagokat (SAS, Stata, SPSS, Minitab).

Fejlett vizualizáció

A cikk középpontjában álló nyelvek remek adatvizualizációs eszközökkel rendelkeznek, ami nem elhanyagolható szempont a vállalatok számára. Elég, ha csak a különböző üzleti jelentésekre, kimutatásokra gondolunk.

Az R és a Python is magasszintű grafikai lehetőségeket kínál, és lehetővé teszi felhasználóinak, hogy kreatív ábrákat készíthessenek, többek között hisztogramokat, pontdiagramokat, stb. Ezek az ábrák könnyen testre szabhatók és interaktívvá tehetők.

E tekintetben az R kicsit a versenytársa előtt jár az olyan kiegészítő csomagoknak köszönhetően, mint a ggplot2 vagy a lattice, amelyek új szintre emelik az adatmegjelenítést.

Piacvezetők

A Python-nak figyelemre méltó bővítményei vannak a gépi tanulás és a deep learning területén, főleg annak köszönhetően, hogy számos informatikus inkább ezt használja. Emiatt az említett terület könyvtárai fejlettebbek, támogatottabbak, mint az R hasonló csomagjai. Ha elköteleződik valaki e területek mellett, érdemesebb a Python-ra támaszkodnia.

Az R, másrészről, inkább a hagyományos értelemben vett statisztikusok, illetve az adatelemzők kedvence. Emiatt több eszköz áll ennek a nyelvnek a felhasználói részére a statisztika területén. Köszönhetően az aktív közösségnek - amelynek számos, a saját területén szakértő is a része -  a legtöbb új statisztikai modell, megközelítés vagy technika korábban válik elérhetővé az R-ben, mint máshol.

Összegzés

Ha nem tudod eldönteni, hogy melyik nyelv mellett tedd le a voksod, nyugtasson meg az a gondolat, hogy aligha lehet rosszul dönteni. Többségében mind a két nyelv hasonló területeken alkalmazható, mégis jól megférnek egymás mellett, más a felhasználói bázisuk.

Dióhéjban: a Python hasznosabb, ha adatmanipulációra, ismételt feladatokra kerülne sor, és megjegyzendő, hogy talán könnyebben megtanulható. Míg az R piacvezető a statisztikai elemzések területén, illetve tökéletes választás, ha még magunk sem tudjuk, mihez kezdjünk egy adathalmazzal.

 

Forrás: KDnuggets

Try our AI-based speech recognition application for free!

Speed ​​up your work with artificial intelligence! With the help of Alrite, you can easily create Hungarian transcriptions and video captions for dictated or previously recorded audio and video materials. The application offers the ability to store files, edit and share transcriptions and captions, and perform advanced search options.

More information