Cos'è Big Data?


Benvenuti nel mondo dei grandi dati !!! Oggi la parola "Big Data" è diventato uno slogan in internet e ovunque in IT sector.In questo articolo tratterà il seguente argomento.

1) Quali sono i dati?




2) ciò che è Big Data?

3) Qual è il modo tradizionale di archiviare e recuperare dati?

4) Perché Big Data?


Quali sono i dati?

I dati sono pezzi discreti di informazioni, di solito formattati in modo speciale. Tutto il software è diviso in due categorie generali: dati e programmi. I programmi sono insiemi di istruzioni per manipolare i dati.

Possono esistere dati in varie forme - come numeri o testo, come immagini o video, etc.

In genere queste informazioni è gestibile e facile da memorizzare e recuperare i database.


Cos'è Big Data?

Big Data è un qualsiasi insieme di dati che non possono essere trattate, o (in alcuni casi) memorizzati utilizzando le risorse di una singola macchina per soddisfare gli accordi sui livelli di servizio (SLA) necessari. L'ultima parte di questa definizione è cruciale. Scale può trattare tutti i dati in una sola macchina. Anche i dati che non possono essere memorizzati su una singola macchina può essere effettuata in una macchina con la lettura di uno storage condiviso come mezzo di network attached storage (NAS). Tuttavia, la quantità di tempo richiesto per elaborare tali dati sarebbe proibitivo grande rispetto al tempo disponibile per l'elaborazione dei dati.

Complessivamente, Big Data è niente di speciale rispetto ai dati comuni, ma unica eccezione è che è difficile da immagazzinare, recuperare e processo.

Quale modo istraditional per memorizzare e recuperare i dati?

Prima che i dati Big concetto dati memorizzati nel database come Oracle, MySQL, ecc cosicché riga e colonna. Anche prima di questo tipo di database relazionali, i dati vengono memorizzati come file di testo semplice, che è molto difficile da elaborare e gestire dati senza ridondanza.

Perché Big Data?

Si consideri un semplice esempio. Se la dimensione media del lavoro di un ramo d'azienda è di 200 GB, supponiamo potete leggere circa 50 MB al secondo. Data l'assunzione di 50 MB al secondo, abbiamo bisogno di 2 secondi per leggere 100 MB di disco di dati di sequenza, e ci vorrebbero circa 1 ora per leggere l'intero 200 GB di dati. Ora immaginate che questi dati devono essere trattati in meno di 5 minuti. Se richiesto dal lavoro 200GB potrebbe uniformemente distribuito a 100 nodi, e ogni nodo in grado di elaborare i dati (si consideri un caso d'uso semplificata selezionare solo un sottoinsieme di dati sulla base di un semplice criterio: SALES_YEAR> 2.001), che riflette il tempo necessario per eseguire i risultati di elaborazione della CPU 100 e uniscono nodi, la trasformazione globale può essere completato in meno di 1 minuto.

Pertanto, questo è il motivo per cui l'industria sta muovendo verso trattamento tradizionale elaborazione parallela Big dati.


Grazie. Il mio prossimo articolo su come iniziare a lavorare framework Hadoop.

(0)
(0)

Commenti - 0

Non ci sono commenti

Aggiungi un commento

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Caratteri rimanenti: 3000
captcha