Hjem Fremadrettet tænkning Big data: en udfordrende 'billion billion dollar'

Big data: en udfordrende 'billion billion dollar'

Video: Владимир Красильщик — Анти-введение в Big Data (StudentDay) (Oktober 2024)

Video: Владимир Красильщик — Анти-введение в Big Data (StudentDay) (Oktober 2024)
Anonim

En ting der imponerede mig på gårsdagens Bloomberg Enterprise Technology Summit var fokus på at håndtere data på nye måder - med andre ord at håndtere det, der ofte kaldes "big data."

Nogle af samtalerne beskæftigede sig med værdien af ​​big data, og om det virkelig var en "billion billion dollar", mens andre beskæftigede sig med de specifikke udfordringer, som de enkelte organisationer og branchen som helhed står overfor i bredere anvendelse af disse nye teknikker.

Gerard Francis, global leder af Bloomberg Enterprise Solutions, Bloomberg LP startede dagen med at antyde, at det vigtigste, virksomheder kan gøre, er at "kapitalisere på værdien af ​​data ved at bruge dem" og fokusere på adgangen, kvaliteten og strømmen af data i en organisation. I efterfølgende paneler var der masser af taler om nye værktøjer, der beskæftiger sig med data, samt specifikke problemer med opbevaring, styring og at finde de mennesker, der skal håndtere dataene.

I et generelt panel om virksomhedsudvikling sagde Dwight Merriman, formand og medstifter af MongoDB, at datalaget på applikationssporet har "den største forstyrrelse og ændring, vi har set på 25 år." Han sagde, at virksomheder har brugt relationelle databaser i 25 år eller mere, hvilket gør det til den ældste teknologi i stakken. Men nu sker der ting med filbaseret opbevaring som Hadoop og nye databaseteknologier, ofte grupperet som "NoSQL." Han gjorde opmærksom på, at Big Data ikke handler om "big", men snarere om dataformen, datatyperne og bevægelsen mod håndtering af data i realtid.

Googles Chief Information Officer Benjamin Fried var enig i, at de fleste virksomheder ikke har "big data" -problemer. Mange af datasættene - med ting som HR-data og økonomiske data - er ikke så store, sagde han. Hvad der er vigtigt, er den fleksibilitet, du har brug for for at håndtere dataene ordentligt.

Hvad er Big Data alligevel?

MarkLogics Gary Bloom, Neustars Mark Bregman, Streambase's Mark Palmer og Vipul Nagrath fra Bloomberg

Dette koncept - at fleksibilitet er lige så vigtigt som størrelsen på dataene - blev gentaget i et andet panel senere på dagen. Der var deltagerne enige om, at virksomheder har behandlet datatunge applikationer i lang tid, men omfanget er ændret for nylig. F.eks. Bemærkede Mark F. Bregman, Senior Vice President og Chief Technology Officer for Neustar, at nogle virksomheder nu "gemmer alt" i håb om, at det vil vise sig værdifuldt.

"Store er bedre defineret som kompleksitet, " ifølge Gary Bloom, administrerende direktør og præsident for MarkLogic. Han bemærkede, at mange såkaldte "big data" -applikationer involverer masser af forskellige slags data, men ikke den slags lydstyrke, du normalt hører om i "big data" -applikationer.

Han citerede et eksempel på lufttrafik, der kombinerer vejrdata, lufthavnsdata, geospatiale data, flydata, flyreservationsdata og sociale data. Han bemærkede, at det var virkelig svært at håndtere heterogene data med traditionelle relationelle databaser, hvilket gentog tidligere kommentarer fra MongoDBs Merriman om, at dette var det "første generationsskifte i databasen på 25 år", siden vi flyttede fra mainframe til ælden med relationelle databaser.

Han bemærkede, at mange mennesker taler om sociale mediedata, men de skal virkelig kombineres med andre data for virkelig at have noget, som du kan drage fordel af. At kombinere disse data er "den reelle værdi."

Nogle applikationer involverer naturligvis masser af oplysninger, hvor Bregman siger, at heterogenitet kun er en faktor. Han citerede DNS-data, som let kan generere 8 TB information om dagen, og behovet for at gemme sådanne ting i Hadoop. Bregman og de andre bemærkede, at når det kommer til "datakapitalisering", er den reelle værdi ikke i de rå data, men i stedet er i analysen, når det bliver noget, du kan bruge. De andre i panelet var enige.

Streambase-direktør Mark Palmer sagde, at det var vigtigt at kombinere store mængder data med streaminganalyse i mange applikationer; og talte om den ekstra værdi, der kunne skabes ved at kombinere traditionel og realtidsanalyse.

Men han var enig i, at kompleksiteten af ​​data er et problem. Han citerede, hvordan Vivek Ranadivé, der driver Tibco (som nu ejer Streambase), delvist købte et basketballhold for at finde ud af, hvordan teknologi kan forbedre fanens oplevelse. Han talte igen om at "sammensætte forskellige typer data", startende fra en Twitter-strøm, men også udnytte andre slags data.

Bloom bemærkede, at det hele afhænger af applikationen, idet han siger, at "forsinkelse er i betragtningens øje." Nogle applikationer er nødt til at analysere dataene på ledningen, før de endda rammer databasen, mens andre ikke gør det.

Bregman rejste spørgsmålet om, at i stedet for at det er svært at flytte computere ressourcer, bliver det nu meget sværere at flytte dataene. Han bemærkede, at "lock-in" for mange applikationer er placeringen af ​​dataene. Når du gemmer dine data i en offentlig sky, er det meget svært at flytte dem. Som et resultat, sagde han, ønsker mange organisationer at gemme enorme mængder data på deres egne placeringer og derefter være i stand til at flytte til forskellige udbydere for at beregne funktionaliteten. Ved at låne et udtryk fra MarkLogic's Bloom talte han om, hvordan organisationer muligvis har brug for et "datacentreret datacenter" som et sted, hvor du opbevarer enorme mængder data.

Er Big Data en 'billion billion-dollar?'

Porter Bibb fra MediaTech Capital Partners, Cloudera's Doug Cutting, Snaplogics Gaurav Dhillon og Bloomberg Links Jason Kelly

Et andet panel diskuterede mulighederne og udfordringerne, der blev bragt af big data, og reflekterede over en kommentar fra Porter Bibb, Managing Partner hos MediaTech Capital Partners. Bibb sagde, at der faktisk er mere end en billion dollars fordele for virksomheder, der bruger de nye teknikker. Til dato, sagde han, har vi "ikke engang begyndt at udnytte det potentiale, denne teknologi tilbyder."

Bibb talte om, hvordan det var vigtigt for organisationer at tilpasse deres datastrategi med forretningsstrategi og var bekymret for, at de fleste virksomheds- og regeringssystemer er forkert tilpasset.

I den første session sagde Scott Weiss fra Andreessen Horowitz, at "Hadoop er som kryogen opbevaring, " så moderator Jason Kelly fra Bloomberg Link spurgte Cloudera Chief Architect Doug Cutting, som var en af ​​skaberne af Hadoop i første omgang, hvordan han så at.

Skæring sagde Hadoop giver folk mulighed for at arbejde med flere data. Han sagde, at organisationer trækker data ud af båndet, i stedet gør dem online og anvendelige. Kunderne bevæger sig fra at arbejde med 90 dages data til fem eller 10 års data i et "aktivt arkiv."

Et antal af de specifikke spørgsmål om håndtering af alle disse data kom op igen i dette panel. Snaplogic-administrerende direktør Gaurav Dhillon talte om "datatyngdekraft" og sagde, at det ikke giver mening at tage data, der er lokale i Hadoop og flytte dem til skyen. Men på samme tid, hvis der er data i skyen, såsom klik-stream-analyse, giver det ingen mening at flytte det lokale. Som et resultat, sagde han, så han meget få "grænseoverskridende muligheder" i at flytte dataene.

Cutting sagde, at han ikke troede, at der virkelig var en mangel på dataforskere. I stedet sagde han, at der er mange mennesker, der forstår matematik og forretning, men de har bare ikke værktøjerne. Du kan lære det grundlæggende i værktøjerne og hvad de gør i løbet af et par uger, sagde han, men det er år, at forstå din virksomhed. Alligevel er der mange mennesker, der forstår det.

Dhillon reflekterede også bekymring for lovgivning, der beskæftiger sig med, hvilke oplysninger der kan opbevares hvor. Han sagde, at nogle lodrette markeder kræver, at oplysninger gemmes lokalt, men var bekymret for ting som krav om ikke at flytte data ud af dets oprindelsesland. Meget af dette er en overreaktion på ting som Snowden-afsløringerne og dataovertrædelser, sagde han, idet han bemærkede, at en hast med lovgivning aldrig er god.

På spørgsmålet om han var bekymret for, at brudene på Snowden og Target gjorde kunderne bange for data, sagde Cutting, at han var bekymret for, at så mange mennesker er bekymrede. Masser af mennesker er bange for teknologi, sagde han, og det var en fiasko i branchen at gøre kunderne komfortable i forestillingen om, at deres data ikke blev brugt. ”Du behøver ikke være uhyggelig, ” sagde han.

I slutningen var der meget diskussion om værdiansættelser, hvor Bibb antydede, at den nylige Intel-investering i Cloudera var en "big deal", da det validerer, hvad virksomheden gør. Han sagde, at andre store virksomheder som Oracle, IBM, Microsoft og Amazon svævede rundt i forudsigelige analysefirmaer. "Guldruset er lige begyndt."

Dhillon sagde, at værdiansættelserne afspejler, hvad VVS-virksomheder bringer til big data-markedet. Han sagde, at han var glad for at se sådanne "pick and shovel" fyre få gode værdiansættelser, men sagde, at han var en smule frygt for, at værdiansættelserne kommer foran markedet.

Bibb sagde, at han troede, at store data måske kunne blive overeksponeret i medier, men de er undereksponeret i "c-suite" (hvilket betyder administrerende direktører, økonomidirektører og andre øverste ledere.) Han sagde, at det har et "enormt økonomisk potentiale, der endnu ikke er opdaget."

Big data: en udfordrende 'billion billion dollar'