Der Chip-Hersteller Intel hat eine neue Software-Plattform vorgestellt, um grosse Mengen von Daten zu verarbeiten. Ein Terabyte soll in sieben Minuten ansatt 4 Stunden durchsucht sein. Zusammen mit vielen wichtigen Anbietern und Dienstleistern transformiert der Hype um «Big Data» in eine wachsende Adaption der Hadoop-Plattform im Unternehmensumfeld.
Intel hat mit Apache Hadoop als Basis eine eigene Distribution für Big Data vorgestellt. Die Open-Source-Software Hadoop ist eine der meistverbreiteten Anwendungen für Big Data – eine Art Goldgräber-Werkzeug für Datenberge. Yahoo, Linkedin und Facebook nutzen Hadoop. Sie analysiert und sammelt riesige Mengen von Daten, beispielsweise aus Websuchen, Social Media oder Finanzberichten. Ein Terabyte soll nun in sieben Minuten ansatt 4 Stunden durchsucht sein, so hat es Intel heute an der Pressekonferenz zu Start der eigenen Hadoop-Distribution verkündet.
Der amerikanische Chip-Hersteller ist Marktführer im Segment der Hochleistungscomputer und Rechenzentren. IT im grossen Stil ist fast nicht ohne Intel möglich. In erster Linie profitiert also der Verkauf der Hardware-Produkte des Unternehmens aus Santa Clara (USA) von den Entwicklungen der mittlerweise grossen hauseigenen Software-Abteilung. Bereits mit schneller Anpassungen der Hardware-Treiber an das GNU/Linux-Betriebssystem hat sich Intel einen guten Namen für Open-Source-Software-Entwicklung gemacht. Die Intel-Optimierungen für Hadoop sind als Open-Source-Software auch für alle anderen Hadoop-Versionen verfügbar über Github-Bibliotheken. Darin befinden sich derzeit elf öffentliche Entwicklungen für Hadoop.
Hadoop bringt Big Data ins Unternehmen
Nach HP und EMC hat nun auch Intel die eigenen Hadoop-Distribution im Angebot. SAP sichert die Hadoop-Zusammenarbeit mit der hauseigenen In-Memory-Technologie Hana zu. Auch Red Hat hat diesen Monat einen eigenen Plugin für Hadoop auf Red Hat Enterprise Linux vorgestelt. “Rund 70 Prozent der Hadoop-Rechenarbeiten läuft auf Linux”, sagte Red Hat Vice President Ranga Rangachari, als Partner an der Pressekonferenz von Intel. Intel plant, seine Version von Hadoop über Anbieter und Dienstleister zu verteilen. Selbst verkauft Intel nur eigene technische Support-Services.
Intel verbessert SSD-Funktionen für Hadoop
Die Hadoop-Distribution von Intel ist speziell auf Solid-State-Disks (SSD) angepasst. Damit soll die Abfrage-Geschwindigkeit steigen. Die Flashspeicher-Chips setzten sich vor allem durch ihren geringeren Energieverbrauch pro Speichereinheit und massiv höhere Geschwindigkeit ab von herkömmlichen Festplatten mit Magnetspeicher und Lesekopf. Intel ist laut eigenen Angaben Marktführer im Unternehmensmarkt für SSD. Der Chip-Hersteller hat auch einen Caching-Plugin für Hadoop entwickelt. Das Programm «Active Tuner» der Intel Labs erlaubt automatisches Tuning für vernetzte Computer, sogenannte «Cluster». Die neue Caching-Funktion beschleunigt die Suche, in dem bereits benutzte Daten für Wiederverwedung zwischen gespeichert werden.
Neue Funktionen für Rechenzentren
Intels Erweiterungen backen Funktionen von Hardware (Xeon-Prozessoren, Netzwerk-Karten für Rechenzentren) in die Software (Hadoop) ein. Sie enthalten Sicherheitsfunktionen wie die Verschlüsselung auf HDFS (Hadoop Distributed File System), dem hochverfügbaren, leistungsfähiges Hadoop-Dateisystem zur Speicherung sehr grosser Datenmengen auf den Dateisystemen mehrerer Rechner. Die Prozessor-Hardware-Sonderfunktionen wie AVX und SSE4.2 beschleunigen die Datenkompression, um Speicherplatz zu sparen. Suchabfragen in «Apache Hive» werden 8-fach beschleunigt. «Hive» erweitert Hadoop um Data-Warehouse-Funktionalitäten.
(Marco Rohner)
Weitere Themen:
Neueste Artikel von Marco Rohner (alle ansehen)
- Bund beschafft freihändig 49 Mio. Franken Auftrag von Oracle - 24. November 2016
- Ubuntu und Kubuntu 16.04 LTS im Test - 21. Oktober 2016
- Labdoo.org gewinnt Lenovo Schweiz - 4. Juli 2016