Hallo hallo, hier ist Jordan von SnapStack Solutions, der im neuen Jahr wieder mit frischer Energie zu Ihnen kommt. Ich hoffe, Sie haben die Feiertage mit Ihren Liebsten genossen. Im Namen meines gesamten Teams wünsche ich Ihnen einen ruhigen Geist, ein harmonisches Zuhause und ein erfolgreiches Jahr! 🙂
Ich werde das neue Jahr mit ein paar frischen Inhalten beginnen, aber immer noch in gewisser Weise in Verbindung mit den vorherigen Artikeln. Nur als Referenz: Letzten Monat haben wir über die Bedeutung von R in der Datenwissenschaft gesprochen. Wie immer bin ich hier, um Sie daran zu erinnern, es sich anzusehen, falls Sie nicht die Gelegenheit hatten, es zu lesen. Folgt diesem Link hier.
Dennoch möchte ich mehr über Big-Data-Tools berichten, und heute werde ich mich mit drei davon befassen, die der Apache Software Foundation unterstehen. Für diejenigen unter Ihnen, die neugierig auf Apache sind: Es handelt sich um ein gemeinnütziges Unternehmen, das Apache-Softwareprojekte unterstützt. Es war März 1999, als ASF ursprünglich gegründet wurde.
Sie können jedoch selbst mehr zu diesem Thema suchen, während ich andererseits versuchen werde, drei Apache-Technologien zu behandeln, und das sind: Spark, Hive, Hadoop.
Schauen wir uns an, wofür sie verwendet werden und wie wichtig sie für Big Data insgesamt sind.
Apache Spark
Das erste Einzelstück ist Apache Spark. Die meisten von Ihnen haben vielleicht schon davon gehört, aber lassen Sie uns mehr über diese Technologie erfahren. Zunächst einmal handelt es sich um eine Open-Source-Analyse-Engine, die für Big-Data-Workloads verwendet wird.
Es wurde 2009 an der University of California in Berkeley geboren, als die Entwickler versuchten, einen Weg zu finden, die Verarbeitungsjobs in Hadoop Systems zu beschleunigen.
Es basiert auf Hadoop MapReduce und bietet native Bindungen für Programmiersprachen wie Python, Scala, Java und R. Ich komme nicht umhin, die darin enthaltenen Bibliotheken für maschinelles Lernen — Mllib, Stream-Verarbeitung — Spark Streaming und GraphX — zu erwähnen.
Um die Komplexität der Daten zu minimieren, verwendet die Spark Core Engine RDD oder Resilient Distributed Dataset. Es funktioniert so, dass Daten und Partitionen über einen Servercluster aggregiert werden, wo sie verarbeitet und in einem anderen Datenspeicher gespeichert werden oder ein Analysemodell durchlaufen.
Vorteile von Apache Spark
Geschwindigkeit — Wahrscheinlich das Wertvollste heutzutage. Der Grund, warum Spark sich von den anderen abhebt, ist, dass es seine In-Memory-Engine verwendet, wodurch es 100-mal schneller ist als MapReduce, wenn es im Speicher ausgeführt wird, und zehnmal schneller, wenn es auf der Festplatte verarbeitet wird.
Stream in Echtzeit — Diese Technologie kann mit Echtzeit-Streaming zusammen mit der Integration verschiedener Frameworks arbeiten.
Viele Workloads — Spark kann mit verschiedenen Workloads arbeiten, z. B. mit interaktiven Abfragen, Echtzeitanalysen, maschinellem Lernen und Grafikverarbeitung.
Apache Hadoop
Hadoop ist ein weiteres Tool, das in diesem Bereich wirklich wichtig ist. Es handelt sich um eine Sammlung von Open-Source-Softwareprogrammen, die für die Berechnung einer riesigen Datenmenge entwickelt wurden. Es verarbeitet strukturierte und unstrukturierte Daten, um große Datenmengen zu sammeln, zu verarbeiten und zu analysieren.
Genau wie bei der vorherigen Technologie werden wir die Vorteile der Verwendung von Apache Hadoop erläutern.
Vorteile von Apache Hadoop
Kosteneffektiv — Diese Technologie bietet eine kostengünstige Speicherlösung für riesige Datensätze. In der Vergangenheit hätten Unternehmen die Daten heruntergerechnet und sie auf der Grundlage verschiedener Annahmen klassifiziert, nur um die Kosten zu vermeiden und ihnen gelöschte Rohdaten zu hinterlassen, die später wertvoll wären.
Skalierbar — Hadoop ist eine sehr skalierbare Speicherplattform. Wenn es um die Speicherung geht, kann sie riesige Datensätze auf vielen kostengünstigen Servern verteilen, die parallel arbeiten. Es gibt den Unternehmen die Möglichkeit, Anwendungen auf Tausenden von Knoten zusammen mit Tausenden von Terabyte an Daten abzuwickeln.
Flexibel — Unternehmen können Hadoop verwenden, um wertvolle Analysen von Plattformen wie sozialen Medien und E-Mail-Konvertierungen abzuleiten. Darüber hinaus kann es für viele andere Aktivitäten verwendet werden, z. B. für die Verarbeitung von Protokollen, Data Warehousing, Analyse von Marktkampagnen und Betrugserkennung.
Apache Hive
Da wir über die Hadoop-Plattform sprechen, ist es unvermeidlich, Hive zu erwähnen. Was genau ist Apache Hive?
Es ist ein Data Warehouse-System, das verwendet wird, um riesige Datenmengen zusammenzufassen, zu analysieren und abzufragen. Um dies besser zu verstehen, werden SQL-Abfragen in verschiedene Formen wie MapReduce umgewandelt, sodass die Aktivitäten in größerem Umfang reduziert werden.
Abgesehen davon gibt Hive den Daten auch eine Struktur, die in einer Datenbank gespeichert werden kann, sodass die Benutzer mithilfe eines Befehlszeilentools oder eines JDBC-Treibers eine Verbindung zu Hive herstellen können.
Vorteile von Apache Hive
Bessere Produktivität — Diese Technologie wurde für die Zusammenfassung, Abfrage und Analyse von Daten entwickelt. Sie funktioniert für eine Vielzahl von Funktionen, die mit Hadoop-Paketen wie Rhipe, Apache Mahout und vielen anderen verbunden sind.
Saubereres Arbeiten — Hive umfasst die Bereinigung, Transformation und Modellierung von Daten, um wertvolle Informationen über verschiedene Geschäftseinblicke bereitzustellen, von denen letztendlich das Unternehmen profitiert.
Benutzerfreundlich — Hive gibt den Benutzern die Möglichkeit, auf die Daten zuzugreifen und gleichzeitig die Reaktionszeit zu erhöhen. Im Vergleich zu anderen Tools ist die Reaktionszeit von Hive viel schneller.
Alles in allem haben wir die Grundlagen dieser Technologien und ihre Vorteile besprochen. In der Welt des Umgangs mit großen Datenmengen spielen sie eine entscheidende Rolle. Natürlich gibt es dazu so viel zu sagen, da es sich um ein breites Thema handelt, aber ich habe versucht, es Ihnen näher zu bringen.
Unsere Big-Data-Spezialisten beantworten gerne Ihre Fragen. Schauen Sie sich gerne unsere sozialen Medien an und setzen Sie sich mit uns in Verbindung. Bis zum nächsten Mal.

Ich wollte unbedingt noch einen Artikel schreiben, weil es lange her war, dass wir uns gesehen (oder per E-Mail getroffen) hatten. Jordan von SnapStack Solutions ist da. Eingebettete Systeme sind verbreiteter als wir denken, aber was sind sie und wie nutzen wir sie? Ein eingebettetes System ist im Gegensatz zu einem Laptop für ein einzelnes Objekt oder eine Ausrüstung vorgesehen und wird für dessen Funktionsweise verwendet. Bei dem „Gerät oder der Maschine“ kann es sich um alles Mögliche handeln, von einer Armbanduhr bis hin zu einem großen medizinischen Bildgebungssystem oder Roboter, und das eingebettete System ist in der Regel darin untergebracht, wie der Name schon sagt.
Read More
Intelligente Verträge sind für traditionelle Verträge das, was Smartphones für Mobiltelefone sind. Aber wie funktionieren intelligente Verträge? Dieser Artikel führt Sie durch jeden Schritt des intelligenten Vertragsprozesses, von der ersten Vertragsgestaltung bis zum endgültigen Abschluss und der Abrechnung. Er öffnet die Tür zu einer Zukunft, in der Vertrauen auf Code und nicht auf Papierkram basiert.
Read More
Ohne eine klare Roadmap, die Ihren Bemühungen Gestalt verleiht, können Sie die Herausforderungen der digitalen Transformation, mit denen Sie garantiert irgendwann konfrontiert werden, nicht bewältigen. Es ist keine Überraschung, dass mehr als ein Drittel der Führungskräfte der Meinung sind, dass eine mangelnde Strategie für die digitale Transformation Unternehmen daran hindert, ihr volles digitales Potenzial auszuschöpfen. Es ist offensichtlich, was Sie tun müssen, aber Sie wissen möglicherweise nicht, wie Sie eine Strategie für die digitale Transformation entwickeln können.
Read More