Machine Learning mit Dataiku
Nutzen Sie die neuesten Technologien, um komplexe Modelle für das Machine Learning zu erstellen.
Feature-Engineering
Dataiku AutoML unterstützt das Feature-Engineering, indem fehlende Werte automatisch angegeben und nicht numerische Daten mithilfe bewährter Umwandlungsverfahren in numerische Werte konvertiert werden.
Nutzer können auch mit Formeln, Code oder integrierten visuellen Blöcken („Recipes“) neue Merkmale erstellen, um die Genauigkeit des Modells zu verbessern. Die entsprechenden Schritte werden in Dataiku in Blöcken gespeichert und können dann für die Bewertung und das erneute Training von Modellen wiederverwendet werden.
Mehr Modelle dank AutoML
Durch die Automatisierung des Modelltrainings unter Berücksichtigung der Best Practices und integrierten Sicherheitsfunktionen können Analysten mehr produktionsreife Modelle entwickeln und vergleichen.
Dataiku AutoML nutzt führende Algorithmen und Frameworks wie Scikit-Learn und XGBoost. So können alle Nutzer in der intuitiven Oberfläche die besten Modellergebnisse abrufen.
Maschinelles Lernen und Notebooks
Dataiku unterstützt diverse Notizbücher für codebasierte Tests und die Modellentwicklung in Python, R und Scala on Jupyter.
Es stehen auch acht vorkonfigurierte Notizbücher für Datenanalysen zur Verfügung, unter anderem für Statistiken, Dimensionsreduktion, Zeitreihen und Themenmodelle.
Visualisierung und Prognose von Zeitreihen
Dataiku unterstützt die Aufbereitung von Zeitreihendaten, zum Beispiel Resampling-Verfahren, Fensterfunktionen und die Extraktion von Extrema und Intervallen. In Liniendiagrammen können Zeitreihendaten auch visuell analysiert werden.
Datenwissenschaftler können Prognosemodelle mit dem Prognose-Plug-in oder mithilfe von benutzerdefiniertem Code in Notizbüchern und den Datenaufbereitungs- und Visualisierungsfunktionen in einem Projekt entwickeln. So stellen sie sicher, dass das Modell produktionsreif ist.
Deep Learning mit Keras und TensorFlow
Dataiku unterstützt Deep Learning mit Keras und TensorFlow, einschließlich des Trainings und der Bereitstellung auf CPUs und GPUs.
Da Deep-Learning-Modelle wie alle anderen in Dataiku erstellten und verwalteten Modelle behandelt werden, lassen sie sich ganz einfach in Projekte und Unternehmensanwendungen einbinden.
Benutzerdefinierte Modelle mit Python und Scala
Dataiku unterstützt nicht nur die Algorithmen der AutoML-Funktionen. Nutzer können auch mit Python oder Scala eigene Modelle entwickeln. In Dataiku sind benutzerdefinierte Modelle First-Class-Objekte.
Nachdem sie in ein Projekt eingebunden wurden, werden sie wie alle anderen Modelle behandelt. Dadurch eröffnen sich ganz neue Möglichkeiten und es sind auch Anwendungsfälle denkbar, die mit anderen Methoden (wie AutoML) eventuell nicht zur Verfügung stehen würden.
Training mit großen Datensätzen in Spark
Dataiku unterstützt auch Spark MLLib und H2O Sparkling Water, mit denen das Modelltraining mit großen Datensätzen möglich wird, die nicht in den Arbeitsspeicher passen.
Nach der Konfiguration steht Spark Nutzern für das Modelltraining zur Verfügung. Diese können dann je nach Konfiguration die verfügbaren Algorithmen in MLLib für Regression, Entscheidungsbäume und Ähnliches, oder in H2O Sparkling Water für Deep Learning, GBM, GLM, Random Forest und weitere Verfahren nutzen.
Erste Schritte mit Dataiku
Nutzen Sie eine Online-Testversion, laden Sie die kostenlose Edition herunter
ERSTE SCHRITTE