IoT & 빅데이터

  • IoT 빅데이터
  • Dataiku
제품문의

개요 및 특징

Dataiku(다타이쿠)는 원시 데이터에 대한 데이터 정제작업을 용이하게 하며, 정제된 데이터로 예측을 가능케 하는 통합 데이터 엔지니어링 플랫폼입니다.
Dataiku를 통해 데이터를 좀 더 효율적으로 탐색하고 활용할 수 있게 되어 빠르고 쉽게 프로토타입과 예측 모델을 생성할 수 있으며, 이들을 실시간으로 운영환경에 배포할 수 있습니다.

시스템 구성도

특징

  • Collaborative
    • Dataiku(다타이쿠)는 데이터 팀을 위해 설계된 솔루션 입니다.
      따라서 다음과 같은 협업기능으로 정보자원(데이터)을 공유할 수 있으며 새로운 팀원을 쉽게 추가하여 바로 사용할 수 있도록 합니다.
      • 통합 실행목록 제공, 모든 객체에 문서 및 설명 추가
      • 견고한 변경관리 및 쉬운 롤백
      • 팀 내 업무 진행상황과 커밋 정보를 제시하는 전용 대시보드와 팀 작업 모니터링
      • Slack, Hipchat, Github와의 완벽한 통합

  • Accessible Predictive Analytics
    • Dataiku(다타이쿠)는 데이터 패턴을 예측하고 찾아냅니다.
      현재 진행 중인 프로젝트에 클러스터 또는 예측이 필요한 경우 시각적 인터페이스로 기존 라이브러리를 사용할 수 있고, R, Python 및 SQL로 직접 사용자 정의 코드를 작성 하거나 API를 통해 외부 ML 라이브러리(H2O, Dato, Skytree 등)를 통합 가능합니다.
  • For the Whole Team
    • Dataiku(다타이쿠)는 초급분석자부터 데이터과학자까지 누구나 데이터 프로젝트에 의미있는 작업을 할 수 있도록 코딩이 필요없는 시각적 컴포넌트를 제공합니다.
  • End-to-End
    • 모든 데이터를 연결 (정형/비정형, 대형/소형, 내부/외부)
    • 데이터를 한 눈에 파악하고 탐색
    • 쉽고 빠른 데이터 전처리 및 보완
    • 대시보드와 웹 애플리캐이션을 이용한 인사이트 및 시각화 산출물 공유
    • 머신 러닝을 활용한 패턴 예측 및 검증
    • 데이터 자동 재성성 및 모델 재훈련
  • Efficient
    • Dataiku(다타이쿠)는 고급 분석과 예측 모델링을 위한 데이터 전처리가 전체 작업 시간의 80% 를 넘지 않도록 하며, 운영 환경에 모델을 용이하게 배포할 수 있습니다.
      • Dataiku(다타이쿠)는 데이터에 알맞는 작업을 자동으로 제안하며, 사용자가 이를 스프레드 시트와 유사한 인터페이스로 수행하도록 하여 빠른 데이터 전처리가 가능합니다.
      • 예측용 인터페이스는 사용자 친화적이어서 모든 기술 수준에 해당하는 예측 모델을 신속하게 생성하고 반복적으로 작업을 할 수 있습니다.

  • All-in-One
    • Dataiku(다타이쿠)는 데이터 과학 응용 프로그램, 배치 처리 또는 실시간 설계 및 운영을 위해 비주얼 기반 환경과 코드 기반 환경을 동시에 제공합니다.
      REST API를 이용하여 전체 워크플로우를 재사용 가능한 패키지 형태로 배포하면 실시간 예측이 가능합니다.

주요 기능

  • 유연한 연결성 Connectivity
    • 25개 이상의 데이터 스토리지 시스템 연결
      (파일 시스템, 각종SQL, Hadoop, 클라우드 등)
    • 커스텀 API 커넥터(플러그인)로 확장 가능, 다양한 데이터 연결
    • 데이터 포맷과 스키마 자동 유추
    • 기존 SQL, Hadoop, Spark 아키텍처에서 작업실행
  • 머신러닝 Machine Learning
    • 단계별로 가이드된 머신러닝
    • 모델 생성 (복잡한 의존성 관계에 대한 신속한 이해 및 계수 분석)
    • 최신 머신러닝 기술을 적용한 비주얼 UI/코드 사용
    • 모델 구축/평가 후 즉시 적용 가능
  • 데이터 시각화 Data Visualization
    • 25가지 기본 차트 형식 (히스토그램, 지도, 분산형 플롯, 히트맵, 박스 플롯 등)
    • Drag&Drop 으로 용이한 시각화 및 데이터 탐색
    • 커스텀 시각화 코드 작성 기능
    • 대시보드 및 인사이트 제공
  • 데이터 랭글링 Data Wrangling
    • 대화형 데이터 처리 및 강화 (내장된 80개 이상의 비주얼 프로세스를 쉽게 활용)
    • 데이터를 자유자재로 다룰 수 있는 심플한 인터페이스
    • 고급 통합 프로세스
  • 데이터 마이닝 Data Mining
    • 즉각적 데이터 가시화를 통한 가치있는 정보 제시(향상된 데이터 탐색 기능과 통찰력 제공을 위해 Drag&Drop 으로 그래프 작성)
    • 대화형 Python, R 및 SQL 노트북 제공
    • Spark & Hadoop을 통한 데이터 마이닝 지원
  • 데이터 워크플로우 Data Workflow
    • 워크플로우 시각화 및 재실행
    • 자동화 시나리오 제공 (작업관리, 고급 트리거 정책, 알림이 포함된 조정 툴)
    • 프로세스 및 데이터 모니터링 (데이터 유효성 정책 자동실행 및 주요 데이터/모델 확인)
  • 적용 Deployment
    • 단일 UI 내에서 개발, 테스트, 운영 전 단계에 이르는 모든 단계에 모델 적용
    • 안전한 버전 관리와 롤백 (모든 워크플로우 버전 관리, 용이한 변경내용 확인)
    • 전체 API 기반

Reference

화이자제약, AXA, 로이터 외 다양한 산업군 200여 고객 확보

주요 기능

Dataiku introduces DSS