見出し画像

Tableau Prepの処理速度を早めるTIPS

前書き:Tableau Prepについて

Tableauが2018年4月発表した「データ準備を支援する新製品」。過去の名称、Project Maestro。データ分析者の7~8割業務はデータ。その課題を解決する為のツール。

製品としてはPrep Conductor(オンラインでクレンジング)とPrep Bilder(オフラインでクレンジング)の2つがあります。今回はBilderを前提に記載をしていきます。

まだ分析用のETLツールを未導入の方は、まずはPrep Conductorからおすすめします。(2020年5月6日、改定)

00:Prep重い……原因と解決策は?

ただし、Prepの話を聞くと重い…という話をよく聞きます。本投稿ではPrep重い問題をどうやれば解決できるか。基本仕様から小技テクニック集をまとめました。

01:パソコンの仕様を確認

Prep Conductorでは最低のPCスペックが定義されています。(詳細は下記URLをご覧ください)

もちろん 最小要件 < 推奨要件 < 高パフォーマンス で パフォーマンスが異なります。最小要件以下でないかはご確認ください。

02:他のアプリケーションは閉じる

推奨要件以上でなく、数GBの処理をガリガリ回す際は残念ながら他のアプリケーションを閉じてもらえると嬉しいです。スキーマ構成中ならば問題ないのですが、「出力中は閉じる」これは徹底ください。

03:Excelではなく、csvで読み込む、できるならばhyperで

Excelの読み込みは残念ながら遅いです。シートが1つの場合、csvファイルに変更してください。同一データの場合、csvファイルに変更してください。

また可能ならば、hyper形式。TableauはTableau規格のデータ読み込みが最も早いです。数十GBのデータ読み込みも数秒程度の場合も。

ただしcsvとhyperは、ワイルドカードユニオンはできません。

04:ローカルファイルユニオン ✕除外 ○ワイルドカード一致

結果ユニオン条件を試してみて、除外クエリよりも、ワイルドカードでのユニオンのほうが読み込みが早いです。わずかの差ですが。

05:【最重要】サンプル数は極力少なくする

プレビュー機能が重い最大の要因と言っても過言ではないような気がします。サンプルが少ないと不安。。。という方も、勇気を持って各ファイルサンプル数を1000とかでいいので、試してみてください。

06:Prepのフローはシンプルに

Tableau Prepは初心者が、SQLの初級・中級者が実現することと同じようなことを実現してくれます(偏見) 

だからこそ、いかにシンプルにするのか。を忘れてはいけないなと反省しています。シンプルにするためのおまけを下記に記載します。

07:おまけ1 カラム除外は初期段階

カラムのDropは初期データソースの読み込み段階で除外してください。クリーニングではなく、初期のカラム選択。

08:おまけ2 データ処理はユニオン前?後?

別のスキーマのデータソース処理、ユニオン前後どちらでデータ処理するか悩みどころです。

1) 別データソースで同じクレンジングをするならば、ユニオン前

2) 別データソースで別データ処理クレンジングをするならば、ユニオン後

09:pivot処理 便利だけど要注意

Pivotは非常に魅力的な機能です。ただし、行列変換はデータを時間をかけて丁寧に調べてくれます。できるだけ早めの段階でpivotしたほうがいいです(過去逆のこと言ってましたごめんなさい)

なにかあれば、ぜひご相談くださいー!

この記事が気に入ったらサポートをしてみませんか?