TreasureData 学習メモ#2

2020年12月21日 09:10

このnoteはTDの学習メモです。
後日、再度まとめ上げ、わかりやすいように再編予定

Data Pipeline
データ処理プロセスを設定し、次のステップに繋ぐ処理
Queriesもプロセス処理の一つ

TD Master Key
TDにアクセス可能なKey情報=>APIによって制御を可能にする　Settings>API Keys>Create API Key>Name>Master Key>Save

Presto
TDでは2つのタイプのQuery Engineを利用が可能であり、そのうちの１つが Presto である
Prestoの特徴は、クイックに稼働ができる
ただしメモリの量を食う
検討などではPrestoを利用し、稼働時にはHiveを使うのがTDのレコメンド

Tips
現在のQuery画面ではRUN実施後に最新のRUNしたQuery情報は、
Last RUN Details
で閲覧できる
Current Run Details
が表示されるのはerrorなどが発生している場合やRUN中の場合

The SLECET Statement
Definition
・The SELECT statement is used to select data from a databases.
・The data returned is stored in a result taels, called the result-set.
Syntax
Select column1, column2,...
From table_name;

SELECT DISTINCT Statement
Definition
・The SELECT DISTINCT statement is used to return only distinct values.
・Inside a table, a column often contains many duplicate values; and sometimes you only want to list the different values.
Syntax
SELECT DISTINCT column1, column2,...
FROM table_name;
Performance
DISTINCTは固有値を探索するため通常のSELECTよりパフォーマンスを食う

ORDER BY Statement
Definition
・ORDER BYはresult-set の並び順を昇順もしくは降順にする
・デフォルトでは、昇順になっている
・降順にするには DESCを利用する
Syntax
SELECT column1, column2,...
FROM table_name;
ORDER BY column1, column2,...ASC|DSC;
Performance
ORDER BY は 10,000行以下のものに使用すること
また、利用数場合もPrestoでQueryうったあと、テーブルにするか INSERT INTO を使ってHiveで利用するのが望ましい

この記事が気に入ったらサポートをしてみませんか？