Redshift RA3 と Spectrumの使い分け
どちらもコンピュートとストレージ層が分離されているアーキテクチャのため、どういうユースケースのときにどっちを使うべきかという疑問。
-
例
- RA3パターン
- S3にデータをオフロードしてストレージを節約しているパターン等はRA3に
- Redshift内でETLを行いデータを加工するパターン
- S3上でのパーティション分割などSpectrumからのスキャン性能とかあまり気にしたくない時に
- Spectrum
-
他のAWSサービスからS3上のデータにアクセスするパターン。現時点においてもDWH上にデータを置いていないパターン等はSpectrumへ。(この場合はAthenaとの使い分けがまた悩みどころ…。)
-
EMRでデータを加工してRedshiftでデータを参照するパターン
-
Redshift内のデータと組み合わせて使うパターン
-
- RA3パターン
関連しているかもしれない記事
- Redshiftのdecimalの数値計算時の注意点
- Redshiftのskew tableを確認する
- Redshiftのサンプルデータベース(TICKIT)を作る
- RedshiftのS3へのデータアンロード
- RedshiftにTPC-DSデータをロードしてクエリ実行