実践的データ基盤への処方箋

📖
実践的データ基盤への処方箋〜 ビジネス価値創出のためのデータ・システム・ヒトのノウハウ
 
実践的データ基盤への処方箋 〜ビジネス価値創出のためのデータ・システム・ヒトのノウハウ
データ整備/データ基盤システムの構築/データ分析組織立ち上げのプロがすぐ効くノウハウを教えます! 「会社内でバラバラになっているデータを集めたが,これから何をしていいか分からない」 「最新技術を利用してデータ基盤をつくったがニーズがなかった」 「頻繁に障害が発生するデータ収集に対応してきたが,そのデータは誰にも利用されていなかった」 「データの意味が分からず,データの意味の聞き込み調査で1日が終わった」 データを活用してビジネス価値を創出したいと考える企業は増えています。そのために,とりあえずデータを集めて,データレイク,データウェアハウス,BIツールなどのソフトウェアを導入したのですが,データ活用が進まないという声を聞きます。なぜ,せっかくコストをかけてつくったデータ基盤なのに機能しないのでしょうか? Garbage In Garbage Out(ゴミを入れたらゴミが出てくる)という言葉があるように,適切な形でデータを取得しなければ,適切な分析はできません。また,各ソフトウェアに限定した知識ではなく,データ基盤システムとして利用するためのノウハウがなければ,データ基盤は機能しません。さらにデータ基盤にはたくさんの人が関わるため,組織のあり方やデータの取り扱いにも注意が必要です。 取得したデータからデータ活用までの架け橋となるのがデータ基盤のはずです。ビジネス価値につながらないデータ基盤はコストを垂れ流すだけの病んだシステムになりかねません。そこで本書では,データ基盤の本来の機能を甦らせるため,またデータ基盤の構築でつまづかないためノウハウを処方します。データ整備,システムの知識,組織のあり方,データの取り扱いといった"データ基盤を機能させるためのノウハウ"を,この道のプロが惜しげもなく披露します。データ基盤が思うように機能していない,これからデータ基盤を構築したいが何からはじめればよいか分からない,といったことで悩まれている方には一読の価値があるはずです。
 
<書籍の紹介>
ℹ️
なぜ御社のデータ基盤は活用されないのか?
データ整備/データ基盤システムの構築/データ分析組織立ち上げのプロがすぐ効くノウハウを教えます!
「会社内でバラバラになっているデータを集めたが、これから何をしていいか分からない」 「最新技術を利用してデータ基盤をつくったがニーズがなかった」 「頻繁に障害が発生するデータ収集に対応してきたが、そのデータは誰にも利用されていなかった」 「データの意味が分からず、データの意味の聞き込み調査で1日が終わった」
データを活用してビジネス価値を創出したいと考える企業は増えています。そのために、とりあえずデータを集めて、データレイク、データウェアハウス、BIツールなどのソフトウェアを導入したのですが、データ活用が進まないという声を聞きます。なぜ、せっかくコストをかけてつくったデータ基盤なのに機能しないのでしょうか?
Garbage In Garbage Out(ゴミを入れたらゴミが出てくる)という言葉があるように、適切な形でデータを取得しなければ、適切な分析はできません。また、各ソフトウェアに限定した知識ではなく、データ基盤システムとして利用するためのノウハウがなければ、データ基盤は機能しません。さらにデータ基盤にはたくさんの人が関わるため、組織のあり方やデータの取り扱いにも注意が必要です。
取得したデータからデータ活用までの架け橋となるのがデータ基盤のはずです。ビジネス価値につながらないデータ基盤はコストを垂れ流すだけの病んだシステムになりかねません。そこで本書では、データ基盤の本来の機能を甦らせるため、またデータ基盤の構築でつまづかないためノウハウを処方します。データ整備、システムの知識、組織のあり方、データの取り扱いといった"データ基盤を機能させるためのノウハウ"を、この道のプロが惜しげもなく披露します。データ基盤が思うように機能していない、これからデータ基盤を構築したいが何からはじめればよいか分からない、といったことで悩まれている方には一読の価値があるはずです。
 
<目次>
📜
はじめに
第1章 データ活用のためのデータ整備
1-1 データの一連の流れを把握し,入口から出口までを書き出す
1-2 データの品質は生成元のデータソースで担保する
1-3 データが生じる現場を把握して業務改善につなげる
1-4 データソースの整備ではマスタ・共通ID・履歴の3つを担保する
1-5 データレイク層の一箇所にデータのソースのコピーを集約する
1-6 データウェアハウス層では分析用DBを使って共通指標を管理する
1-7 共通指標は本当に必要とされるものを用意する
1-8 特定用途に利用するデータマートはユースケースを想定してつくる
1-9 ユースケースを優先的に検討しツールの整備を逆算する
1-10 データの調査コストを減らすためにメタデータを活用する
1-11 サービスレベルを設定・計測して改善サイクルにつなげる
1-12 データ基盤の品質を支えるデータスチュワードの役割を設ける
第2章 データ基盤システムのつくり方
2-1 一般的なデータ基盤の全体像と分散処理の必要性を理解する
2-2 データソースごとに収集方法が違うこと,その難しさを理解する
2-3 ファイルを収集する場合は最適なデータフォーマットを選択する
2-4 APIのデータ収集では有効期限や回数制限に気をつける
2-5 SQLを利用したデータベース収集ではデータベースへの負荷を意識する
2-6 データベースの負荷を考慮したデータ収集では,エクスポートやダンプファイル活用を視野に入れる
2-7 更新ログ経由のデータベース収集はデータベースの負荷を最小限にしてリアルタイムに収集できる
2-8 各データベース収集の特徴と置かれた状況を理解して使い分ける
2-9 ログ収集はエージェントのキャパシティに注意
2-10 端末データの収集は難易度が高いためできるだけ製品を利用し無理なら自作する
2-11 ETL製品を選ぶポイントは利用するコネクタの機能性とデバッグのしやすさ
2-12 データレイクでは収集したデータをなくさないようにする
2-13 データウェアハウスには抽出や集計に特化した分析用DBを採用する
2-14 分析用DBはクラウド上で使い勝手が良い製品を選ぶ
2-15 列指向圧縮を理解して分析用DBが苦手な処理をさせないように気をつける
2-16 処理の量や開発人数が増えてきたらワークフローエンジンの導入を検討する
2-17 ワークフローエンジンは「専用」か「相乗り」かをまず考える
第3章 データ分析の組織
3-1 アセスメントによって組織の現状を客観的に把握する
3-2 組織の状況に合わせて組織構造を採用する
3-3 データ組織の成功に必要な要因を理解する
3-4 データ組織を構成する職種と採用戦略の基本を押さえる
3-5 データ活用とセキュリティはトレードオフの関係にあることを理解する
3-6 組織の利益となるデータのセキュリティポリシーとそのセキュリティ基準を決める
3-7 適切な権限設定とリスク管理方法を定める
3-8 データ利用や権限管理などの運用ルールをドキュメント化する
3-9 担当,見直しサイクル,判断基準を決めてデータやツールの棚卸を定期的に行う
3-10 不正アクセスに備えてデータ保護や匿名加工技術を適用する
3-11 監査では評価方法を理解して客観性を担保する
 
<一部抜粋>
データ基盤の全体像⁠
『⁠実践的データ基盤への処方箋』の「はじめに」より
『⁠実践的データ基盤への処方箋』の「はじめに」より
 
<関連する記事>