Achieving Data Warehouse Nirvana - Japanese 

 

夢のデータウェアハウスの実現情報コントロールの重要な役割

Download Article

基礎がしっかりしていない家を買う人がいるでしょうか。請求書が正確かどうか分からないのに支払いをする人がいるでしょうか。答えがノーなら、なぜ不正確で一貫性のないデータウェアハウスの情報に基づいてビジネスの意思決定を行うことに甘んじる組織があるのでしょうか。研究1, 2, 3 によると、ビジネスユーザーが利用できるデータウェアハウスの情報の多くは、正確性、完全性、適時性を欠いています。データウェアハウス技術への多額の投資や、品質を保証しようとする努力にもかかわらず、データウェアハウス情報の信頼性は疑わしいままです。4, 5 データウェアハウス情報の信頼性を回復するための現在の手法では、データウェアハウスの責任者個人の奮闘に頼ることが多く、それには次のものが含まれています。

•手動または半自動化されたバランシング、追跡、照合による正確性の証明

•データソースのアドホッククエリによる「監査部門からの要請」への対応

•問題を識別、診断、修正するための広範囲の調査と改善

これらの手法はその場しのぎにはなりますが、長期的に持続することはできません。手動処理の人件費が増え、処理の終盤でエラーが見つかった場合の再実行の処理コストが高くなるため、継続的な運用コストが増加します。監査部門からの要請に対応するための面倒で費用のかかる処理も組織への負担となります。しばしば、多くのデータウェアハウスのプロジェクトが、情報品質を保証するための努力にかかる費用が高いために 頓挫しています。6

ETL(抽出、加工、ロード)やデータ品質プロセスなどのための標準化されたツールにより、問題の一部は解決されますが、データウェアハウス情報の信頼性を確立するため、早急に系統的な手法を採用する必要があります。ここで提案する手法では、エンドツーエンド情報コントロールを使用してデータウェアハウス情報の完全性を保証するフレームワークの概要を示します。

情報品質の問題の根本的原因

情報品質の問題の要因はいくつかありますが、データウェアハウス内の情報エラーの主な原因は次の通りです。

ソースシステム内の変更ソースシステムを変更した場合、しばしばETLプロセスのコードの変更が必要となります。たとえば、ある金融機関の信用リスクデータウェアハウスに対応するETLプロセスは、各四半期ごとに約 25 回リリースされています。適切な品質保証プロセスを採用していても、常にエラーの可能性はあります。ETLプロセスの変更によって起こりうるエラーには次のタイプのものがあります。  

テストされていない特定のタイプのデータが抽出のロジックに含まれていない。

加工のロジックで、2つの異なるタイプのデータ(例:車のローンとボートのローン)が1つのカテゴリ(例:車のローン)に集約されている。加工のロジックに特定のタイプのデータが含まれていないためにデータウェアハウスのレコードが不完全になる場合があります。

ロードプロセスでも同様の問題が見られます。

プロセス障害システムエラーや加工エラーのために現在のプロセスが失敗し、データのロードが不完全になる場合があります。システムエラーには、ソースシステムや抽出が利用できなかったりソース情報のフォーマットが間違っているために起きる異常終了などがあります。加工エラーは、間違ったフォーマットのために起こる場合があります。

参照データの変更や更新参照データが古かったり、不完全または不正確である場合、データウェアハウス情報のエラーにつながります。たとえば、販売手数料率のテーブルにエラーがあると、手数料金額の計算が正しくなくなる場合があります。

ソースシステムのデータ品質の問題ソースシステムのデータが不完全または不整合である場合があります。たとえば、ソースシステムの顧客レコードの郵便番号が欠落している場合

があります。販売に関連する類似のソースシステムのデータベースで商品名に略語が使用されている場合もあります。ソースシステムデータの不完全性や不整合性はデータウェアハウスの品質の問題になります。  

品質に関する現在の手法とコスト

多くのデータウェアハウス戦略は今のところETLツールを使用してデータ転送プロセスを標準化し、データ品質ソリューションを使用して不完全または不整合なデータを検出、修正することに重点を置いています。これらの努力は著しい改善につながりますが、データウェアハウスチームは、データウェアハウス情報とソースシステム情報のバランシングと照合のため、いくつもの手動/半自動のプロセスに依存しています。さまざまな組織で、現在、次のような手法が使用されています。

•ソースシステムのレコード数および金額情報とデータウェアハウスのレコード数および金額情報を比較するための独自のスクリプトを開発する。多くの場合、これらのスクリプトはデータロードが完了した後にアドホックベースまたは定期的に実行されます。

•コントロールテーブルを作成し、ETLプロセスの一部として、コントロールテーブルにデータウェアハウスとソースシステムの合計を入力する。ロードプロセス完了後にチェックが実行されます。

これらの方法でもある程度効果的にエラーを検出できますが、ETLプロセスに大きく依存しており、それがしばしばエラーの原因となります。さらに重要なのは、これらの手法は、ソースシステムからのトランザクションがいくつかのトランザクションに分割されている場合や単一のトランザクションに統合されている場合には、効果的でないということです。そのような場合には、ソースシステムとデータウェアハウス間の情報のバランシングに高度な論理が必要となります。さらに、スクリプトやETLプロセスを使用しても詳細レベルの情報を照合できないため、ユーザーは問題を正確に突き止めることができず、手動による調査や解決に多大な労力を費やすことになります。品質を保証するための調査や再実行に関連する運用コストが高くなることに加えて、現在の手法はデータウェアハウスチームの意欲やビジネスユーザーの自信に影響を及ぼします。

金融取引情報の保存と報告にデータウェアハウス情報を使用する場合は、データ品質の問題はより深刻です。このような場合、コントロールがエラーを検出すると、内部監査はコントロールの操作の証拠とエラー解消に関する文書を求めます。その求めに応じるために、しばしば無数のログファイルや電子メール群、およびデータウェアハウスのテーブルに対するクエリの実行が必要となります。そのため、データウェアハウスリソースの 負荷が増加し、監査とデータウェアハウスチームの関係が不和になります。

現在の手法は拡張性がなく、持続可能でもありません。自動化された情報コントロールを使用してデータウェアハウス情報の検証、バランシング、照合、追跡を行うことが急務です。理想的には、情報コントロールは下層のアプリケーションから独立していて情報転送プロセスとその検証結果の監査証跡を保存する機能を備えています。

データウェアハウス品質保証の3本柱

フォーチュン 500 の組織における成功した費用効率の高いデータウェアハウス品質戦略は、1 に示すように3本の柱の上に成り立っています。

Figure 1

データ品質(DQ)ツール不完全または不整合なソースシステムの情報を、データウェアハウスにロードする前に識別、修正、標準化します。これらのソリューションは、主に顧客の住所および商品名を検証することに重点を置いています。多くの場合、これらのソリューションでは、金融取引の品質問題には対応できません。

ETLツールソースシステム情報を抽出、加工し、それをデータウェアハウスにロードします。主にデータ転送プロセスを標準化し効率を高めることに重点を置いています。

情報コントロール(IC)ソリューションソースシステムデータがデータウェアハウスに至るETLプロセス内のさまざまな点を通って移動する際の情報の検証、バランシング、照合、追跡を実行します。集約レベルとトランザクションレベルの両方で情報の正確性、一貫性、完全性を独立して保証することに重点を置いています。

情報コントロールはロードの前と後でデータのバランシングと照合を行うだけでなく、データウェアハウスの範囲外に拡張して、データウェアハウス情報が総勘定元帳(GL)などのその他の重要なアプリケーションと連携していることを保証できます。たとえば、同じ会計仕訳システムからデータウェアハウスとGLの両方にデータがフィードされているにもかかわらず、GLシステムでの手動による調整によって同期していない状態になった場合、自動化された情報コントロールがあれば早期にその状態を検出できます。さらに、自動化された情報コントロールによって例外ケースでのコントロールアクションと解決に関する監査証跡情報が保存されます。2では、さまざまな観点からETLツールおよびDQツールとICソリューションを比較します。  

データウェアハウスの情報コントロールフレームワーク

ここで提案するフレームワークでは、データウェアハウスの品質戦略の目的を達成するために最低6つの情報コントロールを推奨しています。情報コントロールの位置を3に示します。6つのコントロールは次の通りです。

1. コントロールX1:データウェアハウスからソースシステムへの検証データウェアハウス情報がソースシステムとバランシングおよび照合できることを保証します。レコード数の検証に加えて、コントロールはレコードキーレベルでの金額と合

計金額のバランシングができます。また、コントロールはデータウェアハウスにロードされるデータが重複せずに、設定されたしきい値内に収まること(例:ソースファイルには平均1000個のレコードがあり合計が250万ドルのプラスマイナス10パーセントの範囲内にあること)を検証できます。許容範囲を超えた場合には、通知が送信されます。 

2. コントロールX2:フィード間でのデータの正確性と完全性の検証関連するソースフィード情報の一貫性があることを保証します。たとえば、あるフィードにはクレジットカード支払情報が含まれており、別のフィードには支払い情報に基づいた口座のクレジット情報が含まれている場合、これらの2つのフィードの一貫性を検証するコントロールが必要になります(たとえば、支払い情報がクレジット情報に一致するように検証するなど)。  

3. コントロールX3: ETLプロセスが正確で完全であることの検証コントロールは、トランザクションとプロセス(例:ソースからETL、データウェアハウスからデータマート)を監視します。すべてのプロセスの依存関係の順守を検証します。自動化された独立コントロールは、ETLのテストを自動化するためにも使用できます。  

4. コントロールX4: データウェアハウス内での情報の一貫性の検証多くのデータウェアハウスでは、参照整合性が順守されていません。下流アプリケーションによってデータ更新プロセスが変更されると、データの不一致が起こります。関連情報を一致させることによって維持される参照整合性を保証するために独立したコントロールを導入します。

5. コントロールX5: 下流アプリケーションまたはデータマートとのデータバランスの保証データウェアハウス情報が下流プロセスとバランスが取れ、一致していることを保証します。  

6. コントロールX6: 並列システムとデータウェアハウス間の検証データウェアハウス情報は他のシステム内に置かれている場合もあります。たとえば、ローン情報はGLと信用リスクデータウェアハウスの両方に置かれています。並列システム内の情報とデータウェアハウス情報を一致させることが重要です。このようなコントロールがない場合、GLシステムによって生成された会計報告書のローン情報が、バーゼルIIの自己資本比率計算上、必要となるローン情報と同期が取れていない場合があります。

Figure 2

Figure 3

結論

ビジネスニーズに対応するためにソースシステムは頻繁に変更され、重要なビジネス活動や意思決定を行う上でデータウェアハウス情報の必要性がますます高まっています。さらに規制や法令遵守要件は増え続け、変化し続けています。このような状況下、自動化された情報コントロールを使用することはもはや1つの選択肢ではなく、データウェアハウス内および企業全体で

の情報の正確性を保証する唯一の方法です。成功している組織は、企業の情報品質を保証するための全社的プログラムを開発することにより、情報コントロールの範囲をデータウェアハウスよりも広い範囲に拡張しています。情報コントロールのための適切なツールとフレームワークを選択することにより、組織は企業情報資産の品質を高めるという難しい目標を達成できます。

 

参考文献 

1 English, Larry; Improving Data Warehouse and Business Information Quality, Wiley and Sons, USA, 2000
2 Eckerson, Wayne W.; Data Quality and the Bottom Line, TDWI research series, USA, 2001
3 Friedman, Ted; Data Quality "Firewall" Enhances Value of the Data Warehouse, Gartner Report, USA, 2004
4 Violino, Bob; "Do You Trust Your Information?," The Information Agenda, 23 October 2008
5 Computer Sciences Corp., Technology Issues for Financial Executives, USA, 2007
6 Gupta, Sanjeev; "Why Do Data Warehouse Projects Fail?," Information Management, 16 July 2009

Christopher Reed: Infogix Inc.のソリューションコンサルタント。ソリューションコンサルティング業務のリーダー。フォーチュン500の企業が全社的な情報コントロールソリューションを作成するのを支援しています。Infogixでの業務に加え、Unisysでアーキテクチャコンサルタントとして顧客がミッションクリティカルなアプリケーションを展開する際のコンサルティング業務に従事しています。

Yaping Wang, CISA: Infogix の製品コンサルタント。自動化された情報コントロールドメインでの評価、勧告、実装その他のサービスを提供するクライアントサービスプロジェクトのリーダーです。

Angsuman Dutta: Infogix の顧客獲得サポートチームのユニットリーダー。2001年以来、多くの業界トップクラスの企業が自動化された情報コントロールを実装するのを支援してきました。