なぜVertica/InfoBright/GreenPlumのような列指向のデータベースはHadoopの大騒ぎになるのですか?

Hadoopクラスタに供給し、そのクラスタを使用してVertica/InfoBrightデータウェアハウスにデータを供給する際のポイントは何ですか?

これらすべてのベンダーは、「Hadoopと接続できる」と言っていますが、何が問題なのか分かりません。 Hadoopに保存してInfoBrightに転送するのはどうですか? Infobright/Vertica DWに直接アプリケーションを保存するのはなぜですか?

ありがとうございました !

5

9 答え

なぜソリューションを組み合わせるのですか? Hadoopにはいくつかの優れた機能があります(下のURLを参照)。これらの機能には、ビジネスユーザーが迅速な分析を実行できるようにすることは含まれていません。 Hadoopで30分から数時間かかるクエリは、Infobrightを使用して10秒で配信されます。

BTW, your initial question did not presuppose an MPP architecture and for good reason. Infobright customers Liverail, AdSafe Media & InMobi, among others, utilize IEE with Hadoop.

業界白書に登録する場合は、 http://support.infobright.com/Support/ Resource-Library/Whitepapers/には、4つの提案されたHadoopのユースケースが概説されている現在のマーケットプレイスのビューが表示されます。これは、2011年9月にTechTargetのビジネスアプリケーションおよびアーキテクチャグループのリサーチディレクター、Wayne Eckersonによって作成されました。

1) Create an online archive.
With Hadoop, organizations don’t have to delete or ship the data to offline storage; they can keep it online indefinitely by adding commodity servers to meet storage and processing requirements. Hadoop becomes a low-cost alternative for meeting online archival requirements.

2) Feed the data warehouse.
Organizations can also use Hadoop to parse, integrate and aggregate large volumes of Web or other types of data and then ship it to the data warehouse, where both casual and power users can query and analyze the data using familiar BI tools. Here, Hadoop becomes an ETL tool for processing large volumes of Web data before it lands in the corporate data warehouse.

3) Support analytics.
The big data crowd (i.e., Internet developers) views Hadoop primarily as an analytical engine for running analytical computations against large volumes of data. To query Hadoop, analysts currently need to write programs in Java or other languages and understand MapReduce, a framework for writing distributed (or parallel) applications. The advantage here is that analysts aren’t restricted by SQL when formulating queries. SQL does not support many types of analytics, especially those that involve inter-row calculations, which are common in Web traffic analysis. The disadvantage is that Hadoop is batch-oriented and not conducive to iterative querying.

4) Run reports.
Hadoop’s batch-orientation, however, makes it suitable for executing regularly scheduled reports. Rather than running reports against summary data, organizations can now run them against raw data, guaranteeing the most accurate results.

14
追加された

あなたがそれをしたいことがあるいくつかの理由があります 1. TB当たりのコスト。 Hadoopのストレージコストは、Vertica/Netezza/greenplumなどよりもはるかに安いです。 Hadoopでの長期保存と分析DBでの短期データを取得できます 2. Hadoop(変換を実行する)のデータ取り込み機能は、Hadoop 3.プログラム分析( Mahout のような図書館)ので、高度なテキスト解析を構築できます 4.非構造化データの処理

MPP DBは、アドホッククエリのパフォーマンスが向上し、構造化されたデータや従来のBIツール(OLAPとレポート)との接続性が向上しているため、基本的にHadoopはこれらのDBの提供を補完します

4
追加された

HadoopはDB以上のプラットフォームです。

Hadoopは、さまざまな種類のファイルに対して多くのクエリをサポートするきちんとしたファイルシステムだと考えてください。これを念頭において、ほとんどの人は生データをHadoopにダンプし、それをデータパイプラインのステージングレイヤーとして使用します。そこでは、データをチューニングして頂点などの他のシステムにプッシュできます。 デカップリングを再開できるいくつかの利点があります。

だから、Hadoopは大きなデータのための事実上のストレージプラットフォームに目を向けています。シンプルでフォールトトレラントで、スケールがよく、フィードを作成してデータを取得するのは簡単です。だから、ほとんどのベンダーはおそらくHadoopをインストールしている企業に製品をプッシュしようとしています。

3
追加された

What makes the joint deployment so effective for this software ?

First, both platforms have a lot in common:

  • ビッグデータの変換と分析のために、最初から構築された目的
  • MPPアーキテクチャを汎用ハードウェア、 データのPBを通じてTBを管理できる
  • 管理オーバーヘッドの少ないネイティブHAサポート

Hadoop is ideal for the initial exploratory data analysis, where the data is often available in HDFS and is schema-less, and batch jobs usually suffice, whereas Vertica is ideal for stylized, interactive analysis, where a known analytic method needs to be applied repeatedly to incoming batches of data.

By using Vertica’s Hadoop connector, users can easily move data between the two platforms. Also, a single analytic job can be decomposed into bits and pieces that leverage the execution power of both platforms; for instance, in a web analytics use case, the JSON data generated by web servers is initially dumped into HDFS. A map-reduce job is then invoked to convert such semi-structured data into relational tuples, with the results being loaded into Vertica for optimized storage and retrieval by subsequent analytic queries.

ビッグデータのアドレス指定時にHadoopとVerticaを補完する主要な違いは何ですか?

  • Interface and extensibility

    Hadoop
    Hadoop’s map-reduce programming interface is designed for developers.The platform is acclaimed for its multi-language support as well as ready-made analytic library packages supplied by a strong community.
    Vertica
    Vertica’s interface complies with BI industry standards (SQL, ODBC, JDBC etc). This enables both technologists and business analysts to leverage Vertica in their analytic use cases. The SDK is an alternative to the map-reduce paradigm, and often delivers higher performance.

  • Tool chain/Eco system



    Hadoop
    Hadoop and HDFS integrate well with many other open source tools. Its integration with existing BI tools is emerging.
    Vertica
    Vertica integrates with the BI tools because of its standards compliant interface. Through Vertica’s Hadoop connector, data can be exchanged in parallel between Hadoop and Vertica.

  • Storage management



    Hadoop
    Hadoop replicates data 3 times by default for HA. It segments data across the machine cluster for loading balancing, but the data segmentation scheme is opaque to the end users and cannot be tweaked to optimize for the analytic jobs.
    Vertica
    Vertica’s columnar compression often achieves 10:1 in its compression ratio. A typical Vertica deployment replicates data once for HA, and both data replicas can attain different physical layout in order to optimize for a wider range of queries. Finally, Vertica segments data not only for load balancing, but for compression and query workload optimization as well.

  • Runtime optimization

    Hadoop
    Because the HDFS storage management does not sort or segment data in ways that optimize for an analytic job, at job runtime the input data often needs to be resegmented across the cluster and/or sorted, incurring a large amount of network and disk I/O.

    Vertica
    The data layout is often optimized for the target query workload during data loading, so that a minimal amount of I/O is incurred at query runtime. As a result, Vertica is designed for real-time analytics as opposed to batch oriented data processing.

  • Auto tuning

    Hadoop
    The map-reduce programs use procedural languages (Java, python, etc), which provide the developers fine-grained control of the analytic logic, but also requires that the developers optimize the jobs carefully in their programs.
    Vertica
    The Vertica Database Designer provides automatic performance tuning given an input workload. Queries are specified in the declarative SQL language, and are automatically optimized by the Vertica columnar optimizer.
3
追加された

Greenplum DBのような大規模並列データベースは膨大な量の構造化データを処理するのに優れています。 Hadoopはさらに大量の非構造化データを処理するのに優れています。ウェブサイト

今日、数多くの興味深い分析は、これらの両方のタイプのデータを組み合わせて洞察を得ています。したがって、これらのデータベースシステムはHadoopと統合できることが重要です。

例えば、MapReduceを使ってHadoop Clusterでテキスト処理を行うことができます。このスコアリング値は、データベースによって既にデータベースに格納されている他のデータまたは他のソースからデータベースにロードされたデータと結合するためにデータベースによって使用される可能性があります。

0
追加された

Arnonの答えを少し拡大するために、Hadoopは開発者からの草の根的な努力によって、多くの時間組織からの牽引力がなくなりつつあります。 MPPデータベースは、設計時に「国ごとに1時間に何回トランザクションを取るのか?」など、われわれが知っている質問に答えるのに適しています。

Hadoopはアナリストと開発者の間のどこかにいる新しいタイプの開発者のためのプラットフォームとしてスタートしました。開発者はコードを書くことができますが、データ分析と機械学習も理解できます。 MPPデータベース(列の有無)は、データベースで実行するにはあまりにも多くのCPUパワーを必要とするアルゴリズムや大きすぎるデータセットを使用して、非構造化データを頻繁に分析するこのタイプの開発者には適していません。いくつかのモデルを構築するのに必要なCPUパワーの量が多いため、これらのアルゴリズムを従来のシャードされたDBで実行することは不可能です。

hadoopを使った私の個人的なパイプラインは、典型的に次のようになります:

  1. Hadoopで大量の大量のグローバルクエリを実行して、データと変数の分布に関する基本的な感触を得る。
  2. Hadoopを使用して、興味のあるデータだけでより小さなデータセットを構築します。
  3. 小さなデータセットをリレーショナルDBにエクスポートします。
  4. リレーショナルデータベースでたくさんの小さなクエリを実行し、Excelシートを構築します。時には小さなRを行います。

このワークフローは、「アナリスト開発者」または「データ科学者」のみが使用できます。その他の走行距離は異なります。

私のようなツールを放棄するような人たちのために、これらの企業は、Hadoopが大きなデータ、最も魅力的な新興企業、最先端のテクノロジーと同義である時代に、関連性を保つ方法を模索しています。また、Hadoopの多くのインストールは、組織のMPPデプロイメントよりも一桁以上大きいので、Hadoopでより多くのデータを保持することができます。

0
追加された

構造化されていないデータは、性質上、従来のデータウェアハウスへの読み込みには適していません。 Hadoopのmapreduceジョブは、ログファイルから構造を抽出することができます(ex)。その後、同じものをDWに移植して解析を行うことができます。 Hadoopはバッチ処理であるため、分析クエリ処理には適していません。したがって、hadoopを使用してデータを処理して構造体を作成し、ビジュアライゼーション/ SQLレイヤーを使用してクエリを準備できるようにすることができます。

0
追加された

Hadoopクラスタに給油し、そのクラスタを使用してVertica/InfoBrightデータウェアハウスにデータを供給する際のポイントは何ですか?

要点は、ユーザーがクエリを起動して数分待つことを望まないということです。答えが返されるまで何時間も待つことがあります。 Hadoopはリアルタイムのクエリ応答を提供することはできません。これはClouderaのImpalaとHortonworksのStingerの出現とともに変化していますが。これらはHadoop上のリアルタイムデータ処理エンジンです。

Hadoop's underlying data system, HDFS, allows chunking up your data and distributing it over the nodes in your cluster. In fact, HDFS can also be replaced with a 3rd party data storage like S3. Point is: Hadoop provides both -> storage + processing. So you are welcome to use hadoop as storage engine and extract the data into your data warehouse when needed. You can also use Hadoop to create cubes and marts and store these marts in the warehouse.

しかし、スティンガーとインパラの出現により、これらの主張の強さは最終的に消去されます。だから目を閉じてください。

0
追加された

私はHadoopのユーザーではない(ちょうどVerticaユーザー/ DBA)が、私は答えがこれらの行に沿って何かと思われる:

- すでにHadoopを使用した設定があり、集中分析分析のための「ビッグデータ」データベースを追加したいとします。

- 非分析関数と処理にHadoopを使用し、分析にデータベースを使用したいとします。しかし、それは同じデータなので、2つのフィードは必要ありません。

0
追加された