投稿

11月 21, 2018の投稿を表示しています

Oracle データベースを Amazon RDS PostgreSQL または Amazon Aurora PostgreSQL に移行するための成功事例: Oracle および AWS DMS CDC 環境のソースデータベースに関する留意事項

イメージ
Oracle データベースを Amazon RDS PostgreSQL または Amazon Aurora PostgreSQL に移行するための成功事例: Oracle および AWS DMS CDC 環境のソースデータベースに関する留意事項 : AWS クラウドにおける Oracle から PostgreSQL への移行は、評価段階からカットオーバー段階まで、さまざまな技術とスキルを伴う複雑な多段式のプロセスになる可能性があります。伴う複雑さの内容をさらに詳しく理解するには、AWS データベースのブログ投稿をご参照してください。 データベースの移行 – 開始する前に知っておくべきこととは? このブログの投稿は一連の投稿の 2 回目です。前回の 移行プロセスとインフラストラクチャに関する留意事項 では、移行プロセスの準備について、そして最適なパフォーマンスを手に入れるためのインフラストラクチャ設定の注意点について説明しています。この 2 回目の記事では、元の Oracle データベースの構成と環境を両方とも 1 回の移行と、 change data capture (CDC) という方法による継続的なレプリケーションで設定する方法について説明しています。ソースデータベースの変更を保存するために Oracle DB コンポーネントを適切に設定することにより、思い通りに AWS Database Migration Service (AWS DMS) のサービス環境を構築することができます。このシリーズの3回目となる最後のブログ記事は、AWS DMS を使用したデータベース移行プロセスのエンドポイントである、ターゲットのPostgreSQLデータベース環境の設定を取り上げます。 AWS DMSは、 Amazon RDS または Amazon EC2 のデータベースのオンプレミスデータベースを Amazon RDS または Amazon Aurora データベースに移行するためのサービスです。Amazon DMS は、 Oracle から Oracle への同機種間の移行や、 AWS クラウドの Oracle から MySQL 、PostgreSQL などの異機種間の移行も処理できます。 DMS の設定は、管理者がAWS 管理コンソールから AWS DMS に...

AWS での Apache Kafka の実行のためのベストプラクティス

イメージ
AWS での Apache Kafka の実行のためのベストプラクティス : この記事は Intuit とのパートナーシップに基づいて書かれ、AWS で Apache Kafka クラスタを実行するための学習、ベストプラクティス、推奨事項を共有するものです。Intuit の Vaishak Suresh と同氏の同僚の方々の貢献とサポートに感謝いたします。 Intuit の概要: Intuit は、AWS のエンタープライズ顧客のリーダーであり、ビジネスと財務管理ソリューションのクリエーターです。Intuit の AWS とのパートナーシップに関する詳細については、以前のブログ記事 Real-time Stream Processing Using Apache Spark Streaming and Apache Kafka on AWS を参照してください。Apache Kafka はリアルタイムのストリーミングアプリケーションを構築することを可能にする、オープンソースの分散型ストリーミング プラットフォームです。 この記事に記載されているベストプラクティスは、2年以上にわたり、AWS で大規模な Kafka クラスタを実行し運営する当社の経験に基づいています。この記事では、AWS で Kafka を現在実行している AWS 顧客を支援し、また AWS にオンプレミスの Kafka 展開を移行することを考えている顧客も支援することを目的としています。 AWS は完全に管理対象となっている Kafka のオルタナティブである Amazon Kinesis Data Streams を提供します。 Amazon EC2 で Kafka の展開を実行すると、ストリーミングデータの取り込みのための高性能でスケーラブルなソリューションを提供します。AWS は多くの異なる インスタンスタイプ とストレージオプションの組み合わせを Kafka デプロイに提供しています。しかし、可能性のあるデプロイトポロジーの数を考えると、ユースケースに対して必ずしも最も適切な戦略を選択することは、必ずしも常に自明であるわけではありません。 このブログ記事では、AWS でのKafka クラスタの実行について、以下の面を取り上げます。 デプロイの考察とパターン ストレー...

AWS Glue のクロスアカウントおよびクロスリージョンの接続を行う

イメージ
AWS Glue のクロスアカウントおよびクロスリージョンの接続を行う : AWS Glue は、抽出、変換、ロード (ETL) のための完全マネージド型サービスであり、分析のためのデータの準備と読み込みを簡単にします。AWS Glue は、AWS Glue ドキュメントで説明されているように、 接続 を使用して、 特定のタイプ のソースおよびターゲットのデータストアにアクセスします。 デフォルトでは、AWS Glue を使用して、AWS Glue リソースを備えているのと同じ AWS アカウントおよび AWS リージョンのデータストアへの接続を行うことができます。このブログ記事では、AWS Glue リソースを備えているのとは異なるアカウントや AWS リージョンのデータストアにアクセスする方法について説明します。 AWS Glue の接続 AWS Glue は、ドキュメントで説明されているように、 AWS Glue データカタログ で、接続を使用してデータストアのメタデータをクロールおよびカタログ作成します。また、AWS Glue ETL ジョブも、接続を使用してソースおよびターゲットのデータストアに接続します。AWS Glue は、 Amazon Redshift 、 Amazon RDS 、 JDBC データストア への接続をサポートしています。 接続には、AWS Glue がデータストアにアクセスするために必要なプロパティが含まれています。こうしたプロパティには、ユーザー名とパスワード、データストアのサブネット ID、セキュリティグループなどの接続情報が含まれている場合があります。 データストアが Amazon VPC 内にある場合、AWS Glue は VPC のサブネット ID とセキュリティグループ ID という接続プロパティを使用して、データストアを含む VPC に Elastic Network Interface を設定します。これを行うことで、ETL ジョブとクローラを VPC 内のデータストアに安全に接続することができます。 データストアを含む VPC が AWS Glue リソースと同じアカウントおよび AWS リージョンにある場合、AWS Glue はこの Elastic Network Interface の設定を行...

最新 – Amazon Comprehend でカスタム文書分類子をトレーニングする

イメージ
最新 – Amazon Comprehend でカスタム文書分類子をトレーニングする : Amazon Comprehend は自然言語のテキストを大量に処理するパワーをもたらします (詳しくは、入門的な内容を記した、私の投稿記事、 Amazon Comprehend – Continuously Trained Natural Language Processing をご覧ください)。2017 年に英語およびスペイン語のサポートとともに立ち上げて以来、私たちはお客様のニーズに基づいた機能を追加してきました。たとえば、 非同期バッチオペレーション 、 構文分析 、 多言語 サポート (フランス語、ドイツ語、イタリア語、ポルトガル語)、リージョンの追加などが挙げられます。 自動機械学習 (AutoML) を使用することで、Comprehend は ML の入力と出力を学習する必要のない、お客様が既にお持ちのデータを使用したカスタム自然言語処理 (NLP) モデルの作成を実現します。お客様のデータセットとユースケースに基づき、適切なアルゴリズムを自動的に選択して、パラメータ、ビルドのチューニング、および結果モデルのテストを行います。 タグ付き文書のコレクションを既にお持ちであれば (サポートチケット、 Amazon Transcribe 経由、フォーラムの投稿などといったコールセンターの会話)、開始点としてこれらをご使用いただけます。この場合、タグ付きとは単に、各文書が検証済みであり、望ましい方法で特徴づけるラベルが割り当てられていることを意味します。カスタム分類には少なくともラベルごとに 50 件の文書が必要ですが、数百または数千件の文書があれば特徴づけの精度が上がります。 この記事では主にカスタム分類について取り上げ、適切なテキストから不適切な表現を含むテキストを分離するモデルのトレーニング方法をご紹介します。続いて、新しいテキストを分類するモデルの使用方法をご紹介します。 分類子の使用 開始点となるのは次の様なトレーニングテキストの CSV ファイルです (ここでは画像を加工していますが、不適切な言葉が多数含まれています)。 トレーニングデータは S3 オブジェクト内に常駐している必要があり、また、1 行につきラベルと文書を 1 つづつ指定...

Re:Invent 2018 での AWS ビッグデータと分析セッション

イメージ
Re:Invent 2018 での AWS ビッグデータと分析セッション : re:Invent 2018 が間もなく開催です! 今年は、データと分析の追跡が盛り上がっています。 このブログ記事では、re:Invent 2018 のデータと分析セッションを特集しています。本年のイベントに参加されるなら、会議で行われるセッション、ワークショップ、チョークトーク、ビルダーセッションを確認してください。これまでと同じく、分析、深層学習、AI Summit、サーバーレス、アーキテクチャ、データベースなど、さまざまなトピックカテゴリーのイベントが行われます。 Intuit、Nike、Intel、WuXi NextCODE、Warner Brothers、AutoDesk、NFL、SendGrid、McDonald、AirBnB、Hilton、Guardian Life、Amazon Go、Pfizer など、多くの企業の素晴らしいセッションが行われます。 これらのセッションは録画され、会議後に YouTube から視聴可能です。また、これらのセッションのすべてのスライドデッキは、会議後に SlideShare.net で入手できます。 ブレークアウトセッションの詳細については、この記事のリンクを選択してください。 注意: 機械学習に興味があれば AI Summit と Machine Learning、AI ワークショップとセッション を確認してください。次のブレークアウト分析セッションは、今年の セッションカタログ を構成します。 AWS Analytics と DB Services のバイスプレジデント Anurag Gupta と、 Amazon Machine Learning (Amazon ML) のバイスプレジデント Swami Sivasubramanian による 2 つのセッションがあります。 ANT205 – テクノロジーの動向: データレイクと分析 この講演では、AWS Analytic と Transactional Database Services のバイスプレジデント Anurag Gupta がデータレイクや分析分野の重要な動向について語り、AWS で提供するサービスをどのように形作るかを説明します。具体的な傾向に...