2019年データマイニングに関する面白い記事10選

「ビッグデータ」という言葉は生活の中で、身近によく使われている言葉になってきた感じがありませんか。その分析の実用例として、データマイニング(Data mining)技術が挙げられます。データマイニング(Data mining)とは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術のことです。この記事では、データマイニング及びビッグデータが私たちの生活にどのように影響を与えているのかを面白い記事10選で簡単に紹介します。

1. 「おむつとビール」

ビッグデータは、ウォルマートマーケティング部門の意思決定を支援するのによく利用されています。1992年に「ウォールストリートジャーナル」に掲載された記事によると、彼らはその販売データを分析した結果、顧客はおむつとビールを一緒に買う傾向があることを発見したそうで、そこでこの2つを並べて陳列したところ、売り上げが上昇しました。しかし、1990年代前半はデータマイニングという言葉はまだ知られておらず、技術的にもまだ未熟のため、この話は「伝説だ」といっている人もいます。

2. 車両モデル改善
フォード研究開発チームはかつて、ビッグデータを利用して、SUVのバックトラックを開く方法(手動または自動で開くなど)について分析を行いました。当時は顧客からの意見がなく、また定期的な調査でもそれを潜在的な問題として反映されていませんでした。実際に多くの顧客がソーシャルプラットフォーム上でそれに関して話し合っていることは当チームがデータを分析して発見しました。そこで、それらの情報に基づいて、車両モデルの改善を進めたそうです。

3. メニューの切り替え
監視カメラシステム(CCTV)で来店客の行列の長さを判断して、それによって画面に表示されるメニューを切り替えることができるファーストフードレストランがあります。プリセットアルゴリズムに基づいて、CCTVは行列の状況情報をコンピューターに送信し、コンピューターは計算を実行して結果を送り返し、大画面に表示するメニューを切り替えます。たとえば、行列が長い場合はより素早くできるファーストフードをメニューにたくさん載って、そうでない場合はより収益性の高く、準備に時間のかかる料理をメニューに切り替えます。

4. インフルエンザ予測
2009年、Googleは頻繁に検索された5,000万件のビッグデータを2003〜2008年のと比較して、インフルエンザの感染状況が過去と比べても非常に高い値を示していることを予測して成功しました。

5. 音楽好みを分析
Gracenoteデータベースは、スマートフォンやタブレットの内蔵マイクによって、ユーザーのテレビやステレオで再生される曲を認識し、拍手やブーイングなどの反応を検出し、ユーザーが音量を上げたかどうかを検出する技術を生かしています。それでGracenoteは、ユーザーが好みの曲と、この曲が再生される時間と場所を分析することができます。

6. オスカー受賞作品予測
2013年、Microsoft Institute New YorkのDavid Rothschildはビッグデータを使用して、オスカー候補作品24作のうちに19作、翌年21作を予測しました。

7. 犯罪現場予測
プレッドポル(PredPol)は、ロサンゼルスおよびサンタクルーズ警察と研究者からなるチームの6年にわたる研究の結果です。地震予測アルゴリズムのバリエーションと犯罪の危険性がある要注意エリアの一辺から500フィート以内まで正確な犯罪データに基づいて発生する犯罪の確率を予測します。アルゴリズムが適用されたロサンゼルスでは、19週間のうちに犯罪発生率が47%減少した。

8. 製品改善
Saas企業であるOctoparseは、Webスクレイピングツールのサポートに専念しており、常にクライアントの提案を念頭に置いています。 2017年、Octoparseはクライアントから数千のレビューを収集し、NLP言語を利用して製品に対するレビュー内容を分析し、製品のアップグレードに生かしました。そのおかげで、クライアントのエクスペリエンスは大幅に改善されました。

9. 理想な相手発見
数学者のクリス・マッキンレイはカリフォルニア大学ロサンゼルス校の博士。多くの女の子とデートしてみたが、理想な彼女を見つけることができませんでした。恋人マッチングサービスOKCupidの恋人マッチングアルゴリズムがだめだと思ったので、McKinlayは数学者としての才能を活かして、自分でマッチングアルゴリズムを作成し、理想な彼女を見つけました。まずはOKCupidに登録されている女性のQ&Aを収集してから、それに基づいてデータを分析します。適切なプロフィールを作成して、88番目のデータでやっと理想な彼女を見つけました。

10. 偽造防止法実施
アリババは最近、一連の偽造事件を開示しました。Alibabaの安全課は、「実際、最も信頼できるビッグデータは、アカウントトランザクションデータ、物流、および出荷情報である」と主張しました。Alibaba安全課のスタッフは、配送先住所、IPアドレス、返品先などに関する情報を通じて、オフラインの倉庫場所を追跡できると述べました。アカウントトランザクションデータは、各トランザクションおよび各販売レコードについて開示できます。売り手のIDとストアが異なる場合でも、ビッグデータを通じてオフラインの偽の売り手を見つけることができます。AlibabaのPR部門によると、長年の慣行の後、偽造品システムを監視、分析、取り締まるためのビッグデータ取締りモデルが確立され、現在、警察と協力して偽造品をボイコットする際に使用されています。

生活には、ビッグデータとデータマイニングの実用的な用途が非常に多くあります。一言で言えば、不思議だと思う技術がビッグデータを頼りにとして使っているのかもしれません。ビッグデータに関する面白いほかの記事がまだたくさんあると思います。

この記事が気に入ったら、サポートをしてみませんか?気軽にクリエイターを支援できます。

Octoparse Japan

Octoparse は、視覚的に分かりやすくWebサイトから大量の情報を手軽に抽出できるWebスクレイピングツールです。 コードを書くことなく、スクレイピングの初心者でも使えます。自動化システムで時間と費用の大幅なコストダウンに貢献いたします。
コメントを投稿するには、 ログイン または 会員登録 をする必要があります。