データサイエンス 入門 機械学習

【Kaggle】データ分析コンペの内容を紹介!!有名問題も紹介

みなさんはこの記事をみているということは、データ分析コンペに興味があることかと思います。

今回はKaggleというデータ分析コンペに絞り、どのような内容のデータ分析問題、タスクが

取り扱われているのかをまとめてみました。

Gmailさえあれば参加可能です!!

Kaggle以外にも、様々な競技プログラミングやデータ分析コンペが開催されているので

ぜひ調べて参加してみましょう!!

データ分析コンペの内容

データサイエンスでは、分析する内容や問題をタスクと表現します。慣れましょう笑

データ分析コンペというだけあって、データを解析します(当たり前)

ある商品の購入者リストであったり、患者のデータといったデータがタスクごとに用意され

より商品を購入されるためには?や病気である確率は?といった予測値を求めることになります。

日常生活において人間は頭の中で、あるデータから予測をしまくっています。

それをプログラミングを使って機械的に求めてみようということです!!!楽しそうでしょ!!??

ではこれから、回帰タスク、分類タスク、レコメンドなどを見ていきましょう!

回帰タスク

物の値段や株価のような数値を予測するタスクです。

過去のデータから将来の値を当てることが機械学習の得意な分野でもあるので、回帰タスクは多く出題されています!

家の値段を予測する「House Prices」がとても有名な問題です

評価する指標としては、RMSE、MAEなどが使用されます。

分類タスク

二値分類

「ガンになっているか」「犬か猫か」などレコードがある属性に属しているかどうかを予測するタスクです。

ある属性に属しているかを0,1というあり・なしで予測する場合と、0~1の間の確率でありそう・なさそうを予測する場合の2つがあります。

超有名な問題に「タイタニック号に乗っている乗客のなかでどんな属性の人が生き残りやすいか」があります。

問題の題材から楽しそうですね!!

評価指標としては、F1-score、logloss、AUCなどがあります。

多クラス分類

レコードが複数のクラス農地どれに当てはまるかを分類するタスクをマルチクラス分類と言います。

また、一つのレコードが複数同時に異なるクラスに当てはまるようなタスクをマルチラベル分類と言います。

大抵のデータ分析コンペの内容は、マルチクラス分類です。

評価指標としては、multi-class logloss や mean-F1などがあります。

レコメンデーション

内容としては、ユーザが購入する確率の高い商品や反応の良さそうな広告を予測するタスクです。

予測した複数の商品について購入可能性に応じた順位を作成するデータ分析コンペや
購入可能性などの確率を各商品に対して求めるデータ分析コンペもあります。

データ分析コンペでは、順位をつける、つけないに関わらず二値分類のタスクとして解くことができます。

それぞれの商品に対して購入確率を求めることによって解くことができるからです。

有名な問題には、「どの金融サービスを新規利用するか」があります。

評価指標としては、MAP@Kなどです。

その他タスク

そのほかに、画像データを扱うデータ分析コンペもあります。

物体検出(object detection)

画像で与えられる物体のクラスや画像のどの位置物体があるのかを推定するタスクです。

セグメンテーション

画像から物体の存在領域をピクセル単位で推定するタスクです。

まとめ

いかがだったでしょうか??

あるデータから何かを予測するって楽しそうですよね??

本当に手軽に参加できるの是非


-データサイエンス, 入門, 機械学習
-

© 2020 はやぶさエンジニア Powered by AFFINGER5