みなさんはこの記事をみているということは、データ分析コンペに興味があることかと思います。
今回はKaggleというデータ分析コンペに絞り、どのような内容のデータ分析問題、タスクが取り扱われているのかをまとめてみました。
Kaggleには、Gmailさえあれば参加可能です!!
Kaggle以外にも、様々な競技プログラミングやデータ分析コンペが開催されているのでぜひ調べて参加してみましょう!!
データ分析コンペの内容
データサイエンスでは、分析する内容や問題をタスクと表現します。慣れましょう笑
データ分析コンペというだけあって、データを解析します(当たり前)
ある商品の購入者リストであったり、患者のデータといったデータがタスクごとに用意され、「より商品を購入されるためには?」や「病気である確率は?」といった予測値を求めることになります。
日常生活において人間は頭の中で、いろんなデータから予測をしまくっています。
「曇っているから傘を持って行こう」「熱中症になりそうだから水を飲もう」といった感じです。
それをプログラミングを使って機械的に求めてみようということです!!!楽しそうでしょ!!??
ではこれから、データ分析のタスクの代表例である、【回帰タスク】【分類タスク】【レコメンド】などを解説していきます。
回帰タスク
回帰タスクは、物の値段や株価のような数値を予測するタスクです。
過去のデータから将来の値を当てることが機械学習の得意な分野でもあるので、Kaggleでは回帰タスクは数多く出題されています!
住宅の価値を予測する「House Prices」がとても有名な問題です。
家の広さ、築年数といった住宅の基礎データが用意されていて、そのデータを元に住宅価値を推定します。
実際に挑戦している方の記事を載せておきます。
住宅価格を予測する〜Kaggle House Priceチュートリアルに挑む
House Price してみた
評価する指標としては、RMSE、MAEなどが使用されます。
分類タスク
二値分類
「ガンになっているか」「犬か猫か」などレコードがある属性に属しているかどうかを予測するタスクです。
ある属性に属しているかを0,1というあり・なしで予測する場合と、0~1の間の確率でありそう・なさそうを予測する場合の2つがあります。
超有名な問題に「タイタニック号に乗っている乗客のなかでどんな属性の人が生き残りやすいか」があります。
問題の題材から楽しそうですね!!
評価指標としては、F1-score、logloss、AUCなどがあります。
多クラス分類
レコードが複数のクラス農地どれに当てはまるかを分類するタスクをマルチクラス分類と言います。
また、一つのレコードが複数同時に異なるクラスに当てはまるようなタスクをマルチラベル分類と言います。
大抵のデータ分析コンペの内容は、マルチクラス分類です。
評価指標としては、multi-class logloss や mean-F1などがあります。
レコメンデーション
内容としては、ユーザが購入する確率の高い商品や反応の良さそうな広告を予測するタスクです。
予測した複数の商品について購入可能性に応じた順位を作成するデータ分析コンペや
購入可能性などの確率を各商品に対して求めるデータ分析コンペもあります。
データ分析コンペでは、順位をつける、つけないに関わらず二値分類のタスクとして解くことができます。
それぞれの商品に対して購入確率を求めることによって解くことができるからです。
有名な問題には、「どの金融サービスを新規利用するか」があります。
評価指標としては、MAP@Kなどです。
その他タスク
そのほかに、画像データを扱うデータ分析コンペもあります。
物体検出(object detection)
画像で与えられる物体のクラスや画像のどの位置物体があるのかを推定するタスクです。
セグメンテーション
画像から物体の存在領域をピクセル単位で推定するタスクです。
まとめ
いかがだったでしょうか??
あるデータから何かを予測するって楽しそうですよね??
本当に手軽に参加できるの是非