【Kaggle】キャッサバコンペ参加記

2020年12月15日

Kaggleのキャッサバコンペ(Cassava Leaf Disease Classification)に参加しました@2020/12/15

初心者なりにわかっていることについてまとめようと思います。

ソースコードはKaggle内フォーラムでの共有は認められていますが、外部での共有は認められてないので、今回ソースコードはありません。

概要

キャッサバ画像の分類問題のようです。

分類内容は以下のように正常・病気の分類であり、病気の種類が4つあるので合わせて5分類です。

  • 正常画像1
  • 病気画像
    • 病気分類1
    • 病気分類2
    • 病気分類3
    • 病気分類4

評価方法(Metrics)は単純なAccuracyのようです。

タスク的にもそれほど難しくないことから、序盤の12/15時点でメダル圏内が0.005以内に入っており、今後も熾烈な争いが予想されます。

データ

OverviewとDataに記載されている内容だと

  • 学習:21,367枚のラベリングされた画像
  • テスト:15,000枚の画像

の構成のようです。

提出

自分も理解が怪しいですがKaggleのコンペでは、CSVによる提出とNotebookによる提出があるようで、今回の場合はNotebookによる提出(Code competition)のようです。

データで紹介したテスト画像は15,000枚の画像でありますが、実際データをダウンロードするとテスト画像が1枚しかなく、混乱しました。

すると、KaggleのDiscussionでwhere are test dataset?というテスト画像が1枚しかないという同じ質問を発見。

答えとしては

  • テストデータはPublicとPrivateでデータが分かれており、どちらも参加者からは見えない
  • Publicは割合として40%(6,000枚)なので、Privateは60%(9,000枚)であり、提出した値はPublicにて算出される

という内容でした。

また、回答者は実際の提出方法にも言及しており

  • 方法①:学習と推論のNotebookをわけて提出
  • 方法②:学習と推論のNotebookをわけないで提出

という方法があるようです。加えて提出時にはインターネットをOfflineにするようにとも書いていました。

背景としては、2019年末に提出中に外部に不正にアクセスした方がいたからのようです。

提出したところ、提出には20分ほどかかっていたようなので、submit後は気長に待っていた方が良さそうです。

まとめ

現在、画像コンペが3つも同時に開催されており、お腹いっぱいです。