なにメモ(なにかしらのメモ帳)

コンピュータビジョンや機械学習関係の話題を書き綴ると思うブログです。

今日から始めるデータサイエンス はじめに

はじめに

昨今、新聞などで見られるビッグデータという記事。それと同時にチラッと見えるデータサイエンス(データ科学)とかデータサイエンティストとか。これらの話を利益とかあまり知らない学生の視点から説明していく一連の日記を書いてみます。今後はR言語Pythonを用いた解析例を交えて説明していく予定です。僕が燃え尽きたら知りません。(友達の参考資料になったらいいな

 

 

ビッグデータってなに?

ビックデータとは、仕事に役立つ知識を得るための大量のデータ(参考:[1])を言います。ビックデータは、Googleなどの検索ワードやTwitterのツイート、JRの利用情報、Flickrの画像など幅広い分野(下図)で得られます。

 f:id:alfredplpl:20131128212822p:plain

図 ビッグデータの種類([2]より引用)

データサイエンスってなに?

データサイエンス[3]とは、データを調べる方法や大量のデータを取り扱う方法をまとめた学問です。基本的にはコンピュータを使うことが前提となっています。学問の分野では結構昔からありますが、最近になってビッグデータを取り扱う方法としてもてはやされるようになりました。データマイニングという手法もこの中の1つの分野に含まれます。ビックデータを調べるだけではなく、比較的少ないデータ、たとえば個人商店の売れ筋、薬の有効性などを調べることにも使えます。

 

データサイエンティストとはこのデータサイエンスを駆使して、いろいろな問題の解決策を提案する人のことを言います。現在また今後、需要が高まっているとのことから、「21世紀で最もセクシーな職業」[4](?)と言われています。

 

データサイエンスってなにがいいの?

データサイエンスとビッグデータを用いて売上向上を狙う例があります。たとえば、Amazonの商品推薦システム、いわゆる「この商品を買った人はこの商品も買っています。」が有名です。経営の意思決定に役立つともされています(参考ワード:ビジネスインテリジェンス)。

他にも下図の通り、さまざまな場面で活用できるとされています。

 

 f:id:alfredplpl:20131206170247g:plain

 図:各業種でのビッグデータの活用範囲([5]より引用)

(ここにはありませんが、メディア分野には画像認識に、医療分野でもDNAの解析に使われています)

 

次回はデータの種類とその取り扱い方をまとめていこうと思います。

 (分からない点や間違っている点、コメントなどがございましたら、ぜひぜひお願いします。)

 

参考文献

[1] ビッグデータとは何か, 総務省http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc121410.html

[2] 「スマート革命」が促す

ICT 産業・社会の変革,  総務省http://www.soumu.go.jp/main_content/000160628.pdf

[3] Data Scince, Wikipediahttp://en.wikipedia.org/wiki/Data_science

[4] Harvard Business School Publishing., Data Scientist: The Sexiest Job of the 21st Century, http://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/

[5] 日立製作所, ビッグデータへの道 第2回「ビッグデータの活用範囲」, http://www.hitachi.co.jp/products/it/bigdata/column/column02.html