※ 本コンテンツにはプロモーション(PR)が含まれています。また、詳しい最新情報については公式サイトをご確認ください。
でも、これまで馴染みのなかった職業だけに、もし我が子が「なりたい!」と言ってもサポートできる自信がない……という方も多いのではないでしょうか。今回は、データサイエンティストとは何か、どのような勉強が求められるのかについて簡単にご説明します。
データサイエンティストに欠かせない「ビッグデータ」の理解
データサイエンティストを説明するにあたって、ビッグデータの説明を欠かすことはできません。ビッグデータとはその名の通り、これまでのデータとは桁違いに莫大なデータのことを言います。どのくらいの規模からをビッグデータとみなすのかについては明確な定義はありませんが、数百テラバイトからペタバイト以上と考えるといいでしょう。家庭のパソコンで扱うデータに比べると、途方もない大きさですね。また、ただデータの規模が大きいだけではビッグデータと呼ばれないこともあります。データの質も重要というわけです。これについては、ビッグデータの「3V」と呼ばれる軸があり、Variety(多様性)、Volume(量)、Velocity(発生頻度)から成っています。
Variety(多様性)
まず、Variety(多様性)とは、「データの種類」のこと。これまでは、処理速度や費用、制度の観点から、分析に使えるデータは種類が限られていました。画像や映像、音声、位置情報などを活用するのは難しかったのです。しかし今では、コンピュータの性能が向上し、こういったデータも利用しやすくなりました。さまざまなデータを集めていることがVariety(多様性)の条件といえるでしょう。
Volume(量)
次にVolume(量)ですが、これには、先ほど挙げた「新しく使えるようになったデータ」の特性が関わります。パソコンやスマホの容量が足りなくなったときのことを思い出してください。「意外とビデオが容量を食っている!」と感じたことはないでしょうか。Wordのファイルは数十KBに収まることが多いのに、ちょっとペットを映したビデオが何MBもあった、ということに気付いた人もいるかもしれません。そうです。映像や音声は、データサイズが大きいのです。そのため、データのVariety(多様性)を確保しようとすると、Volume(量)も増えるというわけなのです。
Velocity(発生頻度)
最後にVelocity(発生頻度)ですが、これはデータの処理頻度のことを指します。せっかく集めたデータであっても「半年に一回処理する」というのでは、まったくビジネスには追いつきません。いかにリアルタイムな分析をするか、それがVelocity(発生頻度)なのです。データサイエンティストに求められる知識とは?
以上、「ビッグデータ」について説明しました。ずばりデータサイエンティストとは、この「ビッグデータ」を使いこなし、ビジネスを成長させるスペシャリストなのです。中には「AIが発展するにつれて、必要のなくなる職業では?」という批判もありますが、現時点では、やはり人間の目で見なければ発見できないビジネスチャンスが多くあります。たとえば、あのキットカットが受験の願掛けアイテムとなったのも、「九州での1月・2月の売れ行きがなぜか好調だ」というデータに気付けたためです。九州地方の方言である「きっと勝つとぉ(=きっと勝てるよ!)」とかけたダジャレなのですが、こんなチャンスには、AIではなかなか気付けないでしょう。その後、合格祈願アイテムとして売り出し始めたキットカットは、以前の数倍の利益を上げられるようになりました。
商品データを見てみると「意外な層が売上の何割かを占めていた」というのはよくある話です。これまでの思い込みとは、まったく違った結果が現れることがあるのです。データを分析し、必要に応じてビジネスの戦略を練る。それがデータサイエンティストの役割であり、具体的には、以下のようなスキルが必要になります。
統計に関する理解
言うまでもなく、データを読み解く力は必須です。たとえば「AとBが同時に上昇している」ようなグラフがあったとき、AとBの間に関係はあるのか。あった場合、どのような関係があるのか?ということを正しく理解しなければいけません。おもしろい例として、「疑似相関」があります。これは、AとBにさも関係があるような(実際には無関係の)グラフになるケースです。たとえば「アメリカのゲームセンターの売り上げ」と「アメリカで博士号を授与された人数」はほとんど同じ形のグラフになるのですが、当然、その二つに関係があるはずはありませんよね。
これは極端な例ですが、そういった偽の相関関係を見抜くのも、統計に関する理解のひとつです。
ビジネスに関する理解
どんな新しい技術を使うにも、ビジネスの理解は欠かせません。このサービスを利用するのはどのような層で、どのようなアプローチが効果的なのか?もちろん、データによって前提がひっくり返されることもありますが、基本的なビジネス戦略はしっかり理解しておく必要があります。プログラミングに関する理解
そして最後に、コンピュータを使いこなす技術です。ビッグデータを分析するためには「簡単なものであれば、自分でプログラムを書いて動かせる」程度の知識が必要となります。たとえ自分がプログラムを書かない場合であっても、適切な指示を出せなければ、正確な分析ができないからです。文書・図版作成に関する理解
データサイエンティストの仕事では、分析の結果として分かったことをレポートなどにまとめる必要があります。この場合、専門職以外の人にも分析の結果が分かりやすいようにしなければなりません。そのため、分かりやすい報告を行うための文書・図版作成に関する能力も求められることになります。とはいえ、自分のアウトプットを他の人に分かりやすく伝えるというのは、どのしょうな職種でも重要なスキルとなります。別の職種を兼務したり、キャリアチェンジしたりする時にも役立つ便利なスキルなので、面倒臭がらずに習得しておきましょう。
同じ分析結果を報告する場合でも、グラフの種類が違えば報告内容の力点が代わり、相手に与える印象が変わってきます。時間をかけすぎてもいけませんが、分かりやすい内容になるように心がけていきたいですね。