shine-Notes

ゆるふわ思考ダンプ

統計検定の3級、2級を順に受験して合格したので学習内容や所感を記録する

サマリ

  • 統計検定3級と2級に合格するまでの学習記録
  • 「最短距離詰め込み」ではなく、「寄り道しつつ突っ走る」学習法について、自分のケーススタディを記録する
  • 数値分析を生業とはしていないけど、結構学ぶ楽しさが有ったよ、というポエムめいた所感

背景

書きたい内容は表題のとおりなのだが、まず簡単に自分のバックグラウンドについて少し記載する。
(自分が他人の勉強法を参考にする時に欲しい情報だったので)

  • ふだんの飯の種&スキルセットはITコンサルタント寄り。
  • 一応JDLA資格はE、G共に取得済。ただ知識はDeep Learningの一部テクノロジに偏重気味(過去記事参照)。
  • 文系学部卒。線形代数微積分はE資格取得時に泣きながら復習したが、未だちょっと苦手。
  • 数値解析系やテーブルデータへのML処理は、参考書は通ったが実務経験なし。
  • 周囲にいる数値解析系の有識者(理系卒)が勉強会を偶に開いてくれるのだが、言ってることが割と理解できない。
    • 急に「天下り的に」とか言われ「何言ってだ???」と思ってる

こんな自分ではあるのだが、今後データサイエンス業務の比重も上げていくことも決まっていた。なので少しでも数学的アプローチへの苦手意識を減らそうと思い、統計検定の受験を決意した。

計画

(軽くググって出てこなかったので)おそらく珍しいアプローチかもしれないが、最終目標は統計検定2級としつつも、先に統計検定3級に合格してから2級を受験した。理由は幾つか有る。

  • 統計検定2級の範囲は非理系の人間にとっては結構膨大であり、道のりが長く感じられる。
    • 馴染みのない人間にとっては、比較的簡単な記述統計の範囲であっても慣れが必要(四分位数や分散の概念など)。
  • 通過地点で達成感を感じられる仕組みを用意したほうがモチベーションを維持できる。
    • これはあらゆる勉強に通じる。
  • 統計検定3級が2020年から範囲を少し広げており、むしろ連続して受けるくらいが丁度いい。
    • 具体的には「相関と回帰」「推定と検定(標準正規分布で出来る範囲、t分布以降は含まない)」

個人的には、大学課程で統計的アプローチを経験していない人間は同じアプローチを勧めたい。いきなり2級はつらいと思う。


学習方法

学習にあたっては色々と寄り道したのだが、まずは端的に合格に必須だったと感じるリソースと、利用度合いを記載する。

3級(学習期間:1ヶ月)

■ 完全独習 統計学入門

■ 統計検定過去問

■ 公式サイトの追加範囲例題

■ 統計Web「統計学の時間」

  • 過去問を解く中で分からなかった部分を必要に応じて参照する。 bellcurve.jp

2級(学習期間:2ヶ月)

■ 統計Web「統計学の時間」

  • 2級を受験する場合は、「Step2.中級編」まで全て完遂しておいたほうが良い。

■ 統計検定過去問 2級

■ 統計検定2級 合格のツボ

  • 過去問を自力で1〜2回分解いてから参照することを強く推奨する。
  • 過去問だけだと学習範囲を俯瞰的に把握することが難しいのだが、この本はジャンルごとに過去の過去問をピックアップして解説してくれる。
    • 筆者はこの書籍ベースで過去問をピックアップして、3級のときと同じく間違った問題を1ヶ月ほど毎日数問づつループして勉強した。
  • レベル感としても、統計Web→過去問の橋渡しをするような内容であり、過去問を1度解いてレベル感を味わってから読むと理解に繋がりやすいと思う。
    統計検定2級合格のツボ

    統計検定2級合格のツボ



試験所感

  • 3級は難易度は低めで真面目に読めばすぐ解ける問題も多く、下地を作っておけば過去問繰り返すだけで合格できると思う。
  • しかし2級は3級に比べるとグッと範囲や応用度が上がる。過去問と非常に近い状況設定だけど問題の切り口が少し違う、というパターンはざらにあるので、一度解いた問題をしっかり理解しておくまで繰り返しておくほうがよい。
  • 実際筆者も恥ずかしながら2級には1度落ちている。3級合格直後に、調子に乗って2週間後に2級を予約してしまったのだが、試験直前の時点でt分布や回帰等、2級で増える範囲について十分理解できておらず、自由度の計算をゴッチャにしてしまったり…のような状態だった。再受験時は何も見なくてもノートに用語解説や計算式を書けるくらいにまでは追い込んで、どうにか合格できた。

副読本たち

前項では合格をターゲットとした時に必須と思われるリソースを挙げたが、個人的には学習内容を整理するために何冊か他にも書籍をあたった。この辺りは資格取得のモチベーションをどう捉えるか(最短距離を取りたいのか、知識を得る切っ掛けにしたいのか)次第だと思うが、個人的には2級レベルの内容を把握したいのであれば複数の書籍にあたる事は推奨したい。統計に限らない話かもしれないが、著作者の違う本を読むと、同じ説明でも切り口や説明していく順番が異なっており、試験出題ベースではなくより俯瞰的に知識を整理できる。

入門 統計学〜検定から多変量解析・実験計画法まで〜

  • 統計検定2級の参考書としてよく上がるのが、東大赤本と本書だと思う。比較的敷居の低そうな本書をセレクトした。
  • 統計検定2級の範囲+αを網羅している。そもそも書籍の目的は試験対策ではなく「大学生が自分の修論で統計的検定を使う」あたりをターゲットにしている。そのため資格試験には必要のない範囲まで含めて解説がなされており、この辺を良しと取るかは判断が分かれそう。
    • 個人的には統計Web以外の参考書の視点として重宝したし、試験に関係なく理解を耕しておくという意味で○だと思う。
    • が、個人的には少し難しいように感じて、一読では理解できないことも多かった(わかりやすい、というレビューも有るので個人差だと思う)。

統計学図鑑

統計学図鑑

統計学図鑑

  • 統計学入門」と同じ著者の図解メインの書籍。個人的には「統計学入門」が難しいと感じたなら福読書としてこちらを勧めたい。分かりやすいし、統計Web以外に手元に置けるインデックスとしてとっつきやすい。

リスク・リテラシーが身につく統計思考法

  • 読み物。ただ確率統計が苦手な人は、一度これを読んでみるのもお勧め。個人的には本書のお陰で確立範囲は苦手意識がなくなり、得点源にできた。
  • ただ入手しづらいのが難点だが…

データサイエンスのための統計学入門 第2版

  • ついでに実装も勉強しようかな、と思って読んだ本。
  • ただ正直な所実装面は「こういう場合はscipy.statsをこう使ってね」以上は言いようがないので実はあんまり。
  • むしろ面白いのは各章で毎回出てくる「統計学ではこういう使い方をする。しかしデータサイエンスに於いては〜」という但し書き。
    • ものによっては「データサイエンスにおいては特に意識しない」とか言い切られてるものも多くて、薄々そんな気はしてた…みたいな所を補強してくれる。



所感とポエム〜実務と統計学

およそ3ヶ月ほど、今まで意識はしてたけど真面目に取り組んでこなかった統計学に(資格受験という形で)取り組んだ訳だが、思ったよりも得るものが有ったように思う。

  • 例えば生成系モデルについて学習する際に、AutoEncoderが潜在空間に正規分布を仮定する流れが以前は意味がわからなかった。今はアプローチとして割と自然なのが理解できる。
  • そもそも深層学習モデルの構築において数式を作って推定を行っていく過程(最尤推定)が統計学のアプローチの延長線上に有る事が理解できるようになった。
  • 書籍や論文で数式が出てきても、(心の余裕が有れば)いっちょ読み解いてみるかと思えるようになった。

自分は所謂データサイエンス、中でもテーブルデータの取り扱いは生業としていないので、統計学で学んだ知識をそっくりそのまま使うケースはほぼ無い(というか、数値解析業務においても、予測アルゴリズムを作るケースだと、どっちにしろ直接統計的指標を並べる機会は少ない気がする)。なので最初は「この勉強もしかして、あんまりやる意味ない…?」と思った時期もあったのだが、前述の通り少々状況は特殊かもしれないが自分の中で理解が「繋がる」瞬間が増えた。

また統計学を「科学における文法」と評する言葉もあるが、この言葉の意味が少し理解できるようになったのも楽しかった。これは例えば書籍「入門 統計学」が実は農業系の教授の方が修論を書く学生を意識して執筆されているのが良い例で、要するに科学における仮説検証のあらゆるプロセスに於いて、「今回の実験結果は少なくとも有意水準5%で変化があったんや」みたいな言い方が共通言語として使えるのだろうな、という所を想像できるようになった。おそらく理系の人からすると何を当たり前のことを、という範囲なのだろうが、「データサイエンス」という言葉に対してIT文脈のバズワードを入り口に入ってきた人間としては、「あぁ、だから”サイエンス”なのか」と、やっと腑に落ちたところがあって為になった。


そんな感じである。ひとまず当初の目標であった2級は合格したので一旦統計学からは離れようと思うが、自分のバックグラウンドを耕しておく上では有意義だった。


以上