Tokenizerを学ぶ:つくりながら学ぶ!LLM自作入門 第2章 輪読会

はじめに

今日はニューラルネットワークの基礎である ステップ関数と逆伝播の微分 を勉強しました。 また、11:00〜13:00 に『つくりながら学ぶ!LLM 自作入門』の輪読会に参加し、**第2章「トークナイザー」**を扱いました。


ステップ関数と逆伝播の微分

  • ステップ関数は入力が0以上なら1、それ以外は0を返すシンプルな関数。

    • 数式:

    $$ f(x) = \begin{cases} 1 & (x \geq 0) \ 0 & (x < 0) \end{cases} $$

  • ニューラルネット初期の活性化関数ですが、ほとんどの領域で微分が0になるため学習に使いにくい。

  • この欠点を補うために ReLU など滑らかで微分可能な関数が使われるようになった。

逆伝播(Backpropagation)

  • 損失関数 $L$ から各パラメータ $W$ に勾配を伝える仕組み。

  • 連鎖律(Chain Rule) に基づいて勾配を分配していく。

  • 数式:

    $$ \frac{\partial L}{\partial W} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial W} $$

理解として「微分は学習の燃料」であることが腹落ちしました。


輪読会:第2章「トークナイザー」

  • 開催時間:11:00〜13:00
  • テーマ:トークナイザー

学び

  • Tokenizerの役割は「テキストをトークンに分割 → 数値IDに変換」。
  • Subword方式(BPE, SentencePiece)が未知語対応に有効。
  • Tokenizer設計の良し悪しがモデル性能に直結する。

印象に残った点

  • Tokenizerは「単なる前処理」ではなく、LLMの入り口そのもの。
  • 語彙サイズの調整や分割単位の設計が、後段の学習効率に影響する。

今日のまとめ

  • 午前〜昼に輪読会でTokenzierを学んだ。
  • 午後はステップ関数や逆伝播を数式ベースで整理。
  • どちらも「基礎を正しく理解する」ことの重要性を再確認できた。

Comments

Copied title and URL