PyCon JP 2025 登壇準備ログ 01 – corpus処理の修正とコメント整備

今日はコードとにらめっこしながら、少しずつ準備を進めました。
やったことを振り返ると、大きくは2つです。


1. 全体処理にコメントを追加

今までコードを書きっぱなしだったので、読み返すと「これ何だっけ?」となる部分が多かったんです。
そこで今日は、llm/*rag/* を中心にコメントを加えていきました。
やっぱり後で見直したときに「過去の自分、よくここにコメント残してくれたな」と思えるのは大事ですね。


2. corpus処理の修正

もうひとつ大きな気づきがあって、corpus.txt が「1文字ずつ」学習されていることに気づきました。
日本語は「単語」で意味がつながるのに、文字単位だと「こ」「れ」「は」「ペ」「ン」…みたいに切れてしまって、うまく意味を学習できません。

そこで実装を修正し、単語単位で学習できるようにしました。
これで「これはペンです」といった自然な単位でモデルに渡せるようになり、今後の精度アップが期待できます。


今日の気づき

ちょっとした実装の違いが、モデルの理解や精度に大きく影響するんだなと実感しました。
コメントを入れることも、単語単位に直すことも、一見地味だけど着実に積み上がっている感覚があります。


明日の予定

  • FAQ検索の精度テスト
  • Minimal LLM × RAG の統合実験
  • 登壇用スライドの初版づくり

小さな一歩だけど、確実に進んでいる感覚があって楽しい一日でした。
明日もまた少しずつ前に進めます。

Comments

Copied title and URL