結論: 生成AIにおける「トークン」とは、AIがテキストを処理・理解する際に分解する最小の構成単位のことです。
ChatGPTなどの生成AI(LLM:大規模言語模型)は、私たちが入力した「文字」をそのまま読んでいるわけではありません。テキストを細かなパーツ(トークン)に切り分け、それぞれを「数値」に変換することで計算を行っています。
このトークンは、単なる技術用語ではありません。「AIの利用料金」「AIが一度に記憶できる情報の量」「回答の精度」のすべてに直結する、実務において最も重要な概念の一つです。
この記事では、文字数とトークン数の違いや、日本語特有の注意点、コストを抑えつつAIのパフォーマンスを最大限に引き出すための知識を詳しく解説します。
トークンをイメージで理解する
「トークン」という言葉がピンとこない場合は、「レゴブロック」や「パズルのピース」を想像してみてください。
例えば、「おにぎり」という言葉をAIが処理する場合、以下のように分解されるイメージです。
- 文字単位: 「お」「に」「ぎ」「り」(4文字)
- トークン単位: 「おにぎり」という一つの塊、あるいは「おに」「ぎり」という断片
英語の場合、基本的には「1単語 ≒ 1トークン」に近い感覚(正確には1000トークンで約750単語)で処理されますが、日本語の場合はひらがな、漢字、カタカナが混ざり合うため、さらに複雑な区切られ方をします。
AIは、この細切れになった「ピース(トークン)」を一つずつ予測して並べることで、人間らしい文章を作り出しています。
YachiAIが文章を生成する仕組みを「次に続く確率が高いトークンを選び続けるゲーム」と表現することがあります。私たちが「こんにちは」と入力したとき、AIの内部では「次にくるトークンは『、』か『!』か、あるいは具体的な挨拶か?」という確率計算が高速で行われているのです。
なぜ「文字数」ではなく「トークン」で数えるのか
「文字数で管理したほうが分かりやすいのに、なぜわざわざトークンなんて単位を使うのか?」という疑問を持つかもしれません。これには、コンピューターが言語を処理する効率の問題が関わっています。
1. 意味の塊を保持するため
「リンゴ」を「リ」「ン」「ゴ」と1文字ずつバラバラに扱うよりも、「リンゴ」という塊、あるいはそれに近い断片として扱ったほうが、AIは言葉の意味や文脈を理解しやすくなります。
2. 計算リソースの節約
AIは入力されたデータを数値の行列として計算します。1文字を1単位にすると、長文を処理する際に計算量が膨大になりすぎます。トークンという「少し大きめの単位」でまとめることで、処理の効率化を図っているのです。
3. 未知の言葉への対応
かといって、「単語」をそのまま単位にしてしまうと、新語や造語が出てくるたびにAIを学習し直さなければなりません。トークン(サブワード)という単位であれば、知らない単語が出てきても「知っているパーツの組み合わせ」として解釈できるため、柔軟性が生まれます。

日本語ユーザーが知っておくべき「トークン数」の落とし穴
日本語で生成AIを利用する場合、英語圏のユーザーよりもコストや制限の面で不利になりやすいという現実があります。これは、トークンの区切り方(トークナイザーの仕組み)に原因があります。
英語と日本語の比較
一般的に、以下の傾向があります。
- 英語: 1単語 ≒ 1〜1.3トークン程度
- 日本語(ひらがな): 1文字 ≒ 1トークン程度
- 日本語(漢字): 1文字 ≒ 2〜3トークンになることがある
同じ意味を伝える文章でも、日本語のほうがトークン数を多く消費しがちです。
モデルによる効率の進化
ただし、この状況は改善されつつあります。例えば、OpenAIの「GPT」では、モデルが進化するにつれてトークン効率が向上していく傾向があります。
- 旧モデル: 「こんにちは」で数トークン消費
- 新しいモデル(GPT-5.2など): より少ないトークンで同じ「こんにちは」を表現可能
これにより、日本語での利用料金が実質的に安くなり、一度に送れる情報量も増えています。
Yachi開発や運用で「どのモデルを使うか」を検討する際、単なる「回答の賢さ」だけでなく、この「日本語のトークン効率」を比較対象に入れることは非常に重要です。効率が2倍違えば、月間のAPIコストも2倍変わってくるからです。
トークンが「料金」と「記憶力」に与える影響
実務において、トークンを意識しなければならないシーンは主に2つあります。
1. APIの利用料金(コスト)
ChatGPT(Web版)の有料プランを使っているだけならあまり意識しませんが、APIを介してシステムを構築する場合、料金は「1,000トークンあたり○円」という従量課金制が一般的です。
ここで注意が必要なのは、「入力(Input)」と「出力(Output)」の両方に料金がかかる点です。
- 入力トークン: あなたがAIに送った命令(プロンプト)や、参考資料のテキスト量。
- 出力トークン: AIが生成した回答のテキスト量。
多くの場合、出力トークンのほうが単価が高く設定されています。長文を生成させる指示を出すほど、コストは膨らんでいきます。
2. コンテキストウィンドウ(記憶容量)
各AIモデルには、一度に扱えるトークンの上限(コンテキストウィンドウ)が決まっています。
例えば「128k tokens」という仕様であれば、約12万8,000トークンまでを一度に読み書きできるという意味です。これを超えると、AIは会話の冒頭部分を「忘れて」しまいます。
- 長いPDFを読み込ませて要約させる
- 長期間にわたるチャットのやり取りを維持する
- 大規模なコードを解析させる
これらの作業を行う場合、上限に達しないようにトークン数を管理する必要があります。
実務で役立つ「トークン節約」のテクニック
コストを抑え、AIの記憶制限を回避するための具体的な手法をいくつか紹介します。
不要な修飾語を削る
プロンプト(指示文)において、「丁寧すぎる挨拶」や「過剰な装飾」はトークンの無駄遣いです。
- NG: 「お疲れ様です。お忙しいところ恐縮ですが、以下の文章を、非常に簡潔に、かつ分かりやすく要約していただけないでしょうか。よろしくお願いいたします。」
- OK: 「以下の文章を簡潔に要約してください。」
これだけで数十トークンの節約になります。
出力フォーマットを指定する
AIに「短く答えてください」や「箇条書きで3点以内にまとめてください」と指示することで、出力トークンを制御できます。出力トークンは単価が高いため、無駄な長文を防ぐことはコスト削減に直結します。
JSONモードや構造化データの活用
システム連携を行う場合、AIに自由な文章を書かせるのではなく、JSON形式などで「必要なデータだけ」を出力させるようにします。これにより、解析(パース)の失敗を防ぐとともに、不要な接続詞などのトークンを削減できます。
Yachi「プロンプトを短くしすぎて精度が落ちる」のは本末転倒です。まずは精度を優先し、その後に「この指示、もっと短く言えるな」と削っていくのが、プロダクト開発における健全な進め方です。


似た用語との違い(文字数・バイト数・単語数)
トークンと混同しやすい概念を整理しました。
| 用語 | 単位の性質 | 生成AIにおける役割 |
|---|---|---|
| トークン | AIが処理する最小単位 | 料金計算・記憶制限の基準 |
| 文字数 | 人間が認識する単位 | 読者への読みやすさの指標 |
| バイト数 | データの物理的な大きさ | 通信量やストレージの指標 |
| 単語数 | 意味を持つ最小単位 | 主に英語圏での文章量の指標 |
開発中に「このテキストは何トークンになるのか?」を正確に知りたい場合は、各AIベンダーが提供している「Tokenizer」というツールを使用します。OpenAIであれば、公式サイトでテキストを入力するだけでトークン数をカウントできるシミュレーターが公開されています。
まとめ
生成AIを使いこなす上で、トークンは避けて通れない概念です。
- トークンはAIが理解するための「ピース」である。
- 日本語は英語よりもトークンを多く消費しやすい。
- トークン数は「コスト」と「記憶制限」に直結する。
- 効率的なプロンプト作成が、実務での成果(コスパ)を左右する。
「なぜかAIの回答が途中で切れる」「API料金が予想以上に高い」といったトラブルに遭遇したときは、まずこのトークンの仕組みを思い出してみてください。文字数ではなくトークンの視点でテキストを見つめ直すことが、AI活用のレベルを一段引き上げる鍵となります。
