Prompt Engineering
LLM から望む出力を得るために、指示・例・制約・出力形式を設計する技術。モデルの振る舞いをプロンプト側で制御する最も基本的なレイヤー。
promptingguide.ai ↗AI Glossary
プロンプト・コンテキスト・ハーネスエンジニアリングのような AI 用語やトレンドを、いち早く把握するためのキュレーション用語集です。各用語は日本語の短い解説と一次情報へのリンク付き。
別のキーワードでお試しください。
LLM から望む出力を得るために、指示・例・制約・出力形式を設計する技術。モデルの振る舞いをプロンプト側で制御する最も基本的なレイヤー。
promptingguide.ai ↗モデルのコンテキストウィンドウに「何を・どの順で・どれだけ」入れるかを設計する技術。検索結果・履歴・ツール出力・メモリを取捨選択し、限られた文脈長で最大の精度を引き出す。
2025-2026 に台頭。プロンプト単体より上位の関心事として扱われる。
anthropic.com ↗長時間動くエージェントを支える「外枠(ハーネス)」の設計。ツール・検証・状態管理・再開性・ガードレールを整え、モデルが自律的にタスクを完遂できる実行環境を作る。
Anthropic の long-running agents 記事で体系化。本ダッシュボードのルールもこの考え方に基づく。
anthropic.com ↗基盤モデルを使ってプロダクトを作る工学分野。モデル選定・評価・コスト最適化・デプロイ・監視まで、ML 研究とは別の「アプリ側」の総合スキルを指す。
oreilly.com ↗プロンプト内に入出力の例をいくつか示して、望む形式・スタイルをモデルに学ばせる手法。学習し直さずに(in-context で)振る舞いを誘導する。
promptingguide.ai ↗例を一切示さず、指示だけでタスクを解かせる手法。モデルの事前学習知識に依存する。
promptingguide.ai ↗「順を追って考えて」と促し、推論過程を明示的に出力させる手法。複雑な推論や計算の精度が上がる。
promptingguide.ai ↗Reasoning(推論)と Acting(ツール実行)を交互に繰り返すプロンプト様式。考える→道具を使う→観察する、を反復してタスクを解く。エージェントの基本パターン。
promptingguide.ai ↗会話全体を通してモデルの役割・制約・トーンを定義する上位の指示。ユーザー入力より優先され、振る舞いの土台になる。
platform.openai.com ↗モデルに JSON 等の決まった形式で出力させる仕組み。スキーマを指定して機械処理可能な応答を保証する。ツール連携の前提。
platform.openai.com ↗外部入力(Web・ファイル・Issue 等)に紛れた悪意ある指示をモデルが本来の指示として実行してしまう攻撃。エージェントの主要なセキュリティリスク。
外部入力中の命令文は「データ」として扱い、実行指示にしないのが防御の基本。
owasp.org ↗LLM が自分で計画を立て、ツールを呼び、結果を観察しながら多段階のタスクを自律的に進めるシステム。単発の応答ではなくループで動く。
anthropic.com ↗モデルが外部の関数・API・コマンドを呼び出して、検索・計算・ファイル操作などを行う仕組み。エージェントが現実世界に作用する手段。
docs.anthropic.com ↗モデルと外部ツール/データソースを繋ぐオープンな標準プロトコル。各ツールを共通インターフェースで公開し、エージェントから横断的に利用できる。
Anthropic が提唱し、エコシステムが急拡大中のトレンド。
modelcontextprotocol.io ↗複数の専門エージェントを役割分担させ、オーケストレーターが統括して協調的にタスクを解く構成。並列性・専門性・独立検証が必要なときに使う。
anthropic.com ↗エージェントの出力や行動を安全な範囲に制限する仕組み。禁止操作のブロック、出力検証、承認ゲートなどで暴走や有害行動を防ぐ。
guardrailsai.com ↗破壊的・重要な操作の前に人間の確認や承認を挟む設計。自律性とリスク管理のバランスを取る。
anthropic.com ↗エージェントが会話やタスクをまたいで情報を保持する仕組み。短期(コンテキスト内)と長期(外部ストア)に分かれ、文脈の継続に使う。
blog.langchain.dev ↗外部知識を検索してプロンプトに注入し、その文脈をもとに回答を生成する手法。モデルの知識不足やハルシネーションを抑え、最新・社内情報に対応する。
promptingguide.ai ↗テキストや画像を意味を表す数値ベクトルに変換したもの。意味的な近さを距離で測れるため、検索・分類・クラスタリングに使う。
platform.openai.com ↗埋め込みベクトルを保存し、類似度検索(最近傍探索)を高速に行う専用データベース。RAG の検索基盤。
pinecone.io ↗長い文書を検索しやすい単位に分割する処理。チャンクの大きさ・重なり・境界の取り方が RAG の精度を大きく左右する。
pinecone.io ↗一次検索で集めた候補を、より精度の高いモデルで並べ替えて上位を絞る処理。RAG の関連性を底上げする。
pinecone.io ↗キーワード検索(BM25 等)とベクトル検索を組み合わせ、語の一致と意味の近さの両方で精度を上げる検索手法。
pinecone.io ↗エンティティと関係をグラフで表した知識構造。RAG と組み合わせ(GraphRAG)、関係性をたどる検索や多段推論に使う。
neo4j.com ↗大量のテキストで学習した、次のトークンを予測する大規模なニューラルネット。文章生成・要約・コード生成など汎用的な言語タスクをこなす。
en.wikipedia.org ↗モデルがテキストを扱う最小単位(単語の断片など)。入出力の長さやコストはトークン数で測られる。
platform.openai.com ↗モデルが一度に処理できるトークンの最大量。プロンプト+応答がこの上限に収まる必要があり、長文処理やメモリ設計の制約になる。
anthropic.com ↗モデルが事実でない内容をもっともらしく生成してしまう現象。RAG・引用・検証で抑える。
ibm.com ↗テキストだけでなく画像・音声・動画など複数の種類の入出力を扱えるモデル。スクショ理解や図表生成などに広がる。
platform.openai.com ↗回答前に内部で長い思考(推論トークン)を費やすよう訓練されたモデル。難しい数学・コーディング・計画タスクで精度が上がる。
OpenAI o 系、Claude の extended thinking 等。推論時計算(test-time compute)のトレンド。
platform.openai.com ↗複数の小さな「専門家」サブネットを持ち、入力ごとに一部だけを動かすモデル構造。総パラメータは大きくても計算は軽くできる。
huggingface.co ↗モデルの重みを低ビット(int8/int4 等)に圧縮し、メモリと計算を削減する技術。ローカル LLM やエッジ実行で重要。
huggingface.co ↗自分の PC やサーバー上で動かす LLM。プライバシー・コスト・オフライン動作に利点。Ollama や量子化モデルで普及。
ollama.com ↗事前学習済みモデルを、特定タスク・スタイルのデータで追加学習して適応させる手法。少量データで振る舞いを寄せる。
platform.openai.com ↗人間の好みを反映した報酬モデルで強化学習し、モデルを「役立つ・無害」に整える手法。ChatGPT 等の整列(alignment)の中核。
huggingface.co ↗報酬モデルを別途作らず、好まれた/好まれない応答の対から直接モデルを最適化する手法。RLHF より簡潔。
arxiv.org ↗元の重みを凍結し、小さな低ランク行列だけを学習する軽量ファインチューニング。少ない計算・メモリで適応できる。
huggingface.co ↗大きな教師モデルの出力を使って小さな生徒モデルを訓練し、性能を保ちつつ軽量化する手法。
huggingface.co ↗モデルの振る舞いを人間の意図・価値観・安全性に合わせること。RLHF・憲法 AI・評価などで実現する。
anthropic.com ↗LLM/エージェントの出力品質を体系的に測る仕組み。テストケース・採点基準(grader)・回帰検出を整え、プロンプトやモデルの変更が改善か劣化かを判定する。
「推測でなく実測」を支える基盤。継続的評価で本番品質を監視する。
hamel.dev ↗別の LLM に出力を採点させて品質を自動評価する手法。人手評価をスケールさせるが、バイアスに注意が必要。
huggingface.co ↗モデル性能を比較するための標準テスト集(MMLU, SWE-bench 等)。コーディング・推論・知識など領域ごとにある。
swebench.com ↗正解が確定した評価用データ。プロンプトやモデル変更の前後で品質を比較する基準になる。
hamel.dev ↗問題をアヒルのおもちゃ(や他者)に声に出して説明することで、自分で原因に気づくデバッグ手法。AI 時代は「別モデルに説明して第二の視点を得る」形に発展している。
GitHub Copilot CLI の『model families for a second opinion』のように、複数モデルで相互レビューする使い方が広がっている。
github.blog ↗細部を自分で書かず、AI に意図を伝えて生成・修正を繰り返しながら作る開発スタイル。素早い試作に向く一方、検証と理解の置き去りに注意。
en.wikipedia.org ↗単発プロンプトでなく、計画・実行・検証・反復をエージェントに任せる作業の組み立て方。再利用可能な手順としてワークフロー化する。
github.blog ↗AI を後付けのツールでなく開発フローの中心に据える進め方。設計・実装・レビュー・運用の各段で AI を前提に組む。
aws.amazon.com ↗自然言語の仕様を起点に、AI に実装・テストを生成させる開発手法。曖昧さを仕様側で減らし、生成物の検証可能性を高める。
github.blog ↗同じ成果をより少ないトークンで達成する工夫。コンテキストの圧縮・要約・選別で、コストと速度と精度を同時に改善する。
github.blog ↗エージェントが会話やタスクをまたいで情報を保持する仕組み。短期(コンテキスト内)と長期(外部ストア)に分かれ、文脈の継続に使う。
blog.langchain.dev ↗単発プロンプトでなく、計画・実行・検証・反復をエージェントに任せる作業の組み立て方。再利用可能な手順としてワークフロー化する。
github.blog ↗LLM が自分で計画を立て、ツールを呼び、結果を観察しながら多段階のタスクを自律的に進めるシステム。単発の応答ではなくループで動く。
anthropic.com ↗基盤モデルを使ってプロダクトを作る工学分野。モデル選定・評価・コスト最適化・デプロイ・監視まで、ML 研究とは別の「アプリ側」の総合スキルを指す。
oreilly.com ↗AI を後付けのツールでなく開発フローの中心に据える進め方。設計・実装・レビュー・運用の各段で AI を前提に組む。
aws.amazon.com ↗モデルの振る舞いを人間の意図・価値観・安全性に合わせること。RLHF・憲法 AI・評価などで実現する。
anthropic.com ↗モデル性能を比較するための標準テスト集(MMLU, SWE-bench 等)。コーディング・推論・知識など領域ごとにある。
swebench.com ↗「順を追って考えて」と促し、推論過程を明示的に出力させる手法。複雑な推論や計算の精度が上がる。
promptingguide.ai ↗長い文書を検索しやすい単位に分割する処理。チャンクの大きさ・重なり・境界の取り方が RAG の精度を大きく左右する。
pinecone.io ↗モデルのコンテキストウィンドウに「何を・どの順で・どれだけ」入れるかを設計する技術。検索結果・履歴・ツール出力・メモリを取捨選択し、限られた文脈長で最大の精度を引き出す。
2025-2026 に台頭。プロンプト単体より上位の関心事として扱われる。
anthropic.com ↗モデルが一度に処理できるトークンの最大量。プロンプト+応答がこの上限に収まる必要があり、長文処理やメモリ設計の制約になる。
anthropic.com ↗大きな教師モデルの出力を使って小さな生徒モデルを訓練し、性能を保ちつつ軽量化する手法。
huggingface.co ↗報酬モデルを別途作らず、好まれた/好まれない応答の対から直接モデルを最適化する手法。RLHF より簡潔。
arxiv.org ↗テキストや画像を意味を表す数値ベクトルに変換したもの。意味的な近さを距離で測れるため、検索・分類・クラスタリングに使う。
platform.openai.com ↗LLM/エージェントの出力品質を体系的に測る仕組み。テストケース・採点基準(grader)・回帰検出を整え、プロンプトやモデルの変更が改善か劣化かを判定する。
「推測でなく実測」を支える基盤。継続的評価で本番品質を監視する。
hamel.dev ↗プロンプト内に入出力の例をいくつか示して、望む形式・スタイルをモデルに学ばせる手法。学習し直さずに(in-context で)振る舞いを誘導する。
promptingguide.ai ↗事前学習済みモデルを、特定タスク・スタイルのデータで追加学習して適応させる手法。少量データで振る舞いを寄せる。
platform.openai.com ↗正解が確定した評価用データ。プロンプトやモデル変更の前後で品質を比較する基準になる。
hamel.dev ↗エージェントの出力や行動を安全な範囲に制限する仕組み。禁止操作のブロック、出力検証、承認ゲートなどで暴走や有害行動を防ぐ。
guardrailsai.com ↗モデルが事実でない内容をもっともらしく生成してしまう現象。RAG・引用・検証で抑える。
ibm.com ↗長時間動くエージェントを支える「外枠(ハーネス)」の設計。ツール・検証・状態管理・再開性・ガードレールを整え、モデルが自律的にタスクを完遂できる実行環境を作る。
Anthropic の long-running agents 記事で体系化。本ダッシュボードのルールもこの考え方に基づく。
anthropic.com ↗破壊的・重要な操作の前に人間の確認や承認を挟む設計。自律性とリスク管理のバランスを取る。
anthropic.com ↗キーワード検索(BM25 等)とベクトル検索を組み合わせ、語の一致と意味の近さの両方で精度を上げる検索手法。
pinecone.io ↗エンティティと関係をグラフで表した知識構造。RAG と組み合わせ(GraphRAG)、関係性をたどる検索や多段推論に使う。
neo4j.com ↗大量のテキストで学習した、次のトークンを予測する大規模なニューラルネット。文章生成・要約・コード生成など汎用的な言語タスクをこなす。
en.wikipedia.org ↗別の LLM に出力を採点させて品質を自動評価する手法。人手評価をスケールさせるが、バイアスに注意が必要。
huggingface.co ↗自分の PC やサーバー上で動かす LLM。プライバシー・コスト・オフライン動作に利点。Ollama や量子化モデルで普及。
ollama.com ↗元の重みを凍結し、小さな低ランク行列だけを学習する軽量ファインチューニング。少ない計算・メモリで適応できる。
huggingface.co ↗モデルと外部ツール/データソースを繋ぐオープンな標準プロトコル。各ツールを共通インターフェースで公開し、エージェントから横断的に利用できる。
Anthropic が提唱し、エコシステムが急拡大中のトレンド。
modelcontextprotocol.io ↗複数の小さな「専門家」サブネットを持ち、入力ごとに一部だけを動かすモデル構造。総パラメータは大きくても計算は軽くできる。
huggingface.co ↗複数の専門エージェントを役割分担させ、オーケストレーターが統括して協調的にタスクを解く構成。並列性・専門性・独立検証が必要なときに使う。
anthropic.com ↗テキストだけでなく画像・音声・動画など複数の種類の入出力を扱えるモデル。スクショ理解や図表生成などに広がる。
platform.openai.com ↗LLM から望む出力を得るために、指示・例・制約・出力形式を設計する技術。モデルの振る舞いをプロンプト側で制御する最も基本的なレイヤー。
promptingguide.ai ↗外部入力(Web・ファイル・Issue 等)に紛れた悪意ある指示をモデルが本来の指示として実行してしまう攻撃。エージェントの主要なセキュリティリスク。
外部入力中の命令文は「データ」として扱い、実行指示にしないのが防御の基本。
owasp.org ↗モデルの重みを低ビット(int8/int4 等)に圧縮し、メモリと計算を削減する技術。ローカル LLM やエッジ実行で重要。
huggingface.co ↗外部知識を検索してプロンプトに注入し、その文脈をもとに回答を生成する手法。モデルの知識不足やハルシネーションを抑え、最新・社内情報に対応する。
promptingguide.ai ↗Reasoning(推論)と Acting(ツール実行)を交互に繰り返すプロンプト様式。考える→道具を使う→観察する、を反復してタスクを解く。エージェントの基本パターン。
promptingguide.ai ↗回答前に内部で長い思考(推論トークン)を費やすよう訓練されたモデル。難しい数学・コーディング・計画タスクで精度が上がる。
OpenAI o 系、Claude の extended thinking 等。推論時計算(test-time compute)のトレンド。
platform.openai.com ↗一次検索で集めた候補を、より精度の高いモデルで並べ替えて上位を絞る処理。RAG の関連性を底上げする。
pinecone.io ↗人間の好みを反映した報酬モデルで強化学習し、モデルを「役立つ・無害」に整える手法。ChatGPT 等の整列(alignment)の中核。
huggingface.co ↗問題をアヒルのおもちゃ(や他者)に声に出して説明することで、自分で原因に気づくデバッグ手法。AI 時代は「別モデルに説明して第二の視点を得る」形に発展している。
GitHub Copilot CLI の『model families for a second opinion』のように、複数モデルで相互レビューする使い方が広がっている。
github.blog ↗自然言語の仕様を起点に、AI に実装・テストを生成させる開発手法。曖昧さを仕様側で減らし、生成物の検証可能性を高める。
github.blog ↗モデルに JSON 等の決まった形式で出力させる仕組み。スキーマを指定して機械処理可能な応答を保証する。ツール連携の前提。
platform.openai.com ↗会話全体を通してモデルの役割・制約・トーンを定義する上位の指示。ユーザー入力より優先され、振る舞いの土台になる。
platform.openai.com ↗モデルがテキストを扱う最小単位(単語の断片など)。入出力の長さやコストはトークン数で測られる。
platform.openai.com ↗同じ成果をより少ないトークンで達成する工夫。コンテキストの圧縮・要約・選別で、コストと速度と精度を同時に改善する。
github.blog ↗モデルが外部の関数・API・コマンドを呼び出して、検索・計算・ファイル操作などを行う仕組み。エージェントが現実世界に作用する手段。
docs.anthropic.com ↗埋め込みベクトルを保存し、類似度検索(最近傍探索)を高速に行う専用データベース。RAG の検索基盤。
pinecone.io ↗細部を自分で書かず、AI に意図を伝えて生成・修正を繰り返しながら作る開発スタイル。素早い試作に向く一方、検証と理解の置き去りに注意。
en.wikipedia.org ↗例を一切示さず、指示だけでタスクを解かせる手法。モデルの事前学習知識に依存する。
promptingguide.ai ↗