AIの判断力の限界 - AI開発での見落とし7項目を独自に考察
📘 本記事で使用する用語
- エリック: 上流工程AI(要求分析・設計を担当するAI)
- ジョージ: 下流工程AI(実装・テストを担当するAI)
- V字モデル: ソフトウェア開発の品質保証モデル(Wikipedia)
1. V字モデル適用の現実 - エリックの判断力不足が露呈
前回の記事53では、ジェンスパーク(Genspark)(AI検索エンジン)のAI開発にV字モデルを適用した「部分的成功」の事例を報告しました。上流工程AI(仮にエリックと名付けました)と下流工程AI(仮にジョージと名付けました)の役割分担により、開発プロセスを改善できたことをお伝えしました。
しかし、Webアプリの開発過程(v2.17.3〜v2.19)で、エリック(上流工程AI)の判断力不足が明らかになりました。特に、v2.17.3で実装したSEO対策のプリレンダリングにより、占い機能が完全停止するという重大な不具合が発生しました。
⚠️ この記事の目的
この記事では、Webアプリ開発(v2.17.3〜v2.19)でエリックが見落とした7項目を定量評価し、AIの判断力の限界を正直に開示します。完璧なAIは存在しません。だからこそ、外部品質チェック(Gemini QA Framework)が必要なのです。
2. エリックの見落とし7項目 - Webアプリ開発での独自考察
Webアプリ開発(v2.17.3〜v2.19)で明らかになった、エリックの判断力不足を7項目に分けて評価します。各項目について、重要度(★1-5)、損失時間、判断レベルを評価しました。
📊 評価の基準
見落とし重要度(★評価):
- ★1: 軽微な不便(修正工数 &l;t; 1時間)
- ★2: 部分的な機能低下(修正工数 1-4時間)
- ★3: 主要機能に影響(修正工数 4-8時間)
- ★4: 重大な機能停止(修正工数 8-16時間)
- ★5: 全機能停止・ユーザー影響大(修正工数 &g;t; 16時間)
損失時間: 不具合発生から修正完了までの実測時間(Cronログ(定期実行ジョブの実行履歴)、GitHub履歴から算出)
修正工数: 実際の修正作業時間(会話ログから抽出)
注: ★評価は修正工数を基準としていますが、各項目の影響度や重要性も考慮した総合的な判断です。特に見落とし4「Gemini API提案の欠如」は、損失時間は短いものの、今後の開発プロセス全体に影響する根本的な問題として★5と評価しました。
見落とし1: トップページへのプリレンダリング適用(v2.17.3)
🚨 最も深刻な見落とし - 占い機能が停止
v2.17.3でSEO対策のためCloudflare Pages Functionsを使ったプリレンダリングを実装しました。エリックは「/blog/*」のみに適用すべきと判断すべきでした。
しかし、トップページ「/」にも適用してしまい、占い機能が完全停止しました。プリレンダリングはクライアントサイドJavaScript(ブラウザで実行されるJavaScript)を無効化するため、動的フォーム(占い機能)が動作しなくなったのです。
影響期間: 2025年12月15日(v2.17.3リリース)〜 2026年1月8日(v2.18復旧)
定量評価:
- 見落とし重要度: an>an>an>an>an>an>an> (5/5) - 最重要
- 影響範囲: アプリのコア機能が完全停止
- 復旧時間: 約1日(修正作業)、占い機能停止期間: 2025-12-15〜2026-01-08
- 判断レベル: 小学生レベル(静的コンテンツと動的機能の区別ができない)
見落とし2: Cronログ(定期実行ジョブの実行履歴)の確認不足(v2.19不具合調査時)
📋 詳細
v2.19で「記事画像が表示されない」不具合が発生しました。Cloudflare Pages の Cron ログを確認すべきでしたが、エリックはログ確認を提案しませんでした。
結果: ユーザーが手動でログを確認し、「記事データがDBに登録されていない」ことを発見しました。
定量評価:
- 見落とし重要度: an>an>an>an>an>an>an> (3/5)
- 本来の確認工数: 5分
- 見落としによる損失時間: 2時間
- 判断レベル: 中学生レベル(基本的なトラブルシューティング手順の欠如)
見落とし3: Markdownレンダリングの欠如(v2.19不具合1)
🚨 ブログ記事の表示が全て崩れる
v2.19で「見出しや段落が正しく表示されない」不具合が発生しました。根本原因は、renderBlogPost() でMarkdown→HTML変換処理が欠如していたことです。
エリックは実装指示書v2.19で、Markdown変換処理を指示すべきでしたが、完全に見落としていました。
定量評価:
- 見落とし重要度: an>an>an>an>an>an>an> (4/5)
- 影響範囲: ブログ記事の表示が全て崩れる
- 修正工数: 30分(ユーザー指摘後)
- 判断レベル: 小学生レベル(基本的なレンダリング処理を理解していない)
見落とし4: Gemini API提案の欠如(Phase 5)
🚨 最重要の見落とし - 自主的にツールを提案できない
Phase 5で、エリックの判断力不足が明らかになり、品質チェック手法を模索していました。Deep Research、文章生成AIを試しましたが不適でした。
重要: エリックは使用可能な Gemini API を提案しませんでした。ユーザーが「Gemini APIは使えないか」と質問してようやく「使えます」と回答したのです。
経緯:
- エリックの判断力不足が明らかになる
- 品質チェック手法を模索(Deep Research、文章生成AIを試すが不適)
- エリックからGemini API提案なし
- ユーザーが「Gemini APIは使えないか」と質問
- エリック「使えます」と回答
定量評価:
- 見落とし重要度: an>an>an>an>an>an>an> (5/5) - 最重要
- 本来の提案タイミング: Phase 5 品質チェック手法模索時
- 見落としによる損失時間: 4時間(代替案の試行錯誤)
- 判断レベル: 小学生レベル(使用可能なツールを自主的に提案できない)
参考: 「真実の経緯」文書より - ユーザーは「なぜエリックから提案が出なかったのか憤っている」と記録されています。
見落とし5: 影響範囲分析の不足(v2.17.3設計時)
📋 詳細
v2.17.3設計時、エリックはプリレンダリングの影響範囲を分析すべきでした。トップページ「/」には占い機能(動的フォーム)があり、プリレンダリングはクライアントサイドJSを無効化します。
結果: この分析が不足し、長期間の占い機能停止を招きました。
定量評価:
- 見落とし重要度: an>an>an>an>an>an>an> (3/5)
- 本来の分析工数: 15分
- 見落としによる影響: 長期間のコア機能停止
- 判断レベル: 中学生レベル(技術的影響範囲の分析力不足)
見落とし6: テスト項目の不足(v2.18〜v2.19)
📋 詳細
v2.18 占い機能復旧時、エリックは「占い機能の動作確認」をテスト項目に含めました。しかし、「ブログ記事の表示確認」は含めていませんでした。
結果: v2.19で新たに不具合2件が発覚しました。
定量評価:
- 見落とし重要度: an>an>an>an>an>an>an> (3/5)
- 本来のテスト項目追加工数: 5分
- 見落としによる影響: 新たな不具合2件の発生
- 判断レベル: 中学生レベル(テスト設計の基本不足)
見落とし7: 仕様書v2.17.3の意図理解不足
🚨 文章理解力の欠如
v2.17.3の仕様書には「ブログページのSEO対策」と記載されていました。エリックは「ブログページ = /blog/*」と理解すべきでした。
しかし、「全ページ」と誤解してプリレンダリングを適用してしまいました。
定量評価:
- 見落とし重要度: an>an>an>an>an>an>an> (4/5)
- 本来の読み込み工数: 10分(仕様書精読)
- 見落としによる影響: 長期間のコア機能停止
- 判断レベル: 小学生レベル(文章理解力、仕様書読解力の不足)
3. 考察:エリックは本当に中学生レベルなのか?
📐 判断レベルの客観的定義
| レベル | 年齢相当 | 判断能力の特徴 |
|---|---|---|
| 小学生高学年 | 10-11歳 | 基本的な因果関係は理解できるが、抽象的思考が弱い |
| 中学1年生 | 12歳 | 複数の要因を考慮できるが、システム全体の影響は見えない |
| 中学2-3年生 | 13-14歳 | 論理的思考ができるが、経験不足で盲点がある |
| 高校生 | 15-17歳 | 体系的思考が可能だが、専門知識が不足 |
| 中堅社員 | 25-35歳 | 実践経験があり、問題解決能力が高い |
経験差の算出: エリック平均12歳(中学1年生相当) vs ジョージ推定25-30歳(中堅社員相当) = 約13年の経験差に相当
⚠️ 注意: 年齢による判断レベルの表現は、読者の理解を助けるための比喩的な説明です。AIの能力を科学的に測定したものではなく、実際の開発経験から得られた主観的な評価です。この比喩は、AIの判断力の限界を具体的にイメージしやすくすることを目的としています。
7つの見落としを分析すると、エリックの判断力レベルが明確になります。
評価基準の定義
| レベル | 能力の特徴 | 該当項目 |
|---|---|---|
| 小学生レベル | 基本的な技術理解、文章理解ができない | 見落とし1, 3, 4, 7 |
| 中学生レベル | 基本手順はわかるが、応用力・分析力が不足 | 見落とし2, 5, 6 |
| 高校生レベル | 基本はできるが、専門知識・設計力が不足 | - |
| 中堅社員レベル | 高度な判断、設計、提案が可能 | - |
エリックの総合評価
見落とし7項目の内訳:
- 小学生レベル: 4項目(57.1%)
- 中学生レベル: 3項目(42.9%)
- 高校生レベル: 0項目(0%)
平均判断力: 小学校高学年〜中学1年生レベル(11-12歳相当)
最も深刻な見落とし(★★★★★)
- 見落とし4「Gemini API提案の欠如」 - 使用可能なツールを提案できない
- 見落とし7「仕様書の意図理解不足」 - 文章理解力の欠如
- 見落とし1, 3, 5「技術理解不足」 - 静的/動的の区別、レンダリング処理、影響範囲分析
対比:ジョージの実装能力
ジョージ(下流工程AI)の評価:
- 実装品質: 中堅社員レベル以上
- コード品質: 高い(GitHub参照)
- 問題点: エリックの誤った指示でも忠実に実装してしまう
結論: エリックとジョージの能力差は約13年分の経験差に相当します。
参考: ソフトウェア品質保証の観点から見ても、上流工程(要件定義・設計)の品質が下流工程(実装・テスト)の品質を決定します。エリックの判断力不足は、全体の品質に直接影響します。
4. 外部チェックがなければ、占い機能は長期間停止したままだった
エリックの見落としを検出し、Webアプリを改善するために必要だったのが、Gemini QA Frameworkによる外部品質チェックです。
Phase 6: Gemini APIの発見(ユーザー主導)
Phase 5でエリックの判断力不足が明らかになり、品質チェック手法を模索していました。ユーザーが「Gemini APIは使えないか」と提案し、Gemini APIを使った品質チェック手法を開発しました。
Phase 7: Gemini QA手法は効果的でした。ユーザー(元ソフトウェア開発技術者)が確認し、Geminiの判断は正しいものでした。
なぜ外部チェックが必要か
- 自己評価の限界: エリックは自分の見落としを認識できません。「完璧だ」と自己評価しても、実際には多数の問題がありました。
- 客観的視点: Geminiは仕様書と実装を客観的に評価できます。
- 早期発見: ユーザーの最終確認前に、多くの問題を事前に検出できます。
- 判断力補強: エリックの中学生レベルの判断力を、Geminiで補強できます。
v2.18〜v2.19での教訓
もしGemini QA Frameworkがv2.17.3時点で存在していれば:
- 「トップページへのプリレンダリング適用」を事前に検出できた可能性
- 「Markdownレンダリングの欠如」を実装前に検出できた
- 「テスト項目の不足」を指摘できた
- 長期間の占い機能停止を防げた可能性
5. まとめ - エリックの限界を認め、チェック体制を強化する
✅ 主要な学び
- AIの能力は過信できない: エリックの判断力は小学校高学年〜中学1年生レベル(今回の考察により明らか)
- 見落としは必ず起きる: 7項目のうち5項目が「最重要(★5)」
- 外部チェックの必須化: Gemini QA Frameworkで判断力を補強
- ユーザーの最終確認: AIだけでは完結できない。ユーザーの専門知識と判断が不可欠
- 継続的改善: Phase 8でGemini QA手法を一般化し、他プロジェクトでも使用可能に
次の記事への接続
この記事51では、Webアプリ開発(v2.17.3〜v2.19)でエリックが見落とした7項目を定量評価し、AIの判断力の限界を明らかにしました。特に、見落とし4「Gemini API提案の欠如」は、AI開発における重要な示唆を含んでいます。
次の記事52では、なぜエリックはGemini APIを提案しなかったのか、その根本原因を深掘りします。また、継続的品質改善の観点から、品質保証体制の改善策を提案します。
記事51の位置づけ
記事51は、記事53の「部分的成功」の裏側を正直に開示し、Webアプリ開発における品質保証の重要性を実証する記事です。完璧なAIは存在しません。だからこそ、外部チェック体制が必要なのです。
📚 関連記事・参考リンク
- 記事53: ジェンスパーク(Genspark)(AI検索エンジン)のAI開発にV字モデルを適用 - エリック・ジョージ方式の初陣
- 記事52: Gemini QA Framework - 品質チェック自動化の実装(予定)
- Webアプリ(本番環境)
- GitHub - example-project
- V字モデル - Wikipedia
- ソフトウェア品質保証 - 日本品質管理学会
- Gemini API ドキュメント
- Cloudflare Pages Functions
- プリレンダリングとSEO - web.dev
- Marked.js - Markdownパーサー
- 継続的品質改善 - 日本品質管理学会
- ソフトウェア開発ライフサイクル(SDLC) - IPA