IT 免費/無料/Kostenlos(gratis) 記事本分享: 減緩AntiGravity CLI神器之TOKEN消耗參考資訊(1/3)

情境：AntiGravity CLI神器的用量消耗之所以會比預期快，核心原因在於現代 AI 模型採用的「上下文記憶機制（Context Window）」與「運算成本計算方式」。這並非單純計算您發送了幾次對話，而是計算模型每次處理你您的請求時，所需要「閱讀」的總資訊量。

以下是導致您消耗快速的幾個技術性主因：

1. 「上下文累積」效應 (Context Accumulation)

當您在同一個對話視窗（Chat Thread）中進行多輪問答，模型並不是只讀取您剛剛輸入的那句話，而是每一次都會把該對話視窗內所有的歷史紀錄重新閱讀一遍。

消耗倍增：如果一個對話已經聊了 20 個回合，您的第 21 個問題，模型會處理「前 20 個回合的內容 +您的最新問題 + 系統提示詞（System Prompt）」。

影響：隨著對話越長，每次發送請求所需的「Token（運算單位）」就越多，消耗速度呈現非線性的指數增長。

2. 系統提示詞與背景配置 (System Prompt)

您可能以為只是打了一行字，但實際上系統後台預載了許多規則（例如你的客製化任務性之系統架構定義、語言偏好、身份設定等）。

這些「隱形成本」在每一次請求中都會被重複載入，即便您的問題很短，這些背景資料依舊會佔用您的額度。「每輪提問都會重送整段歷史上下文」**的運作機制。若一個對話 Session 進行了 $N$ 輪提問，則其實際產生的**「累積輸入成本（Cumulative Input Cost）」**為：$$\text{Cumulative Cost} = \sum_{i=1}^{N} \text{Context}_i$$

其中 $\text{Context}_i$ 爲第 $i$ 輪提問時所累積的歷史 Token 數。

3. Agentic AI 的運作邏輯

如果您在使用某些具有「代理功能（Agentic AI）」的工具或模式，系統可能會在後台執行多個步驟（例如：先搜尋文件 -> 閱讀程式碼庫 -> 進行邏輯運算 -> 產生摘要 -> 生成回應）。

隱性循環：每個步驟都是一次完整的運算循環，如果您要求它分析客製化任務性質的模組結構，這可能觸發數次內部的 API 呼叫，導致額度在短時間內被「耗盡」。可行性作法： 限制模型的自由度。不要讓 AI 自己決定什麼時候要去搜尋、去哪裡讀程式碼。評估用 LangGraph 或傳統程式邏輯，將步驟硬編碼（Hard-coded）。如：優先採用 Python 腳本抓取特定檔案內容，才接續將「精準過濾後的程式碼」餵給 LLM 進行對位檢核。用傳統程式碼代替 LLM 做檢索，能省下大量的推理 Token。

4. 輸出長度與深度思考 (Reasoning/Thinking)

目前的進階模型（如 Claude Opus 或 Gemini Pro）在處理複雜問題時，會進行「內部思考」或生成詳盡的技術說明。

輸出成本：生成長篇幅的技術分析、程式碼優化建議，其成本遠高於簡單的指令。

複雜度溢價：處理像客製化任務性質這種需要「聯邦架構（Federal Architecture）」的高階規劃問題，模型所消耗的算力資源遠大於處理一般常識問答。

筆者解決方式,除了用地端模型協助處理部分作業外，但可能會犧牲時間(因為受限本地端的硬體，替代了遠端極為高效能硬體運算)、以及可能額外帶來的幻覺風險；另一個比較粗糙有效之作法，就是關閉聊天室(即另外開啟一個新的COMMAND LINE命令提示POWERSHELL視窗)。

💜如何保護你的AntiGravity CLI神器之週用量？

💟 建立「模組化對話」：

不要把所有事情塞在同一個視窗。將「系統架構討論」、「程式碼重構」、「客製化任務性質教練考練習專屬對話聊天室(即獨立單一視窗)」分開不同的對話視窗（New Chat）。這樣可以避免模型重複閱讀不相關的歷史紀錄。

💟 定期重置視窗：

當一個任務告一段落（例如模組審計完成），請果斷開新對話。這能直接截斷累積的上下文資訊量，將每一輪的「輸入成本」壓到最低。

💟請AntiGravity CLI協助生成TOKEN監控耗損監控程式，提示詞PROMPT如下: (藍色部分)

可否提供改善之提示,如果用量TOKEN很大時,避免不自覺耗盡

協助建立完整的 Token 用量優化指南，以下是重點摘要：

## 🔑 核心三招

### 1. 模組化對話 — 一個視窗一個主題

把「架構討論」、「程式碼重構」、「教練考練習專屬對話聊天室」放在不同視窗，每輪可節省 50-70% 輸入 Token，因為模型不用重讀不相關歷史。

### 2. 果斷重置 — 識別 6 大信號

• 任務里程碑完成

• 話題轉換

• 對話超過 15-20 輪

• 模型開始重複或遺忘

• 大量程式碼已貼過

• 除錯迴圈超過 5 次

### 3. 防止不自覺耗盡 — 三個實用提示模板

模板 │ 用途

─────────────────────────────────────────────────────────────

精簡背景模板 │ 開新對話時只帶入最少必要資訊

用量自我檢查提示 │ 中途評估是否該換對話

Token 警戒模式提示 │ 貼在對話開頭，要求模型精簡回答

⚠️ 最容易忽略的隱藏成本：你的第 20 輪「一句小問題」，實際上會重新送出整個歷史（可能 50,000+ │ tokens）。這就是為什麼定期開新對話如此重要。

💜估算您的 Token 消耗量、發言輪次、工具呼叫次數以及程式碼行數，並根據設定的閾值提供綠色 (正常)、黃色 (提醒)、紅色 (強烈建議開新對話) 三種告警等級，幫助您節省 Token 重送的隱藏成本。

──────

### 💻 常用命令用法

您可以開啟終端機並在該目錄下運行以下指令：

#### 1. 掃描所有對話，顯示摘要與需要注意的對話

python token_monitor.py

#### 2. 僅分析最新的對話

python token_monitor.py --latest

#### 3. 分析最新的對話（詳細模式，輸出細節）

python token_monitor.py --latest -v

#### 4. 分析特定對話 ID

python token_monitor.py <conversation_id>

(例如： python token_monitor.py 2174fc95-2378-448b-bda7-a0a035a1754a )

#### 5. 開啟持續監控模式

這會以自適應刷新間隔定時刷新對話狀態，非常適合在開發時背景掛載：

python token_monitor.py --watch

💢注意事項:

💜 /exit 無法減少已有的 Token 損耗？

在 LLM（大型語言模型）的 API 機制中，Token 損耗是由「當前對話歷史的長度」決定的，而非對話視窗是否關閉或退出。

1. 上下文累加機制：Gemini 是「無狀態」的。為了記住上文，每次您輸入新問題時，Antigravity 會將**「整段對話歷史 + 您的新問題」**打包一起送給 Gemini。

2. /exit 的本質： /exit 只是結束了當前終端機的「會話狀態」，但並不會自動刪除或精簡已經記錄在 brain 中的歷史 JSONL 日誌。當您重啟或繼續在同一個 Conversation ID 提問時，它依然會重新讀取該日誌，導致 Token 消耗隨著輪數呈「等差數列級數」急速上升。

3. 唯一的降 Token 方法：

• 開新對話（換一個全新的 Conversation ID），這樣歷史歸零。

• 清理/封存歷史對話日誌，讓監控工具和後續會話不再讀取過大的歷史。

3.1 • 清理/移檔歷史對話：將 <appDataDir>\brain （即 C:\Users\username\.gemini\antigravity-cli\brain ）下那些用量過高、已結束的舊對話資料夾，移動到其他備份目錄，讓監控工具不再掃描到它們。

減緩TOKEN耗損: 本地端模型(OLLAMA)之安裝

2026年6月18日 星期四

減緩AntiGravity CLI神器之TOKEN消耗參考資訊(1/3)

2026年6月18日星期四