Google AI 能力技術解析|Project Astra 與 Deep Think 亮點介紹

文章目錄

隨著 Gemini 系列模型的升級。

Google 不僅強化了 AI 模型本身的表現。

更同步拓展了其背後的能力技術。

從視覺理解到任務代理、從多模態互動到思維架構透明化。

這些 Google AI 能力技術 不再只是模型的延伸。

更是支撐整個 AI 生態系的基礎。

若你想深入理解 Gemini 的運作原理與應用潛力。

這篇文章將針對幾個重要技術架構,做出完整整理與解析。

Project Astra:即時理解與多模態互動的基礎核心

Project Astra 是 Google 在 I/O 2025 中展示的研究型架構。

負責串聯視訊畫面、語音輸入、記憶與即時反應能力。

它能辨識鏡頭畫面中的物件、理解語意命令,甚至結合語音回覆與行動指令。

這項技術已整合到 Gemini Live 與 Search Live 中。

讓使用者能與 AI 進行真正即時、連續且上下文連貫的互動。

如你對這部分應用情境感興趣,可延伸閱讀 《Google 推出 Gemini Live、Meet 語音翻譯》。

Deep Think 模式:讓模型擁有多步推理與「思維預算」

Gemini 2.5 Pro 所搭載的 Deep Think 模式,是 Google 首次對外釋出的進階運算能力之一。

它允許模型花更多「思維資源」在複雜問題上。

透過逐步運算、假設驗證與知識推演,模擬類似人類的邏輯決策。

這套機制也導入了「思維預算(Thinking Budgets)」概念。

讓使用者可以控管每次模型運算的成本與延遲時間。

若你對 Gemini 模型的完整功能有興趣,你可以閱讀《Google Gemini 模型全解》。

Agentic Capabilities:AI 不再只是回答,而是主動完成任務

傳統語言模型只能被動回答問題。

而 Google 所開發的 Agentic Capabilities,讓 Gemini 可以根據上下文主動執行任務。

例如查詢票價、預訂行程、填寫表單等。

這項能力是由 Project Mariner 所支援。

並透過 Model Context Protocol(MCP)串聯各種服務 API。

讓 AI 可以「像人一樣」與網路服務互動。

這些技術能力已開始被導入新版的搜尋系統。

有興趣的讀者,也可閱讀《Google 搜尋 AI Mode 是什麼》,瞭解搜尋如何結合多模態與代理能力。

個人化情境與智慧摘要:讓 AI 更懂你

Google 同時也在強化 AI 與使用者的「熟悉程度」。

推出個人化情境(Personal Context)與智慧回覆機制。

未來 Gmail 將能產出與你語氣相符的郵件回覆。

Google App 則能根據你過去行為,提供量身打造的搜尋建議。

同時,Gemini 模型也新增「思維摘要(Thought Summaries)」功能。

會自動將 AI 的處理過程轉換為條列式邏輯說明,讓使用者更清楚它是如何得出答案的。

結論:AI 能力技術是 Gemini 成為助理的核心關鍵

從被動問答到主動互動,從單一模態到視覺、語音、文字整合。

Google 透過 Project Astra、Agentic Capabilities 與 Deep Think 等技術。

讓 Gemini 不只是模型,而是一位真正能幫你做事的 AI 助理。

未來的 AI,不只是更快或更聰明,而是更能理解人、主動服務、創造價值。

如果你也好奇 AI 如何影響影音創作。

你可以閱讀《Flow 是什麼?Google AI 電影工具教學》,探索 AI 在內容產製上的突破應用!

關於Techduker的編輯流程

Techduker編輯政策涉及密切關注科技業的重大發展、新產品發布、人工智慧突破、電玩遊戲發布和其他具有新聞價值的事件。編輯將相關故事分配給在每個特定主題領域具有專業知識的專職撰稿人或自由撰稿人。在發表之前,文章會經過一輪嚴格的編輯,以確保準確性、清晰度,並確保遵守 Techduker 的風格指南。

文章目錄