邁向 Gemini 2.0！Gemini 2.0 Flash 新模型登場，為 AI 代理設計

2023 年 12 月 6 日 Google 推出 Gemini 模型，並期望超越競爭對手 OpenAI 及當時主力產品 GPT-4。一年過後，Google 宣布邁向「Gemini 2.0」，向能夠獨立完成複雜任務的 AI 代理（Agent）邁進。

全新 Gemini 2.0 Flash 做為實驗模型，開放給所有 Gemini 用戶。它建立在 Gemini 1.5 Flash 基礎上，速度為 2 倍。除接受多模態輸入外，它支援多模態輸出，例如原生生成圖像與文字混合、可操控的文字轉語音（text-to-speech）多語言音訊；它還能原生呼叫 Google 搜尋、執行程式碼及第三方用戶定義函數等工具。Gemini 2.0 Flash 現在透過 Google AI Studio 和 Vertex AI 中的 Gemini API 開放給開發者。

Gemini 2.0 Flash 計劃先融入聊天機器人 Gemini 和 Google 搜尋當中。Gemini 模型產品負責人 Tulsee Doshi 認為，Gemini 新功能可使能夠思考、記憶、計劃甚至代表你採取行動的 AI 代理成為可能。

Google 推出一項名為「深度研究」（Deep Research）新功能，使用高階推理和長篇脈絡功能充當研究助理，探索複雜的主題、代替你撰寫報告，即日起在 Gemini Advanced 可使用。

Google 也將 Gemini 2.0 高階推理功能導入 AI 總覽（AI Overviews），解決更複雜的提問，包括數學方程式、多模態查詢以及編寫程式碼等，本週開始進行少部分測試，預計明年初擴大推出。同時明年繼續把 AI 總覽引進更多國家、支援更多語言。

AI 代理的實際應用可幫助人們完成任務，是令人期待的研究領域，Google 計劃透過一系列原型產品探索此一領域，包括 Project Astra、Project Mariner 及 Jules 等。

值得一提的是，Google 專為 AI 打造的加速器 TPU（Tensor Processing Unit）為 Gemini 2.0 訓練和推理提供 100% 支援，現在第六代 TPU Trillium 正式提供 Google Cloud 客戶使用。

這一年來，Google 推動 Gemini 1.0 和 Gemini 1.5 系列模型，在多模態和內容脈絡取得重要進展，能夠理解文字、圖片、影片、音訊及程式碼中的訊息，進而處理更多資訊。緊接著 AI 代理將成下一波趨勢，Google 提出 Gemini 2.0 因應未來需求。

（首圖來源：Google Blog）