Gemini Pro Vision(gemini-pro-vision)是一種多模式模型,支持在文本或聊天提示中添加圖像和視頻以獲得文本響應(yīng)。

注意:Gemini Pro Vision 型號不支持純文本提示。請使用 Gemini Pro 型號來獲取純文本提示。

2. 單擊“用戶管理的筆記本”,然后單擊“打開 JupyterLab獲取generative-ai-jupyterlab筆記本”。

3. 在啟動器上的Notebook下,單擊Python 3以打開一個新的 Python 筆記本。

4. 通過在筆記本的第一個單元格中運行以下命令來安裝適用于 Python 的 Vertex AI SDK。

單擊頂部的播放按鈕??!pip3 安裝–升級–用戶 google-cloud-aiplatform

輸出:

5. 要在此 Jupyter 運行時中使用新安裝的軟件包,建議重新啟動運行時。通過運行以下代碼片段或單擊頂部的刷新按鈕重新啟動內(nèi)核,然后單擊重新啟動按鈕。

import IPython

app = IPython.Application.instance()

app.kernel.do_shutdown(True)

輸出:

重啟完成后,根據(jù)提示點擊Ok繼續(xù)。

使用 Gemini Pro 模型

Gemini Pro(gemini-pro)模型專為分類、總結(jié)、提取和寫作等自然語言任務(wù)而定制。

1. 設(shè)置 Google Cloud 項目并為 cURL 命令定義環(huán)境變量。

從文本生成文本

向模型發(fā)送文本提示。Gemini Pro ( gemini-pro) 模型提供流式響應(yīng)機制。通過這種方法,無需等待完整的響應(yīng);只要片段可用,就可以開始處理它們。

2. 運行以下代碼片段,從文本生成文本。

輸出:

模型參數(shù)

發(fā)送給模型的每個提示都包含控制模型如何生成響應(yīng)的參數(shù)值。模型可以為不同的參數(shù)值生成不同的結(jié)果。可以嘗試使用不同的模型參數(shù)來查看結(jié)果如何變化。

3. 運行以下代碼片段來生成包含參數(shù)值的響應(yīng)。

輸出:

聊天

Gemini Pro 模型支持自然的多輪對話,非常適合需要來回交互的文本任務(wù)。

如果當(dāng)內(nèi)容代表對話輪次時,才應(yīng)指定該字段??梢栽O(shè)置role為以下值之一:user,model。

4、運行以下代碼片段進行聊天。

輸出:

使用 Gemini Pro 視覺模型

Gemini Pro Vision(gemini-pro-vision)是一種多模式模型,支持在文本或聊天提示中添加圖像和視頻以獲得文本響應(yīng)。

注意:Gemini Pro Vision 型號不支持純文本提示。請使用 Gemini Pro 型號來獲取純文本提示。

1、運行以下代碼片段從 Google Cloud Storage 下載圖像。

輸出:

從本地圖像生成文本

指定要在提示和字段中內(nèi)聯(lián)包含的圖像或視頻的base64mime_type編碼。圖像支持的MIMEimage/png類型包括和image/jpeg。

2. 運行以下支持的代碼片段mine_type來生成響應(yīng)。

輸出:

從 Google Cloud Storage 上的圖片生成文本

指定要包含在提示中的圖片的 Cloud Storage URI。存儲文件的存儲桶必須位于發(fā)送請求的同一 Google Cloud 項目中。您還必須指定字段mime_type。支持的圖片 MIME 類型包括image/png和image/jpeg。

3. 運行以下代碼片段,從 Google Cloud Storage 上的圖像生成文本。

輸出:

從視頻文件生成文本

指定要包含在提示中的視頻的 Cloud Storage URI。存儲文件的存儲桶必須位于發(fā)送請求的同一 Google Cloud 項目中。還必須指定字段mime_type。視頻支持的 MIME 類型包括video/mp4。

4. 運行以下代碼片段從視頻文件生成文本:

輸出:

總結(jié)

Gemini 是 Google DeepMind 開發(fā)的一系列能夠處理多種模態(tài)信息的生成式 AI 模型。與傳統(tǒng)的 AI 模型不同,Gemini 不僅可以接受文本輸入,還能理解圖像和視頻,并將這些信息結(jié)合起來進行學(xué)習(xí)和推理。

這意味著你可以向它展示一張圖片,它就能描述圖片內(nèi)容,或者根據(jù)一段視頻生成文字摘要。

Gemini 模型在文本生成方面也表現(xiàn)出色,能夠根據(jù)用戶的提示生成連貫且富有創(chuàng)造力的文本。例如,你可以要求它寫一首詩、一篇故事,甚至是一篇學(xué)術(shù)論文,它都可以完成你的任務(wù)。

總而言之,Gemini 是一個功能強大且具有前瞻性的 AI 模型,它為我們提供了新的可能性,并將在未來改變我們與人工智能交互的方式。

文章轉(zhuǎn)自微信公眾號@百道數(shù)據(jù)

上一篇:

Serverless實踐系列:云函數(shù)+API,告知天氣信息

下一篇:

LLM|Gemini:谷歌Gemini Pro 開放API ,Gemini Pro 可免費使用
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費