大模型系列：OpenAI使用技巧_GPT-4-vision和TTS API处理和叙述视频|电子爱好者

admin管理员组
文章数量:1597497

本笔记本演示了如何使用GPT的视觉能力处理视频。GPT-4不能直接将视频作为输入，但我们可以使用视觉和新的128K上下文窗口一次性描述整个视频的静态帧。我们将演示两个示例：

使用GPT-4获取视频的描述
使用GPT-4和TTS API为视频生成配音

# 导入需要的库
from IPython.display import display, Image, Audio  # IPython.display库用于在Jupyter Notebook中显示图像、音频等
import cv2  # OpenCV库用于读取视频
import base64  # base64库用于将二进制数据编码为ASCII字符
import time  # time库用于计时
from openai import OpenAI  # OpenAI库用于调用OpenAI API
import os  # os库用于与操作系统交互
import requests  # requests库用于向API发送HTTP请求

client = OpenAI()  # 创建OpenAI客户端对象

使用GPT的视觉能力获取视频描述。

首先，我们使用OpenCV从一个包含野牛和狼的自然视频中提取帧：

# 导入OpenCV库
import cv2
# 导入base64库
import base64

# 打开视频文件
video = cv2.VideoCapture("data/bison.mp4")

# 创建一个空列表，用于存储每一帧图像的base64编码
base64Frames = []

# 循环读取视频帧
while video.isOpened():
    # 读取一帧图像
    success, frame = video.read()
    # 如果读取失败，则退出循环
    if not success:
        break
    # 将图像编码为jpg格式
    _, buffer = cv2.imencode(".jpg", frame)
    # 将编码后的图像转换为base64编码，并添加到列表中
    base64Frames.append(base64.b64encode(buffer).decode("utf-8"))

# 释放视频文件
video.release()

# 打印读取的帧数
print(len(base64Frames), "frames read.")

618 frames read.

显示帧以确保我们正确读取了它们：

# 创建一个display对象，用于显示图像
display_handle = display(None, display_id=True)

# 遍历base64Frames中的每个图像
for img in base64Frames:
    # 将base64编码的图像数据解码为二进制数据，并创建一个Image对象
    image_data = base64.b64decode(img.encode("utf-8"))
    image = Image(data=image_data)
    
    # 更新display对象，显示当前图像
    display_handle.update(image)
    
    # 暂停一段时间，以便观察图像
    time.sleep(0.025)

一旦我们获得了视频帧，我们会制作提示并向GPT发送请求（请注意，我们不需要发送每个帧以让GPT理解发生了什么）：

# 代码注释

# 定义一个包含对话信息的列表，每个对话信息包含角色和内容
PROMPT_MESSAGES = [
    {
        "role": "user",
        "content": [
            "These are frames from a video that I want to upload. Generate a compelling description that I can upload along with the video.",
            *map(lambda x: {"image": x, "resize": 768}, base64Frames[0::50]),
        ],
    },
]

# 定义参数字典，包含模型、对话信息和生成的最大令牌数
params = {
    "model": "gpt-4-vision-preview",
    "messages": PROMPT_MESSAGES,
    "max_tokens": 200,
}

# 调用API创建聊天完成请求，并传入参数
result = client.chat.completions.create(**params)

# 打印生成的描述内容
print(result.choices[0].message.content)

"🐺 Survival of the Fittest: An Epic Tale in the Snow ❄️ - Witness the intense drama of nature as a pack of wolves face off against mighty bison in a harsh winter landscape. This raw footage captures the essence of the wild where every creature fights for survival. With each frame, experience the tension, the strategy, and the sheer force exerted in this life-or-death struggle. See nature's true colors in this gripping encounter on the snowy plains. 🦬"

Remember to respect wildlife and nature. This video may contain scenes that some viewers might find intense or distressing, but they depict natural animal behaviors important for ecological studies and understanding the reality of life in the wilderness.

使用GPT-4和TTS API为视频生成配音。

让我们以大卫·爱登堡的风格为这个视频配音。使用相同的视频帧，我们引导GPT为我们提供一个简短的脚本：

# 代码注释

# 定义一个包含提示信息的列表，用于生成对话
PROMPT_MESSAGES = [
    {
        "role": "user",
        "content": [
            "These are frames of a video. Create a short voiceover script in the style of David Attenborough. Only include the narration.",
            *map(lambda x: {"image": x, "resize": 768}, base64Frames[0::60]),
        ],
    },
]

# 定义一个参数字典，用于调用API
params = {
    "model": "gpt-4-vision-preview",  # 指定模型为"gpt-4-vision-preview"
    "messages": PROMPT_MESSAGES,  # 使用上述定义的对话提示信息
    "max_tokens": 500,  # 生成的文本最大长度为500个tokens
}

# 调用API生成文本
result = client.chat.completions.create(**params)

# 打印生成的文本内容
print(result.choices[0].message.content)

In the vast, white expanse of the northern wilderness, a drama as old as time unfolds. Here, amidst the silence of the snow, the wolf pack circles, their breaths visible as they cautiously approach their formidable quarry, the bison. These wolves are practiced hunters, moving with strategic precision, yet the bison, a titan of strength, stands resolute, a force to be reckoned with.

As tension crackles in the frozen air, the wolves close in, their eyes locked on their target. The bison, wary of every movement, prepares to defend its life. It's a perilous dance between predator and prey, where each step could be the difference between life and death.

In an instant, the quiet of the icy landscape is shattered. The bison charges, a desperate bid for survival as the pack swarms. The wolves are relentless, each one aware that their success depends on the strength of the collective. The bison, though powerful, is outnumbered, its massive form stirring up clouds of snow as it struggles.

It's an epic battle, a testament to the harsh realities of nature. In these moments, there is no room for error, for either side. The wolves, agile and tenacious, work in unison, their bites a chorus aiming to bring down the great beast. The bison, its every heaving breath a testament to its will to survive, fights fiercely, but the odds are not in its favor.

With the setting sun casting long shadows over the snow, the outcome is inevitable. Nature, in all its raw beauty and brutality, does not show favor. The wolves, now victors, gather around their prize, their survival in this harsh climate secured for a moment longer. It's a poignant reminder of the circle of life that rules this pristine wilderness, a reminder that every creature plays its part in the enduring saga of the natural world.

现在我们可以将脚本传递给TTS API，它将生成语音解说的mp3文件：

import requests  # 导入requests库，用于发送HTTP请求
import os  # 导入os库，用于获取环境变量

# 发送POST请求，将文本转换为语音
response = requests.post(
    "https://api.openai/v1/audio/speech",  # 请求的URL
    headers={
        "Authorization": f"Bearer {os.environ['OPENAI_API_KEY']}",  # 设置请求头，包含API密钥
    },
    json={
        "model": "tts-1-1106",  # 使用的语音模型
        "input": result.choices[0].message.content,  # 输入的文本内容
        "voice": "onyx",  # 使用的语音类型
    },
)

audio = b""  # 初始化音频数据为空
# 逐块读取响应内容，并将其添加到音频数据中
for chunk in response.iter_content(chunk_size=1024 * 1024):
    audio += chunk

Audio(audio)  # 播放音频数据

本文标签：使用技巧模型系列视频 API

版权声明：本文标题：大模型系列：OpenAI使用技巧_GPT-4-vision和TTS API处理和叙述视频内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1728284828a1152171.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

Pazera Free MP4 To MP3 Converter 1.6 中文64位+32位便携版，免费的视频转换器

1天前

Free MP4 to MP3 Converter是Pazera的一款免费的视频转换器，可将MP4，M4A（iTunes音频），M

详解EasyRecovery16数据恢复软件功能、应用与使用技巧

1天前

数据丢失是一件让人非常头疼的事情，不过好在有像 EasyRecovery 这样的数据恢复软件可以帮我们解决问题。今天就来给大家详细介绍一下 EasyRecovery 这款软件。一、EasyRecovery 是什么&

[高通MSM8953_64][Android10]解除应用层通过反射调用系统api的限制

1天前

文章目录开发平台基本信息问题描述解决方法开发平台基本信息芯片: MSM8953_64 版本: Android 10 kernel: msm-4.9 问题描述 Android系统在设计的时候，越来越往安全方面

Aspose.PDF for Java系列5-转化PDF文档为Word

1天前

Aspose.PDF for Java系列5-转化PDF文档 DocFormat枚举类提供了DOCX格式的文件输出格式选项。如果你想要将PDF转化为DOCX格式，请参考本文下面的内容。 PDF转化为DOCX 步骤

安全模型中的4个P

1天前

引言：在安全模型中，经常会碰到PDR,PPDR，IPDRR，CARTA-PPDR等模型，其中的P，是pred

基于趋动云部署复旦大学MOSS大模型

1天前

首先新建项目： MOSS部署项目，然后选择镜像，直接用官方的镜像就可以。之后选择数据集： 公开数据集中，MOSS_复旦大

huggingface transformers实战系列-06_文本摘要

1天前

文本摘要简述随着互联网产生的文本数据越来越多，文本信息过载问题日益严重，对各类文本进行一个“降维”处理显得非常必要，文本摘要便是其中一个重要的手段。文本摘要旨在将文本或

神经网络为什么优于逻辑回归_什么时候以及为什么基于树的模型通常优于神经网络...

1天前

神经网络为什么优于逻辑回归 Neural networks are often regarded as the holy grail, all-knowing, solution-to-everything of machine learn

官方免费工具（ODT）安装新版 Office2021【视频演示】

1天前

导语：现在网络上几乎所有的Office 2021 的iso安装镜像，都不是官方发布的。演示如何使用最新的官方免费安装工具(ODT)在Windows11上安装原版的永久授权的 Office 2021

获取你的WIFI密码-fluxion（附操作视频）

21小时前

1.文章难易度【★★★★】2.文章主要讲解fluxion的基本使用方法。 3.文章作者：sn0w 4.本文参与i春秋社区原创文章奖励计划，未经许可禁止转载。 fluxion是一款无线安全测试工具&

office系列全套装：Office LTSC 2021 (Win&Mac) 特别版

19小时前

Office LTSC 2021（长期服务通道）是微软为不需要频繁更新的企业和机构设计的办公软件套件。这一版本的产品特点和功能如下： 1. 稳定性与长期支持长期服务支持&a

Youtube视频加字幕需要的软件电脑版+手机版 2020语音视频自动生成字幕软件

17小时前

1.抖音出品剪映手机版 ： https:lv.ulikecam 2.快手软件快影手机版： https:www.kuaishoukuaiying 电脑版配合模拟器使用挨个网站点了

Java日期时间主要API：java.time.Duration类和java.time.Period类

16小时前

以下源代码的JDK版本：jdk-13.0.1 一、Duration和Period介绍 Duration类通过秒和纳秒相结合来描述一个时间量，最高精度是纳秒。时间量可以为正也可以为负&#

图像滤波器系列(2):保边平滑滤波器Edge-Preserving Noise Reduction

11小时前

注意事项 1、边缘位置可能移动 2、假设噪声分布于图像数据无关 3、最好不好用于高精度测量问题的预处理算子保边滤波都是非线性滤波，以halcon算子来进行介绍 eliminate_min_max 基本原理：中心像素比邻域像素

超详细的R语言热图之complexheatmap系列（1）

11小时前

获取更多R语言和生信知识，请关注公众号：医学和生信笔记。公众号后台回复R语言，即可获得海量学习资料！ 目录第一章简介 1.1 设计理念

有了这些免费无限次的API 接口，再也不愁没有服务器开发不了APP了，也可以自己开发小程序了

4小时前

相关阅读： 吊炸天！74款APP完整源码！2016移动端Android新技术综合预览--好文不多，这一篇就足够移动端App开发的三种开发技术对比

macOS必备APP macOS 下那些鲜为人知的使用技巧

4小时前

为了方便各位同学掌握Mac！ 我把买来Mac后的一系列操作都给你准备好了！ 目录 macOS必备APPMac常用快捷键macOS 下那些鲜为人知的使用技巧 macOS必备APP 1、Cle

安卓 Google Play In-App Review API 使用建议

4小时前

安卓手机软件内发布google play的评分和反馈用户可以在手机应用里向google play store发布评分（1星到5星）和反馈，而无需打开google play再操作。硬件需求安卓系统：安卓5.0（API level

下载3D元件模型导入Altium Designer并制作PCB元件库

4小时前

⭐大家好，一个新手菜鸟前来报到！⭐好久没更新文章了，前几天出去了，不在家，昨天有小伙伴疑惑，从某平台导出的P

ASUS华硕幻14 2022 GA402R系列原厂win11系统工厂文件带F12 ASUS Recovery恢复

17分钟前

华硕工厂文件恢复系统 ，安装结束后带隐藏分区，一键恢复，以及机器所有驱动软件。系统版本：windows11 原厂系统下载网址&#xff1a

电子爱好者 - 最新技术资讯及电子产品介绍！

大模型系列：OpenAI使用技巧_GPT-4-vision和TTS API处理和叙述视频

更多相关文章

Pazera Free MP4 To MP3 Converter 1.6 中文64位+32位便携版，免费的视频转换器

详解EasyRecovery16数据恢复软件功能、应用与使用技巧

[高通MSM8953_64][Android10]解除应用层通过反射调用系统api的限制

Aspose.PDF for Java系列5-转化PDF文档为Word

安全模型中的4个P

基于趋动云部署复旦大学MOSS大模型

huggingface transformers实战系列-06_文本摘要

神经网络为什么优于逻辑回归_什么时候以及为什么基于树的模型通常优于神经网络...

官方免费工具（ODT）安装新版 Office2021【视频演示】

获取你的WIFI密码-fluxion（附操作视频）

office系列全套装：Office LTSC 2021 (Win&amp;Mac) 特别版

Youtube视频加字幕需要的软件电脑版+手机版 2020语音视频自动生成字幕软件

Java日期时间主要API：java.time.Duration类和java.time.Period类

图像滤波器系列(2):保边平滑滤波器Edge-Preserving Noise Reduction

超详细的R语言热图之complexheatmap系列（1）

有了这些免费无限次的API 接口，再也不愁没有服务器开发不了APP了，也可以自己开发小程序了

macOS必备APP macOS 下那些鲜为人知的使用技巧

安卓 Google Play In-App Review API 使用建议

下载3D元件模型导入Altium Designer并制作PCB元件库

ASUS华硕幻14 2022 GA402R系列 原厂win11系统 工厂文件 带F12 ASUS Recovery恢复

发表评论

推荐文章

win10右键一直转圈_Win10总是自动更新？教你如何关掉自动更新

python基础笔记，超详细，包含面向对象基础，爬虫实战【持续更新中...】

【工具推荐】MobaXterm远程终端管理工具最全攻略，涉及下载、安装、字体配置、中文汉化版、中文显示乱码和中文输入乱码、adb tab无效无法补全、Telnetssh使用说明、使用技巧等保姆级教程

笔记本电脑亮度调节键失灵了，该怎么解决？

vs出错提示程序无法正常启动（0xc000007b)解决方案

热门文章

【安全弹出U盘】无法停止“通用卷”…

OMNETPP安装与入门教程

Investigate the Oracle Library CacheHit Ratio

【前端收藏】前端小作文-前端八股文知识总结（超万字超详细）持续更新

MathType2024中文版下载安装及使用相关操作教程

软件安装——VSMatlabPycharmMybase{Win+office}

Windows10下安装Anaconda3(附带python3.7.9)+Tensorflow2.0.0+Pycharm

寒假营2-F Tokitsukaze and Eliminate (hard)

CentOS Linux 8 - AppStream 错误：为仓库 ‘appstream‘ 下载元数据失败 : Cannot prepare internal mirrorlist: No URLs

xp系统无法自动修复此计算机该怎么解决,自动修复无法修复win10系统,自动修复无法修复win10系统怎么办...

最新文章

【frp内网穿透教程】frp内网穿透服务器端frps.ini配置参数详解

3D建模入门想学习Zbrush，你一定要了解的电脑配置要求！

计算机主板参数指标,肿么看电脑主板参数

FRP内网穿透参数配置+服务器与客户端的简易配置+完整配置详解（Windows）

云服务器设置,云服务器配置参数讲解

Mybatis配置文件——全配置解析

使用V-ASSISTANT软件配置V90伺服驱动器参数的具体步骤详解

mysql_性能参数调优详解

Windows系统DOS命令大全，命令参数详解

Linux虚拟机静态IP设置以及网关文件配置参数详解

HTTP各个参数详解

查看计算机ip地址配置信息的命令是,查看电脑配置指令大全

creo4.0的计算机系统要求,Creo4.0系统配置文件教程详解 参数设置

yolov3 darknet cfg配置文件参数详解

百度搜索URL参数解析详解与对快排的作用！

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

office系列全套装：Office LTSC 2021 (Win&Mac) 特别版

ASUS华硕幻14 2022 GA402R系列原厂win11系统工厂文件带F12 ASUS Recovery恢复

creo4.0的计算机系统要求,Creo4.0系统配置文件教程详解参数设置

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载