音频应用   音频插件联盟,正版插件,欢迎大家选择!

 找回密码
 快速注册

QQ登录

只需一步,快速开始

阅读: 8712|回复: 1

[资讯] Whisper 语音转换文字工具,低内存,支持 GPU

[复制链接]

825

积分

1

听众

18

音贝

音频应用新手发布

Rank: 3

积分
825
发表于 2023-3-18 | |阅读模式
音频应用公众号资讯免费发布推广
Whisper  语音转换文字工具,低内存,支持 GPU


OpenAI 的 Whisper 自动语音识别 (ASR) 模型的高性能 GPGPU 推理
使用 Whisper
在 Model Path 里面选择你下载的模型,然后选择 GPU 就能进入软件了。
gui-load-model.png
Whisper - 本地语音转文字工具,支持 GPU、支持实时语音转换[Windows] 1
然后通过屏幕允许转录音频文件。
gui-transcribe.png

还有另一个屏幕允许从麦克风捕获和转录,或翻译实时音频文件,如 MP3 来转换为文字了。

gui-capture.png


基于 DirectCompute 的供应商不可知的 GPGPU;该技术的另一个名称是“Direct3D 11 中的计算着色器”

纯 C++ 实现,除了基本的 OS 组件外没有运行时依赖性

比 OpenAI 的实现快得多。

在我配备 GeForce 1080Ti GPU 的中型台式计算机上, 使用 PyTorch 和 CUDA 转录3 分 24 秒的演讲需要 45 秒,但使用我的实现和 DirectCompute 只需要 19 秒。
趣闻:这是 9.63 GB 的运行时依赖项,而 431 KBWhisper.dll

混合 F16 / F32 精度:自 D3D 版本 10.0 起,Windows 需要缓冲区 的支持R16_FLOAT

内置性能分析器,可测量单个计算着色器的执行时间

内存使用率低

用于音频处理的媒体基础,支持大多数音频和视频格式(Ogg Vorbis 除外),以及大多数在 Windows 上运行的音频捕获设备(除了一些专业的,它们只实现 ASIO API )。

用于音频捕获的语音活动检测。

该实现基于Mohammad Moattar 和 Mahdi Homayoonpoor 于2009 年发表的文章 “一种简单但高效的实时语音活动检测算法”。

https://www.researchgate.net/pub ... detection_algorithm


易于使用的 COM 风格 API,nuget 上可用的惯用 C# 包装器

提供预构建的二进制文件

唯一受支持的平台是 64 位 Windows。
应该可以在 Windows 8.1 或更高版本上运行,但我只在 Windows 10 上测试过。
该库需要支持 Direct3D 11.0 的 GPU,这在 2023 年就意味着“任何硬件 GPU”。最新的不支持 D3D 11.0 的 GPU 是 2011 年的 Intel Sandy Bridge。

软件下载:https://github.com/Const-me/Whisper
模型:https://huggingface.co/datasets/ggerganov/whisper.cpp/tree/main
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

12

积分

1

听众

2

音贝

音频应用

Rank: 1

积分
12
发表于 2023-3-22 |
没有整合版的吗
欢迎厂家入驻,推文!免费!微信:yinpinyingyong
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

音频应用搜索

小黑屋|手机版|音频应用官网微博|音频招标|音频应用 (鄂ICP备16002437号)

Powered by Audio app

快速回复 返回顶部 返回列表