语音转文字Whisper v1.12(包含模型文件:ggml-large.bin)

RS 电脑玩物评论3字数 909阅读3分1秒阅读模式
语音转文字Whisper v1.12(包含模型文件:ggml-large.bin)
所属分类:电脑玩物 应用平台:Windows 资源版本:V1.12 最后更新:2024年4月10日 20:28

在第一个屏幕上,它会要求您下载模型。本站提供ggml-large.bin(大小为2.88Gb)

我推荐ggml-medium.bin(大小为 1.42GB),因为我主要使用该型号测试了该软件。
语音转文字Whisper v1.12(包含模型文件:ggml-large.bin)

下一个屏幕允许转录音频文件。
语音转文字Whisper v1.12(包含模型文件:ggml-large.bin)

还有另一个屏幕,允许捕获和转录或翻译来自麦克风的实时音频。
语音转文字Whisper v1.12(包含模型文件:ggml-large.bin)

特征

基于 DirectCompute 的与供应商无关的 GPGPU;该技术的另一个名称是“Direct3D 11 中的计算着色器”

纯 C++ 实现,除了必要的操作系统组件之外没有运行时依赖项

比 OpenAI 的实现快得多。在我配备 GeForce 1080Ti GPU 的台式计算机上,中等型号,使用 PyTorch 和 CUDA 转录3 分 24 秒的演讲 需要 45 秒,但使用我的实现和 DirectCompute 只需要 19 秒。 Funfact:运行时依赖项为 9.63 GB,而运行时依赖项为 431 KB

Whisper.dll

混合 F16 / F32 精度: 自 D3D 版本 10.0 起Windows需要支持 缓冲区R16_FLOAT

内置性能分析器,可测量各个计算着色器的执行时间

内存使用率低

用于音频处理的 Media Foundation,支持大多数音频和视频格式(Ogg Vorbis 除外)以及大多数在 Windows 上工作的音频捕获设备(除了一些仅实现ASIO API 的专业设备)。

用于音频捕获的语音活动检测。
该实现基于Mohammad Moattar 和 Mahdi Homayoonpoor 于2009 年发表的文章 “一种简单但高效的实时语音活动检测算法”。

易于使用的 COM 风格 API。nuget 上提供了惯用的 C# 包装器。

版本 1.10引入了 对 PowerShell 5.1 的脚本支持,这是 Windows 上预安装的较旧的“Windows PowerShell”版本。

可用预构建的二进制文件

唯一受支持的平台是 64 位 Windows。

应该在 Windows 8.1 或更高版本上工作,但我只在 Windows 10 上进行了测试。

该库需要支持 Direct3D 11.0 的 GPU,这在 2023 年只是意味着“任何硬件 GPU”。不支持 D3D 11.0 的最新 GPU 是 2011 年的 Intel Sandy Bridge。

在CPU方面,该库需要AVX1和F16C支持。

下载信息 资源名称:语音转文字Whisper 应用平台:Windows 资源版本:V1.12 资源大小:2.66GB
最近更新2024-4-10
下载地址

继续阅读
 
RS
  • 本文由 RS 发表于 2024年4月10日 20:47:47
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定