Speech-to-text 语音转文字

1- Whisper windows 桌面版

网址:https://github.com/Const-me/Whisper

https://github.com/Const-me/Whisper

2- whipser 模型下载

网址:ggerganov/whisper.cpp at main (huggingface.co)

https://huggingface.co/ggerganov/whisper.cpp/tree/main

3- whisper jax 网页版

网址:Whisper JAX - a Hugging Face Space by sanchit-gandhi

https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

3.1- 在线版提供三种模式

Microphone 麦克风
Audio File 音频文件
YouTube

4- 单词:

4.1- transcribe

uk/trænˈskraɪb/
us/trænˈskraɪb/
verb [ T ]写下，记录下
抄录
verb [ T ]转录（为另一种书写形式）
改编（乐曲）

4.2- timestamps

时间戳是指格林威治时间1970年01月01日00时00分00秒（北京时间1970年01月01日08时00分00秒）起至现在的总秒数

5- CapsWriter-Offline

https://github.com/HaujetZhao/CapsWriter-Offline
中文专业课程/演讲类的视频，两三个小时左右，想转换成文字稿 1.试过whisper desktop + whisper-medium ，好处是拆箱即用，UI点一点就完事，坏处是中文效果一般，而且视频时长太长时，转录的文本出现过内容丢失； 2.有人推荐阿里的模型，小试了一下本地报错，然后也没有whisper desktop这种比较方便的UI，貌似还要先转音频再转文本佬友们有啥简单好用的方案吗，希望可以直接视频转文本，最好没有先转换成音频的中间步骤讯飞确实很好用，不过大量使用还是有一些限制，最好是本地就能run的我使用两款：

教程看作者提供的，优点速度和准确率都可以，不需要额外转音频，也可以实时录制转字幕

6- faster-whisper-GUI

https://github.com/CheshireCC/faster-whisper-GUI
模型基于faster whisper，GUI做的不错，不需要额外转音频昨天试了下， **faster-whisper-GUI + large-v3 model float32 ** ，效果非常好，完全满足我的需求了，感谢佬推荐！我觉得还是飞书好用，飞书工作台的妙记转写，是免费的，好像不限制文件的大小，把视频和音频上传之后就可以转成文本，而且可以用链接分享出去给别人编辑，而且转文本很快，我经常一转就是转两个小时语音 Mac有一款叫Whisper Transcription 的工具，之前限免过，很好用。

昨天试了下， **faster-whisper-GUI + large-v3 model float32 ** ，效果非常好，完全满足我的需求了，感谢佬推荐！

OK，咱也是借花献佛，另外，那个float32，如果感觉太慢，可以改为int 8，速度飞快，效果好像差别不大，自己对比试试

7- 讯飞听见

免费在线录音转文字-语音转文字-录音整理-语音翻译软件13
https://www.iflyrec.com/
讯飞听见依托科大讯飞的语音识别技术,打造智慧办公服务平台,提供语音转文字、录音转文字、AI写作、视频会议、视频转文字、视频加字幕、同声翻译、语音翻译等服务,可满足多样化的语音转文字及文字编辑需求,致力于提高办公效率。

8- 剪映

好像有一键生成字幕功能

9- 阿里的通义听悟

10- 飞书

好用，飞书工作台的妙记转写，是免费的，好像不限制文件的大小，把视频和音频上传之后就可以转成文本，而且可以用链接分享出去给别人编辑，而且转文本很快，我经常一转就是转两个小时语音

11- 概念解析

11.1- CPU、GPU和TPU

11.1.1- CPU（中央处理器）

CPU是计算机的大脑，负责执行计算机程序中的指令。它可以处理各种任务，包括基本的数学运算、逻辑判断、控制计算机的各个部分以及运行操作系统和应用程序。

11.1.1.1- 主要组成部分：

核心（Cores）：现代CPU通常有多个核心，每个核心可以独立执行指令。多核CPU可以同时处理多个任务。
缓存（Cache）：CPU内部有快速的存储区域，称为缓存。缓存用于存储最常用的数据和指令，以减少CPU从较慢的主内存读取数据的次数。
总线接口：用于CPU与外部组件（如内存、硬盘和其他设备）通信。
时钟：CPU的时钟控制着操作的节奏。每个时钟周期，CPU可以执行一个或一系列的操作。

11.1.1.2- 特点：

通用性：CPU可以执行任何类型的计算任务。
顺序执行：CPU通常按顺序执行指令，虽然它可以通过多线程和超线程技术同时处理多个任务，但这些任务仍然是顺序执行的。

11.1.2- GPU（图形处理器）

GPU最初是为了处理图形渲染而设计的，但它们的并行处理能力使它们在处理某些类型的计算任务时比CPU更高效。

11.1.2.1- 主要组成部分：

成百上千的核心：GPU有大量的核心，这些核心被设计来同时处理多个任务。
内存：GPU有自己的内存，称为显存，用于存储图形数据和计算过程中使用的数据。
渲染输出单元：负责将计算结果输出到显示器。

11.1.2.2- 特点：

并行处理：GPU的核心被设计来同时执行相同的操作，这使得它们在处理可以并行化的任务（如图形渲染和某些科学计算）时非常高效。
高度专门化：GPU的核心相对简单，不适合执行复杂的逻辑判断，但它们在处理重复性的数学运算方面非常出色。

11.1.3- TPU（张量处理器）

TPU是专门为机器学习和深度学习计算设计的芯片。它们优化了用于深度学习的核心操作，即矩阵乘法和向量计算。

11.1.3.1- 主要组成部分：

矩阵乘法加速器：TPU有一个或多个专用的矩阵乘法加速器，用于快速执行深度学习模型中的核心计算。
高带宽内存：TPU使用高带宽内存来存储和传输大量的数据，这对于深度学习计算非常重要。

11.1.3.2- 特点：

专用性：TPU专门为深度学习计算设计，因此它们在执行这些任务时比CPU和GPU更高效。
能效：TPU在设计时考虑了能效，因此它们在执行深度学习任务时通常比CPU和GPU消耗更少的能量。

11.1.4- 总结

CPU：适用于大多数通用计算任务，包括操作系统运行、应用程序执行等。
GPU：擅长处理可以并行化的任务，如图形渲染和深度学习中的大规模并行计算。
TPU：专门为深度学习计算设计，提供了非常高效的能效比，特别适合运行深度学习模型。

#软件

#whisper

huggingface 上一篇

Wireshark网络分析工具完全指南下一篇