Speech-to-text 语音转文字

1- Whisper windows 桌面版

网址:https://github.com/Const-me/Whisper

https://github.com/Const-me/Whisper

2- whipser 模型下载

网址:ggerganov/whisper.cpp at main (huggingface.co)

https://huggingface.co/ggerganov/whisper.cpp/tree/main

3- whisper jax 网页版

网址:Whisper JAX - a Hugging Face Space by sanchit-gandhi

https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

3.1- 在线版提供三种模式

  1. Microphone 麦克风
  2. Audio File 音频文件
  3. YouTube

4- 单词:

4.1- transcribe

uk/trænˈskraɪb/
us/trænˈskraɪb/
verb [ T ]写下,记录下
抄录
verb [ T ]转录(为另一种书写形式)
改编(乐曲)

4.2- timestamps

时间戳是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数

5- CapsWriter-Offline

https://github.com/HaujetZhao/CapsWriter-Offline
中文专业课程/演讲类的视频,两三个小时左右,想转换成文字稿 1.试过whisper desktop + whisper-medium ,好处是拆箱即用,UI点一点就完事,坏处是中文效果一般,而且视频时长太长时,转录的文本出现过内容丢失; 2.有人推荐阿里的模型,小试了一下本地报错,然后也没有whisper desktop这种比较方便的UI,貌似还要先转音频再转文本 佬友们有啥简单好用的方案吗,希望可以直接视频转文本,最好没有先转换成音频的中间步骤 讯飞确实很好用,不过大量使用还是有一些限制,最好是本地就能run的 我使用两款:

教程看作者提供的,优点速度和准确率都可以,不需要额外转音频,也可以实时录制转字幕

6- faster-whisper-GUI

https://github.com/CheshireCC/faster-whisper-GUI
模型基于faster whisper,GUI做的不错,不需要额外转音频 昨天试了下, **faster-whisper-GUI + large-v3 model float32 ** ,效果非常好,完全满足我的需求了,感谢佬推荐! 我觉得还是飞书好用,飞书工作台的妙记转写,是免费的,好像不限制文件的大小,把视频和音频上传之后就可以转成文本,而且可以用链接分享出去给别人编辑,而且转文本很快,我经常一转就是转两个小时语音 Mac有一款叫Whisper Transcription 的工具,之前限免过,很好用。

昨天试了下, **faster-whisper-GUI + large-v3 model float32 ** ,效果非常好,完全满足我的需求了,感谢佬推荐!

OK,咱也是借花献佛,另外,那个float32,如果感觉太慢,可以改为int 8,速度飞快,效果好像差别不大,自己对比试试

7- 讯飞听见

免费在线录音转文字-语音转文字-录音整理-语音翻译软件13
https://www.iflyrec.com/
讯飞听见依托科大讯飞的语音识别技术,打造智慧办公服务平台,提供语音转文字、录音转文字、AI写作、视频会议、视频转文字、视频加字幕、同声翻译、语音翻译等服务,可满足多样化的语音转文字及文字编辑需求,致力于提高办公效率。

8- 剪映

好像有一键生成字幕功能

9- 阿里的通义听悟

10- 飞书

好用,飞书工作台的妙记转写,是免费的,好像不限制文件的大小,把视频和音频上传之后就可以转成文本,而且可以用链接分享出去给别人编辑,而且转文本很快,我经常一转就是转两个小时语音

11- 概念解析

11.1- CPU、GPU和TPU

11.1.1- CPU(中央处理器)

CPU是计算机的大脑,负责执行计算机程序中的指令。它可以处理各种任务,包括基本的数学运算、逻辑判断、控制计算机的各个部分以及运行操作系统和应用程序。

11.1.1.1- 主要组成部分:

  • 核心(Cores):现代CPU通常有多个核心,每个核心可以独立执行指令。多核CPU可以同时处理多个任务。
  • 缓存(Cache):CPU内部有快速的存储区域,称为缓存。缓存用于存储最常用的数据和指令,以减少CPU从较慢的主内存读取数据的次数。
  • 总线接口:用于CPU与外部组件(如内存、硬盘和其他设备)通信。
  • 时钟:CPU的时钟控制着操作的节奏。每个时钟周期,CPU可以执行一个或一系列的操作。

11.1.1.2- 特点:

  • 通用性:CPU可以执行任何类型的计算任务。
  • 顺序执行:CPU通常按顺序执行指令,虽然它可以通过多线程和超线程技术同时处理多个任务,但这些任务仍然是顺序执行的。

11.1.2- GPU(图形处理器)

GPU最初是为了处理图形渲染而设计的,但它们的并行处理能力使它们在处理某些类型的计算任务时比CPU更高效。

11.1.2.1- 主要组成部分:

  • 成百上千的核心:GPU有大量的核心,这些核心被设计来同时处理多个任务。
  • 内存:GPU有自己的内存,称为显存,用于存储图形数据和计算过程中使用的数据。
  • 渲染输出单元:负责将计算结果输出到显示器。

11.1.2.2- 特点:

  • 并行处理:GPU的核心被设计来同时执行相同的操作,这使得它们在处理可以并行化的任务(如图形渲染和某些科学计算)时非常高效。
  • 高度专门化:GPU的核心相对简单,不适合执行复杂的逻辑判断,但它们在处理重复性的数学运算方面非常出色。

11.1.3- TPU(张量处理器)

TPU是专门为机器学习和深度学习计算设计的芯片。它们优化了用于深度学习的核心操作,即矩阵乘法和向量计算。

11.1.3.1- 主要组成部分:

  • 矩阵乘法加速器:TPU有一个或多个专用的矩阵乘法加速器,用于快速执行深度学习模型中的核心计算。
  • 高带宽内存:TPU使用高带宽内存来存储和传输大量的数据,这对于深度学习计算非常重要。

11.1.3.2- 特点:

  • 专用性:TPU专门为深度学习计算设计,因此它们在执行这些任务时比CPU和GPU更高效。
  • 能效:TPU在设计时考虑了能效,因此它们在执行深度学习任务时通常比CPU和GPU消耗更少的能量。

11.1.4- 总结

  • CPU:适用于大多数通用计算任务,包括操作系统运行、应用程序执行等。
  • GPU:擅长处理可以并行化的任务,如图形渲染和深度学习中的大规模并行计算。
  • TPU:专门为深度学习计算设计,提供了非常高效的能效比,特别适合运行深度学习模型。