geeks 发表于 2023-2-6 23:18:30

MacWhisper 使用 OpenAI 在 Mac 上本地转录音频

MacWhisper 使用 OpenAI 在 Mac 上本地转录音频

MacWhisper是一款适用于 macOS 的实用程序,可以转录您提供的任何音频文件。在引擎盖下,它依赖于 OpenAI 的 Whisper,这是一种转录引擎,与传统方法相比,它使用人工智能来提高完成工作的速度和质量。DALL·E(图像生成器)和 ChatGPT(文本生成器)的创建者根据在别处转录的 680,000 小时音频创建了一个模型。这个转录引擎是开源的,这使得它可以在本地使用和应用程序来集成它。

MacWhisper 的开发人员因此恢复了该模型并将其集成到 macOS 的本机界面中。一个非常简单但有效的界面:您可以单击按钮开始麦克风录音,或者将文件拖放到窗口中,转录立即开始。使用默认设置,会自动识别语言并在几秒钟后显示文本。即使音频文件很长,您也会很快看到前几行文本,这对于验证语言是否已被正确识别很有用。


根据其设计者的说法,转录比实时快 15 倍,这意味着处理 15 个原始文件只需要一秒钟。事实上,它甚至可以比这更快:在我的 Mac Studio 上,MacWhisper 在大约 15 秒内转录了一个 8 分钟的文件,转录速度比实时转录快约 30 倍。它使用默认设置和“准确”,因为知道有一种更快的模式会影响转录质量。

工作完成后,您可以使用该应用程序阅读文本并同时收听音频。两条信息是同步的,因此您可以在文本中移动并单击任何一行来收听相应的部分,或者相反地在音频文件中移动并显示相关的转录。在这方面,MacWhisper 不仅限于音频文件(mp3、m4a 或 wav 格式),该应用程序还可以作用于视频(仅限 mp4 格式)并生成.srt和.vtt.

在我的测试文件中,免费应用程序的转录非常令人满意,并且在几秒钟内获得了结果。还是有一些错误,尤其是专有名词没有太多惊喜1和同音异义词2,但仍然很容易理解,经过一些更正,结果还是比较令人满意的。也有速度较慢但效率更高的型号,但它们需要购买 MacWhisper Pro,其在官方网站上的含税售价约为 12 欧元。

免费版和专业版之间的主要区别在于包含了两个额外的模型,这大大降低了应用程序的重量。虽然基本版本重约 200 MB,但 MacWhisper Pro 安装在 Mac 上后接近 5 GB。处理时间也明显更长,大约需要三分半钟,仍然比实时快 2.3 倍。结果实际上比基本模型更好,句子结构更好,避免了许多语法错误。这一次,我们在不进行修饰的情况下接近完美的结果,如果您需要定期转录大量音频,这充分证明了专业版所要求的价格。


使用最准确的模型转录相同的音频文件。
MacWhisper 的开发者有很多想法来改进他的应用程序:更好地识别和分割句子,翻译转录文本的可能性和附加功能,例如实时转录 Mac 麦克风拾取的任何内容,或者识别和区分多人的能力在音轨上。其中一些功能将保留给 Pro 版本,其他功能则两者通用。

同时,该应用程序安装在所有从 macOS Ventura 开始的 Mac 上,尽管推荐使用 Apple Silicon 型号,但您可以在 Intel Mac 上使用该应用程序。就像与人工智能相关的一切一样,自制芯片因其神经引擎和对这些任务的一般优化而成为首选。MacWhisper 界面仅提供英文版本。

举几个例子:“Syria”代表 Siri,“I-Mac”代替 iMac,甚至是我最喜欢的“pelTV”代替 Apple TV。注意这不是系统的,系统可以识别产品名称,尤其是iPhone的那个好像比较好理解。 ↩︎


页: [1]
查看完整版本: MacWhisper 使用 OpenAI 在 Mac 上本地转录音频