音频应用

 找回密码
 快速注册

QQ登录

只需一步,快速开始

查看: 15233|回复: 0
收起左侧

[资讯] MacWhisper 使用 OpenAI 在 Mac 上本地转录音频

[复制链接]

665

积分

1

听众

10

音贝

音频应用新手发布

Rank: 3

积分
665
发表于 2023-2-6 23:18:30 | 显示全部楼层 |阅读模式
MacWhisper 使用 OpenAI 在 Mac 上本地转录音频* e" `' {' Z6 ^) d3 t) {
6 V  a/ H5 S9 o. N
MacWhisper是一款适用于 macOS 的实用程序,可以转录您提供的任何音频文件。在引擎盖下,它依赖于 OpenAI 的 Whisper,这是一种转录引擎,与传统方法相比,它使用人工智能来提高完成工作的速度和质量。DALL·E(图像生成器)和 ChatGPT(文本生成器)的创建者根据在别处转录的 680,000 小时音频创建了一个模型。这个转录引擎是开源的,这使得它可以在本地使用和应用程序来集成它。1 z& P5 j8 `7 s* ?% g

9 |8 i; D. D/ ]; s  E0 HMacWhisper 的开发人员因此恢复了该模型并将其集成到 macOS 的本机界面中。一个非常简单但有效的界面:您可以单击按钮开始麦克风录音,或者将文件拖放到窗口中,转录立即开始。使用默认设置,会自动识别语言并在几秒钟后显示文本。即使音频文件很长,您也会很快看到前几行文本,这对于验证语言是否已被正确识别很有用。
" A: s9 b# B  s9 ~. n mg-19b1c54b-w1966-w1300.jpg ! M4 J7 [# e6 K

# V) c( o7 e# l1 k& M* f- |" a$ K根据其设计者的说法,转录比实时快 15 倍,这意味着处理 15 个原始文件只需要一秒钟。事实上,它甚至可以比这更快:在我的 Mac Studio 上,MacWhisper 在大约 15 秒内转录了一个 8 分钟的文件,转录速度比实时转录快约 30 倍。它使用默认设置和“准确”,因为知道有一种更快的模式会影响转录质量。# G. ?- n% C3 X9 l3 Z4 M
" O3 N6 t6 Z, T: Q
工作完成后,您可以使用该应用程序阅读文本并同时收听音频。两条信息是同步的,因此您可以在文本中移动并单击任何一行来收听相应的部分,或者相反地在音频文件中移动并显示相关的转录。在这方面,MacWhisper 不仅限于音频文件(mp3、m4a 或 wav 格式),该应用程序还可以作用于视频(仅限 mp4 格式)并生成.srt和.vtt.
* c& h3 k- [( M4 y( `) o
% Y# V4 Q5 l* H/ N8 t9 i' c0 f在我的测试文件中,免费应用程序的转录非常令人满意,并且在几秒钟内获得了结果。还是有一些错误,尤其是专有名词没有太多惊喜1和同音异义词2,但仍然很容易理解,经过一些更正,结果还是比较令人满意的。也有速度较慢但效率更高的型号,但它们需要购买 MacWhisper Pro,其在官方网站上的含税售价约为 12 欧元。
1 I5 Y# @7 h, L5 f  g  u9 O% L( u5 f8 }* F1 ~
免费版和专业版之间的主要区别在于包含了两个额外的模型,这大大降低了应用程序的重量。虽然基本版本重约 200 MB,但 MacWhisper Pro 安装在 Mac 上后接近 5 GB。处理时间也明显更长,大约需要三分半钟,仍然比实时快 2.3 倍。结果实际上比基本模型更好,句子结构更好,避免了许多语法错误。这一次,我们在不进行修饰的情况下接近完美的结果,如果您需要定期转录大量音频,这充分证明了专业版所要求的价格。1 }0 _; P  c( }% ~# I  ^

" C% \3 G! X. f' I+ Q; v( w mg-c2859449-w2032-w1300.jpg ' W. p* Y6 l. Y) E- S
使用最准确的模型转录相同的音频文件。; H2 q& Z; ?2 X( L" |1 \
MacWhisper 的开发者有很多想法来改进他的应用程序:更好地识别和分割句子,翻译转录文本的可能性和附加功能,例如实时转录 Mac 麦克风拾取的任何内容,或者识别和区分多人的能力在音轨上。其中一些功能将保留给 Pro 版本,其他功能则两者通用。: [. Z& i& |8 j' x
( Q& f1 B, e) `" A! _# u+ E! S
同时,该应用程序安装在所有从 macOS Ventura 开始的 Mac 上,尽管推荐使用 Apple Silicon 型号,但您可以在 Intel Mac 上使用该应用程序。就像与人工智能相关的一切一样,自制芯片因其神经引擎和对这些任务的一般优化而成为首选。MacWhisper 界面仅提供英文版本。0 O9 w( j/ r/ j$ m8 [' d- c2 \

7 J% ^7 I" E  q举几个例子:“Syria”代表 Siri,“I-Mac”代替 iMac,甚至是我最喜欢的“pelTV”代替 Apple TV。注意这不是系统的,系统可以识别产品名称,尤其是iPhone的那个好像比较好理解。 ↩︎
. o* E! y0 j4 G+ O8 r2 S
8 z4 ?7 l5 P( x4 K
6 O( S2 b( C3 F2 B3 W$ R
欢迎厂家入驻,推文!免费!微信:yinpinyingyong
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

音频应用搜索

小黑屋|手机版|音频应用官网微博|音频应用 ( 鄂ICP备16002437号 )

GMT+8, 2025-8-27 09:16 , Processed in 0.033941 second(s), 10 queries , Redis On.

Powered by Audio app

快速回复 返回顶部 返回列表