prev <a href="/ja/Whisper%E3%81%AE%E6%B4%BB%E7%94%A8%E6%8C%AF%E3%82%8A%E8%BF%94%E3%82%8A">Whisperの活用振り返り</a>
<ul>
<li><a href="/ja/Whisper">Whisper</a></li>
</ul>
3h44録音を<a href="/ja/Whisper%20API">Whisper API</a>に渡してみた
<ul>
<li><a href="https://platform.openai.com/docs/guides/speech-to-text?lang=python">Speech to text - OpenAI API</a>
<code>python whisper.py 0.37s user 0.18s system 0% cpu 10:00.79 total</code>
後半はノイズだけだったので実質2時間だった
<img src="https://gyazo.com/93f3a6c6c1ab03e26ee499dee3a285a7/thumb/1000" alt="image"></li>
</ul>
1時間の勉強会音声で試す
<code>python whisper.py 0.34s user 0.14s system 0% cpu 3:27.50 total</code>
<img src="https://gyazo.com/0237823730c2d31c4c1eda0f821e2430/thumb/1000" alt="image">
さっきの例と違ってこちらは1時間ほぼずっと話している
1時間の音声で、処理時間が3分半、費用が40セント
得られた文字起こしをClaudeにまとめさせた
<ul>
<li><a href="/ja/%E5%8B%89%E5%BC%B7%E4%BC%9A%E3%81%AE%E9%9F%B3%E5%A3%B0%E3%82%92%E6%96%87%E5%AD%97%E8%B5%B7%E3%81%93%E3%81%97%E3%81%97%E3%81%A6AI%E3%81%BE%E3%81%A8%E3%82%81">勉強会の音声を文字起こししてAIまとめ</a></li>
</ul>
コードは何も難しくない
python
<pre><code>audio_file = open(audio_path, &quot;rb&quot;)
transcription = client.audio.transcriptions.create(
 model=&quot;whisper-1&quot;, file=audio_file
)
print(transcription.text)
with open(f&quot;whisper_out/{indir}_{audio}.txt&quot;, &quot;w&quot;) as f:
 f.write(transcription.text)
</code></pre>
一番時間がかかったのは<a href="/ja/ffmpeg">ffmpeg</a>のインストール、gccとか入れ始める
<ul>
<li><code>$ brew install ffmpeg</code></li>
<li>なお音声ファイルの分割のためなので音声ファイルが25MB以下なら必要ない</li>
<li>上記の1時間喋りまくりの音声が15MBだから、1時間で刻んでくれる録音アプリを使ってるなら必要ない</li>
</ul>

Whisper2024-03-25