atsumoto_ohashi 日本語リアルタイム音声対話モデルJ-Moshiを公開しました! @kyutai_labs のMoshiをベースとし、人間のように「話す」と「聞く」を同時に行います。 日本語で利用可能な初めてのモデルです。 モデルサイズは7Bと軽量なのでぜひお試しください #NLP2025 で発表予定です。 https://nu-dialogue.github.io/j-moshi/
takahiroanno 相槌とかフィラーとかカットインがめちゃ自然ですごい、、、! しかも7Bの小ささでこの仕上がり!
これをローカルマシンで動かしたらAdvanced Voiceに依存せずに音声でのタスク整理ができるかもな
nu-dialogue/j-moshi: J-Moshi: A Japanese Full-duplex Spoken Dialogue System
J-Moshiは試作段階であり,その応答は不自然な場合があります.また,J-Moshiの学習データの大部分は雑談対話であるため,ユーザの指示に従った応答を生成することはできません.
https://x.com/akkikiki/status/1882913953749287288?s=46&t=gkSZtjGEtUZPO0JCzBxCBw Macで動くように変換した話
2025-01-25 install中 動くは動く まだ現時点では日本語で無料で動くようになった、という感じ