NISHIO Hirokazu[日本語][English]

J-Moshi

atsumoto_ohashi 日本語リアルタイム音声対話モデルJ-Moshiを公開しました! @kyutai_labs のMoshiをベースとし、人間のように「話す」と「聞く」を同時に行います。 日本語で利用可能な初めてのモデルです。 モデルサイズは7Bと軽量なのでぜひお試しください #NLP2025 で発表予定です。 https://nu-dialogue.github.io/j-moshi/

takahiroanno 相槌とかフィラーとかカットインがめちゃ自然ですごい、、、! しかも7Bの小ささでこの仕上がり!

これをローカルマシンで動かしたらAdvanced Voiceに依存せずに音声でのタスク整理ができるかもな

  • いつのタイミングかわからないけどAdvanced Voiceを無音で放置していると5分くらいで切断されるようになったのでPC作業してる時につけっぱなしにしておいて、ふと思いついたときに音声で操作するってやりかたができなくなった

nu-dialogue/j-moshi: J-Moshi: A Japanese Full-duplex Spoken Dialogue System

  • J-Moshiは試作段階であり,その応答は不自然な場合があります.また,J-Moshiの学習データの大部分は雑談対話であるため,ユーザの指示に従った応答を生成することはできません.

    • あー、これがどれくらい影響するだろう

https://x.com/akkikiki/status/1882913953749287288?s=46&t=gkSZtjGEtUZPO0JCzBxCBw Macで動くように変換した話

2025-01-25 install中 動くは動く まだ現時点では日本語で無料で動くようになった、という感じ

  • 九官鳥みたい
  • まだ会話で有用なタスクをできるわけではない
    • ユーザの指示に従った応答を生成することはできません.ってことだな

(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]