>goto_yuta_ BitNet b1.58について、真の意味での1bitのBitNetは元から存在していて、今回発表された「BitNet b1.58」はその亜種みたいなもので、元の1bit BitNetが持ってたパラメータに0を追加したことで結果として扱う平均情報量が1.58になって「BitNet b1.58」ということか。
>mr_bay_area 1-bit LLMの話、なんか大昔にあった気がしていて多分この論文だと思うのだけれども、引用されてなかったよ
> Binarized Neural Networks: Training Deep Neural Networks with...
>goto_yuta_ Githubに実装も公開されてて、アーキテクチャ図もあるけど、Transformerの部品にBitってつけてビット加算にしてるだけでやってることはまじで同じそう。
> なんで精度上がるんや...
> >goto_yuta_/status/1762753632028807552/photo/1 マイクロソフトが発表したBitNet、やばすぎて半信半疑ながらも真実ながら凄すぎて期待してしまう。
> 行列の中身を1ビット(0 or 1のみ)にして、行列演算に乗算が必要なくなって高速化させてるらしい。
>
> 高速化する理屈はわかるけど、論文によるとなぜか精度も向上してるらしい。
> やばすぎて一旦様子見。