NISHIO Hirokazu[Translate]
BERTで区分け
文章をBERTでベクトルに変換する
ベクトルの各要素について正であるか負であるかで1bitの情報にする
なるべく半々に分かれる順に要素を選んでいく
CART的発想
分解がGini係数をなるべく減らさないように要素を選ぶ
今回はN=4000ぐらいなので、12bit選べば1バケットあたり1個になる
16進法表記で3文字の「カテゴリーコード」になる

kMeansでやる手もある #k平均法
代表点の位置を取っておく必要がある

面倒なのでとりあえず先頭12次元で試す

"Engineer's way of creating knowledge" the English version of my book is now available on [Engineer's way of creating knowledge]

(C)NISHIO Hirokazu / Converted from [Scrapbox] at [Edit]