D ∩ C

The Intersection of D and C

使えるように理解すること

前回「コンセプトはなんとなくわかる」みたいなことを書いたが、これがヤヴァイことだということがわかってきました。

毎週アドバイザーの先生とミーティングしていると、なんだか1週間でこれしか進めなかったということを隠したいという意識が働くのか、例えば文献の読み込みひとつとっても1時間のミーティングで全部要約してレポートしようと先を急いでしまう。(1週間に一本しかペーパー読めなかったら一年で50本、読むだけで終わっちゃうじゃん、という焦りもある)

でも先生の方はお見通しで、次へ行こうとすると、「ちょっとまって」とそこを詳しく解説してくれたり、「ここはなんでこうなるの?」と質問してくれるのがとても助かる。

で、当たり前のことに気づくのだが、やはり詳細に渡ってなぜこのロジックにこの定式化が成り立つのかとか、なぜこの手法を使ってるのかとか、表面をさらっと舐めてコンセプトだけわかったつもりで先へ進むと、いざ自分がそれを使う段になった時にもう一回全部一から勉強し直さなきゃならなくなる恐ろしい未来が見えて、もう最初は赤子のハイハイ状態でもいいからちゃんと理解してから前に進もうと思い直した。これを今我慢してやればきっとだんだん方法論のバリエーションに出くわしても理解できる速度が上がってくるに違いない(と信じるしかない)。

私の研究では概念とか、単語とかの「類似度」というのを定量的に図る(コンピュータが処理できる数値に置き換える)というのがキーなのだけれど、そこで行列とか、ベクトル空間モデルとか、集合の概念を避けて通れない。

今読んでいる論文で、集合同士の類似度を計測する方法が色々出てくるのだが、 f:id:Ct26ss:20200714131011p:plain

という定式が出てくる。 集合に含まれる要素の中で何割が共通かを見て類似度の指標としている。

高校数学をちゃんとやってきた人には1秒で理解できるなんでもない話なのだが、私の場合、ここでなんで分子に2がかかってるのかが直感的に理解できない。集合の要素数なんて負の値をとることもなかろうに、なんで絶対値にしなきゃいけないのかもピンとこない。"category"じゃなくて、なんで"set"じゃないのかも、論文中には一切解説はない。

で、いろんな解説を見ながらうんうん考えると、これはDice係数(大介数ではない)と呼ばれるとてもありふれた類似度計算式で、2つの集合の平均要素数と共通要素数の割合を表す、とある。なんだ2つの集合の要素の平均を出したいんだから、本当はやりたいのは分子に2をかけることじゃなくて、分母を2で割ることじゃないか、という馬鹿みたいなことに気づく。こんな調子。

こういうのを一つ一つ、焦ってテキトーに流さないようにします。ふーっ!