NISHIO Hirokazu[日本語][English]

pEnglish2023-12-13

prev pEnglish2023-12-12

  • 英訳Quartz路線、一旦ペンディング

    • Quartzは無限にカスタマイズできるのでカスタマイズしたくなってしまってフォーカスがブレている
  • /nishio-gptとった

    • /nishio-enと並走して、こっちが良いと思ったらswapする
  • 13379/17510 pages が日本語タイトル

2023-12-14 出現頻度トップ50件のページタイトルを見る :

[(409728, 't'),
 (328529, 'a'),
 (264644, 's'),
 (40320, 'en'),
 (18467, 'shio'),
 (17684, 'nishio'),
 (15917, 'ing'),
 (5382, 'Scrapbox'),
 (5211, '言語'),
 (4129, 'Q')]

おかしなやつは数件だな

  • https://gist.github.com/nishio/26b1bba95f5f46710c23d6bb2c752e96

  • Scrapboxのリンク情報の調査

    • リンクの情報はエクスポートしたJSONには含まれていない
      • メタデータをtrueにしても含まれていない
    • api/pages/:projectname/:pagetitleなら取れる
      • linksに赤リンクも青リンクも含まれている
      • persistentでないページへのリンクはrelatedPages/links1hopに含まれない
        • これにはバックリンクが含まれる
      • persistentでないが、2hop linkがつながるので青いリンクはrelatedPages/links2hopに含まれる
        • linksLcだけしかない
      • linksは小文字化されてない
      • やっと青リンクと赤リンクの識別ができるようになった
      • External linksについて
        • projectLinksにはバックリンクが含まれない
        • relatedPages/projectLinks1hopにはバックリンクが含まれる
          • 含まれない?
          • あー、わかった、これブラウザのログインユーザの情報によってAPIが返す情報が違うんだ
          • だからブラウザでAPIを叩いて観察した時には含まれてて、スクリプトから認証情報を積まずにAPIを叩いた時には含まれてないんだ
          • うえー、めんどくさー
          • 保留!
  • 何をしようとしていたかというと、翻訳によってリンクが切れないことを保証するためにリンクタイトルが常に安定した翻訳をされるようにする

    • blu3mo.iconは確かページタイトルを先に翻訳するアプローチをしてたと思ってて、僕もその実装をしてたんだけど「あれ?2ホップリンクでつながる場合はページが存在しないからページタイトルの翻訳だけでは切れるのでは?」と思った
      • そうですblu3mo.icon
      • なので、確か全ページにある青リンク+赤リンクを取得して翻訳したはずblu3mo.icon
        • なるほど、赤リンクも含めるとかなり量が増えると思ったが、それをやったのかnishio.icon

他のページのタイトル文字列を含んでる個数ランキング

  • image
  • トップは書籍目次なので当然だな
  • 勉強会とイベントの記録が多い
    • 単純に分量が多いからかな
  • 🌀や🤖が多いのは機械的に増やしてるのであまり重要ではない
    • やっぱ翻訳対象から外すかな
  • 機械的ページを取り除くと、だいたい勉強会やイベントの長大な記事だ
    • image
    • これらは更新頻度が高くない
    • 色々なページのタイトルを含んでいるということは、ここからいろんなページに飛べるということか
    • 通常のシステムで翻訳できるかトライして、大きすぎてダメだったら手動で分割して翻訳するのでもいいかもね
  • タイトルの翻訳コスト
    • image

2023-12-17

  • 13379/17510 pages が日本語タイトル

  • ページのクロールデータを元にページタイトルになってないもの、赤リンクも含めたリンクタイトルを取得した
  • 28178/33584が日本語タイトル
  • これも翻訳する

2023-12-18

  • すべてのリンクの翻訳、寝てる間に終わった
    • image

next pEnglish2023-12-18


(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]