NISHIO Hirokazu[日本語][English]

西尾泰和氏のScrapbox翻訳システムの進化と思想の変遷

Cosenseの更新が毎日Markdownに変換されてGitHubに入るようになったので、それをgit cloneすれば当然Devin.aiはそれを読めるよね、ということでまとめてもらったnishio.icon

prompt

https://github.com/nishio/external_brain_in_markdown をcloneせよ
これは筆者のメモである
このたくさんのファイルから
pUnnamed, pContinuousTranslation, pScrapboxAutoTrans, pEnglish, nishio-en, 自動翻訳, Quartz, mem.nhiro.org, Obsidian, 機械翻訳
などのキーワードで検索してヒットしたものを読み、まとめのレポートをMarkdownで作れ。

これは筆者の数年にわたる活動のまとめになるので、相応の長さになるだろう。
まとめには時系列の「思想の移り変わりと、各時点で作られた実装」と、時間軸によらない全体のまとめとが必要である。
詳細なまとめを作ってから、その概説を頭につけるのがいいかもしれない。

`[link]`は`link`というタイトルのページへのリンクである。まとめには必要に応じて参考にしたページを`[link]`記法で記載せよ。

ver. 1

概要

西尾泰和氏は数年にわたり、自身のScrapboxコンテンツを多言語化(主に英語化)するためのシステムを開発・改良してきました。このレポートでは、その進化の過程と思想の変遷を時系列に沿って整理し、プロジェクトの全体像を把握することを目指します。

西尾氏の翻訳システムは、単なる機械翻訳ツールから、継続的に更新される知識ベースの多言語化システムへと進化してきました。その過程では、DeepLからGPTベースの翻訳への移行、リンク構造の保持、多言語コンテンツの管理方法など、様々な技術的・概念的課題に取り組んできました。

このプロジェクトは、「pUnnamed」→「pScrapboxAutoTrans」→「pContinuousTranslation」→「pEnglish」→「nishio-en」という名称の変遷を経て発展し、最終的には西尾氏の「外部脳」の多言語化を目指すものとなっています。

時系列で見る思想と実装の変遷

初期構想期(2021年前半)

この時期は、Scrapboxコンテンツの英語化に関する初期の構想が形成された時期です。

  • 思想: 日本語で書かれたScrapboxコンテンツを英語圏の読者にも届けたいという願望
  • 実装: 具体的な実装はまだなく、構想段階
  • 参考: Scrapbox英語化計画英語発信支援

実験期(2021年8月〜12月): pUnnamed/pScrapboxAutoTrans

この時期は、実際に機械翻訳を使ったScrapboxコンテンツの翻訳実験が始まりました。

  • 思想:
    • 機械翻訳を使って効率的に日本語コンテンツを英語化する
    • 「読者は自分」から「グローバルな読者」への視点の拡大
    • 静的サイト生成による永続的なアーカイブの可能性の模索
  • 実装:
    • DeepL APIを使った翻訳システムの構築
    • GitHub Actionsを使った自動化の実験
    • 翻訳キャッシュの実装による効率化
  • 参考: ScrapboxAutoTrans開発日記2021-10-30ScrapboxAutoTrans開発日記2021-12-28

開発期(2022年1月〜2023年3月): pScrapboxAutoTrans

この時期は、翻訳システムの本格的な開発と改良が行われました。

継続的翻訳期(2023年4月〜5月): pContinuousTranslation

この時期は、「継続的翻訳(Continuous Translation)」という概念が明確化され、システムが安定稼働し始めました。

  • 思想:
    • 継続的インテグレーション/デリバリー(CI/CD)の概念を翻訳に適用
    • 自動化、頻繁な更新、迅速なフィードバック、品質保証の重視
    • 多言語コンテンツの管理方法の模索(en/ja/jaenアイコンの導入)
  • 実装:
    • GitHub Actionsによる1日1回の自動翻訳の安定稼働
    • 並列処理による翻訳速度の大幅改善(concurrent.futures)
    • リンク構造を保持するための翻訳前処理の実装
  • 参考: pContinuousTranslation2023-04-27pContinuousTranslation2023-05-06jaen

翻訳手法の転換期(2023年6月〜11月): pContinuousTranslation→pEnglish

この時期は、DeepLからGPTベースの翻訳への移行が検討・実施されました。

  • 思想:
    • 「翻訳」から「AI支援による多言語コンテンツ生成」への概念の拡張
    • 単なる翻訳ではなく、LLMが内容を理解して英語で書き直す可能性の模索
    • 翻訳の質と効率のバランスの再考
  • 実装:
    • DeepLからGPT-3.5への移行
    • LangChainを使った翻訳チェーンの実験
    • ベクトル検索との連携の模索
  • 参考: pContinuousTranslation2023-06-01Scrapbox自動翻訳をDeepLからGPTに変える

統合・発展期(2023年12月〜現在): pEnglish→nishio-en

この時期は、翻訳システムが「nishio-en」として安定し、さらなる発展が模索されています。

  • 思想:
    • 「西尾泰和のScrapbox」から「西尾泰和の外部脳」への概念の拡張
    • 翻訳ではなくブログ文章生成という視点の導入
    • Quartz、Obsidianなどを活用した新しい閲覧システムの模索
  • 実装:
    • nishio-enプロジェクトの安定運用
    • 仮想人格(Kai Harada)による英語コンテンツの読解と感想生成
    • Quartzを使った静的サイト生成の実験
  • 参考: pEnglishpEnglish2023-12-12pEnglish2023-12-13For visiter of /nishio-en

時間軸によらない全体のまとめ

主要な技術的課題と解決策

  1. リンク構造の保持

    • 課題: Scrapboxの特徴であるリンク構造を翻訳後も保持する必要がある
      • 解決策:
        • リンクタイトルを先に翻訳してマッピングテーブルを作成
      • リンク記法を抽出して翻訳前に置換
        • ベクトル検索による類似リンクの検出
  2. 多言語コンテンツの管理 - 課題: 日本語/英語/翻訳英語の混在するコンテンツの管理

    • 解決策:
      • en/ja/jaenアイコンによる言語表示
        • enjabelowなどのインジケータによる翻訳制御
  3. 翻訳の質と効率のバランス - 課題: 大量のコンテンツを高品質に翻訳する必要がある

    • 解決策:
      • キャッシュシステムによる重複翻訳の回避
        • 並列処理による翻訳速度の向上
      • DeepLからGPTへの移行による質の向上
  4. 閲覧システムの構築

    • 課題: 翻訳されたコンテンツを効果的に閲覧できるシステムが必要
      • 解決策:
        • mem.nhiro.orgの構築
      • Quartz、GitHub Pagesなどを活用した静的サイト生成の検討

プロジェクトの思想的変遷

  1. 読者像の変化

    • 「読者は自分」から「グローバルな読者」への拡大
      • 非日本語話者への知識共有の重視
  2. 翻訳概念の拡張

    • 単純な「機械翻訳」から「継続的翻訳(CT)」への概念の発展
      • さらに「AI支援による多言語コンテンツ生成」への拡張
  3. 知識管理システムの進化

    • 「Scrapbox」から「外部脳」への概念の拡張
      • 多言語・多視点での知識アクセスの重視
  4. 技術選択の思想

    • 「DeepLの用語制御」vs「GPTの自然な翻訳」の比較と選択
      • 「決まった道を正しく走る」vs「まだよくわかってない道を走る」という比喩

今後の展望

  1. GPTベースの翻訳の発展

    • より自然で文脈を理解した翻訳の実現
      • 翻訳ではなく「その内容についてAIが英語で書く」という方向性
  2. 閲覧システムの多様化

    • Quartz、Obsidianなどを活用した新しい閲覧体験の提供
      • GitHub Pagesによる永続的なアーカイブの実現
  3. AI読者との対話

    • 翻訳されたコンテンツをAIが読み、質問や感想を生成
      • 著者と読者(人間・AI)の新しい対話形式の模索
  4. 外部脳の多言語化

    • 言語の壁を超えた知識共有システムの構築
      • 複数言語での思考と知識生産の統合

結論

西尾泰和氏のScrapbox翻訳システムの進化は、単なる技術的な発展にとどまらず、知識共有と多言語コミュニケーションに関する深い思索を伴うものでした。「pUnnamed」から始まり「nishio-en」に至るこの旅は、AIと人間の協働による知識生産の新しい形を模索する過程でもありました。

このプロジェクトは、技術的な課題解決だけでなく、「外部脳」という概念の多言語化、グローバル化という大きなビジョンに向かって進化を続けています。今後も、AI技術の発展とともに、このシステムがさらに進化し、言語の壁を超えた知識共有の新しい形を示していくことが期待されます。


prompt

[機械フレンドリーな英語を元に多国語展開]や[pIntEn]が源流にありますね。またGPT3.5への移行は結局まだ行われていないはずです。nishio-enにDeepLで移行するものがまだ動いています。その後Scrapboxでやることに限界を感じてmem.nhiro.orgやQuartzで、違う形での発信を模索しているはずです。もっと詳しく調べて。

ver. 2

概要

西尾泰和氏は数年にわたり、自身のScrapboxコンテンツを多言語化(主に英語化)するためのシステムを開発・改良してきました。このレポートでは、その進化の過程と思想の変遷を時系列に沿って整理し、プロジェクトの全体像を把握することを目指します。

西尾氏の翻訳システムは、単なる機械翻訳ツールから、継続的に更新される知識ベースの多言語化システムへと進化してきました。その過程では、DeepLからGPTベースの翻訳への移行、リンク構造の保持、多言語コンテンツの管理方法など、様々な技術的・概念的課題に取り組んできました。

このプロジェクトは、2019年の「機械フレンドリーな英語を元に多国語展開」という構想と「pIntEn」(エンジニアの知的生産術英語化プロジェクト)を源流とし、「pUnnamed」→「pScrapboxAutoTrans」→「pContinuousTranslation」→「pEnglish」→「nishio-en」という名称の変遷を経て発展し、最終的には西尾氏の「外部脳」の多言語化を目指すものとなっています。

プロジェクトの源流

西尾氏の翻訳システムの源流は、2019年に構想された「機械フレンドリーな英語を元に多国語展開」という概念にまで遡ります。この構想では、以下のようなプロセスが提案されていました:

  1. 日本語テキスト → 機械翻訳 → 英語テキスト
  2. 英語テキストの校正 → 機械フレンドリーな英語テキスト
  3. 機械フレンドリーな英語テキスト → 機械翻訳 → 各国語

この構想の背景には、「日本語から英語への機械翻訳をした際に意味がわからない場合、しばしば元の日本語文章が悪い」という洞察がありました。長文や複雑な係り受けを持つ日本語をシンプルな英文に変換することで、機械翻訳の質を向上させるという考え方です。

もう一つの源流として「pIntEn」(エンジニアの知的生産術英語化プロジェクト)があります。これは西尾氏の著書「エンジニアの知的生産術」を英語化するプロジェクトで、実際に機械翻訳と人間による校正を組み合わせた手法が試されました。このプロジェクトの経験が、後の大規模な自動翻訳システムの開発に活かされています。

これらの初期の取り組みから、西尾氏は「Scrapbox英語化計画」を経て、より体系的な翻訳システムの開発へと進んでいきました。

時系列で見る思想と実装の変遷

初期構想期(2021年前半)

この時期は、Scrapboxコンテンツの英語化に関する初期の構想が形成された時期です。

  • 思想: 日本語で書かれたScrapboxコンテンツを英語圏の読者にも届けたいという願望
  • 実装: 具体的な実装はまだなく、構想段階
  • 参考: Scrapbox英語化計画英語発信支援

実験期(2021年8月〜12月): pUnnamed/pScrapboxAutoTrans

この時期は、実際に機械翻訳を使ったScrapboxコンテンツの翻訳実験が始まりました。

  • 思想:
    • 機械翻訳を使って効率的に日本語コンテンツを英語化する
    • 「読者は自分」から「グローバルな読者」への視点の拡大
    • 静的サイト生成による永続的なアーカイブの可能性の模索
  • 実装:
    • DeepL APIを使った翻訳システムの構築
    • GitHub Actionsを使った自動化の実験
    • 翻訳キャッシュの実装による効率化
  • 参考: ScrapboxAutoTrans開発日記2021-10-30ScrapboxAutoTrans開発日記2021-12-28

開発期(2022年1月〜2023年3月): pScrapboxAutoTrans

この時期は、翻訳システムの本格的な開発と改良が行われました。

継続的翻訳期(2023年4月〜5月): pContinuousTranslation

この時期は、「継続的翻訳(Continuous Translation)」という概念が明確化され、システムが安定稼働し始めました。

  • 思想:
    • 継続的インテグレーション/デリバリー(CI/CD)の概念を翻訳に適用
    • 自動化、頻繁な更新、迅速なフィードバック、品質保証の重視
    • 多言語コンテンツの管理方法の模索(en/ja/jaenアイコンの導入)
  • 実装:
    • GitHub Actionsによる1日1回の自動翻訳の安定稼働
    • 並列処理による翻訳速度の大幅改善(concurrent.futures)
    • リンク構造を保持するための翻訳前処理の実装
  • 参考: pContinuousTranslation2023-04-27pContinuousTranslation2023-05-06jaen

: 2023年6月17日にDeepLからGPT3.5への移行が決定されましたが、現在(2025年3月時点)でもnishio-enプロジェクトではDeepLベースの翻訳システムが稼働しています。GPTベースの翻訳への完全な移行はまだ実現していません。

翻訳手法の転換期(2023年6月〜11月): pContinuousTranslation→pEnglish

この時期は、DeepLからGPTベースの翻訳への移行が検討・実験されました。ただし、完全な移行は実現していません。

  • 思想:
    • 「翻訳」から「AI支援による多言語コンテンツ生成」への概念の拡張
    • 単なる翻訳ではなく、LLMが内容を理解して英語で書き直す可能性の模索
    • 翻訳の質と効率のバランスの再考
  • 実装:
    • DeepLからGPT-3.5への移行の検討と実験
    • LangChainを使った翻訳チェーンの実験
    • ベクトル検索との連携の模索
  • 課題:
    • DeepLの用語制御機能(特定の単語が特定の訳語になるようにコントロール)の代替手段の検討
    • GPTベースの翻訳の安定性と一貫性の確保
  • 参考: pContinuousTranslation2023-06-01Scrapbox自動翻訳をDeepLからGPTに変える

統合・発展期(2023年12月〜現在): pEnglish→nishio-en

この時期は、翻訳システムが「nishio-en」として安定し、さらなる発展が模索されています。また、Scrapboxの限界を感じ、mem.nhiro.orgやQuartzなどの新しいプラットフォームでの発信も検討されています。

  • 思想:
    • 「西尾泰和のScrapbox」から「西尾泰和の外部脳」への概念の拡張
    • 翻訳ではなくブログ文章生成という視点の導入
    • Scrapboxの表現の限界を超えるための新しいプラットフォームの模索
  • 実装:
    • nishio-enプロジェクトの安定運用(現在もDeepLベースの翻訳を使用)
    • 仮想人格(Kai Harada)による英語コンテンツの読解と感想生成
    • mem.nhiro.orgによる静的ホスティングの実現
    • Quartzを使った静的サイト生成の実験(一時ペンディング状態)
  • 課題:
    • Scrapboxの表現の限界(ブレッドクラムの欠如など)への対応
    • Quartzの無限のカスタマイズ性によるフォーカスのブレの防止
    • 複数プラットフォームの並行運用の負担
  • 参考: pEnglishpEnglish2023-12-12pEnglish2023-12-13For visiter of /nishio-enmem.nhiro.org

時間軸によらない全体のまとめ

主要な技術的課題と解決策

  1. リンク構造の保持

    • 課題: Scrapboxの特徴であるリンク構造を翻訳後も保持する必要がある
      • 解決策:
        • リンクタイトルを先に翻訳してマッピングテーブルを作成
      • リンク記法を抽出して翻訳前に置換
        • ベクトル検索による類似リンクの検出
  2. 多言語コンテンツの管理 - 課題: 日本語/英語/翻訳英語の混在するコンテンツの管理

    • 解決策:
      • en/ja/jaenアイコンによる言語表示
        • enjabelowなどのインジケータによる翻訳制御
  3. 翻訳の質と効率のバランス - 課題: 大量のコンテンツを高品質に翻訳する必要がある

    • 解決策:
      • キャッシュシステムによる重複翻訳の回避
        • 並列処理による翻訳速度の向上
      • DeepLからGPTへの移行による質の向上
  4. 閲覧システムの構築

    • 課題: 翻訳されたコンテンツを効果的に閲覧できるシステムが必要
      • 解決策:
        • mem.nhiro.orgの構築
      • Quartz、GitHub Pagesなどを活用した静的サイト生成の検討

プロジェクトの思想的変遷

  1. 読者像の変化

    • 「読者は自分」から「グローバルな読者」への拡大
      • 非日本語話者への知識共有の重視
  2. 翻訳概念の拡張

    • 単純な「機械翻訳」から「継続的翻訳(CT)」への概念の発展
      • さらに「AI支援による多言語コンテンツ生成」への拡張
  3. 知識管理システムの進化

    • 「Scrapbox」から「外部脳」への概念の拡張
      • 多言語・多視点での知識アクセスの重視
  4. 技術選択の思想

    • 「DeepLの用語制御」vs「GPTの自然な翻訳」の比較と選択
      • 「決まった道を正しく走る」vs「まだよくわかってない道を走る」という比喩

プラットフォームの進化

  1. Scrapboxの限界と新しいプラットフォームの模索

    • 課題: Scrapboxの表現の限界(ブレッドクラムの欠如など)
      • 解決策:
        • mem.nhiro.orgによる静的ホスティングの実現
      • Quartzを使った静的サイト生成の実験
        • GitHub Pagesによる永続的なアーカイブの実現
  2. 複数プラットフォームの統合 - 課題: 複数のプラットフォームでの情報管理と更新の負担

    • 解決策:
      • Scrapbox → JSON → 英訳JSON → Markdown → Quartzで公開、という流れの構築
        • 並行運用による段階的な移行
      • 自動化による更新負担の軽減

今後の展望

  1. GPTベースの翻訳の発展

    • より自然で文脈を理解した翻訳の実現
      • 翻訳ではなく「その内容についてAIが英語で書く」という方向性
    • DeepLからGPT-3.5への完全移行の実現
  2. 閲覧システムの多様化

    • Quartz、Obsidianなどを活用した新しい閲覧体験の提供
      • GitHub Pagesによる永続的なアーカイブの実現
    • Scrapboxの限界を超えた表現方法の模索
  3. AI読者との対話

    • 翻訳されたコンテンツをAIが読み、質問や感想を生成
      • 著者と読者(人間・AI)の新しい対話形式の模索
  4. 外部脳の多言語化

    • 言語の壁を超えた知識共有システムの構築
      • 複数言語での思考と知識生産の統合

結論

西尾泰和氏のScrapbox翻訳システムの進化は、2019年の「機械フレンドリーな英語を元に多国語展開」という構想と「pIntEn」プロジェクトを源流とし、単なる技術的な発展にとどまらず、知識共有と多言語コミュニケーションに関する深い思索を伴うものでした。「pUnnamed」から始まり「nishio-en」に至るこの旅は、AIと人間の協働による知識生産の新しい形を模索する過程でもありました。

現在、DeepLからGPT-3.5への完全な移行はまだ実現していませんが、翻訳の概念自体が「機械翻訳」から「AI支援による多言語コンテンツ生成」へと拡張されています。また、Scrapboxの限界を感じ、mem.nhiro.orgやQuartzなどの新しいプラットフォームでの発信も模索されています。

このプロジェクトは、技術的な課題解決だけでなく、「外部脳」という概念の多言語化、グローバル化という大きなビジョンに向かって進化を続けています。今後も、AI技術の発展とともに、このシステムがさらに進化し、言語の壁を超えた知識共有の新しい形を示していくことが期待されます。


(C)NISHIO Hirokazu / Converted from Markdown (ja)
Source: [GitHub] / [Scrapbox]