古いコードは骨董品。絡まった歴史が、今ようやく面白くなる。
Software Antiques Collection — Where tangled history finally gets interesting.
the light is on. come in.
90 年代以前のソースコードは、AI が登場するはるか前に書かれた ソフトウェアの骨董品。
誰かが手作業で打ち込み、動かし、放置し、忘れられたもの。 死蔵プラットフォームに眠るそれらを、消える前に収集し、 創造的な使い方を探る。
“Clean OSS is edited literature. Legacy code is field recordings.”
まず集める
消える前に、静かに
面白い使い方を探す
創造的に、制約なく
答えはあとから
読み解く時間そのものが価値
27B
unique source files
Software Heritage
220B
lines of COBOL
still in production
30-50%
industrial dead code
nobody understands
50%+
OSS projects die
within first 4 years
6.6yr
code half-life
Linux Kernel
4mo
code half-life
Angular (20x shorter)
3x
more predictable
code vs English
まだ決めなくていい。集めてから見えてくるものがある。
コメントに刻まれた開発者の苦悩の化石記録。誰もやっていない。
不明なコード片の年代・起源・文脈を推定する骨董鑑定士。
パラダイムの興亡を 20 年分のコードで追う。進化の自然史。
スパゲッティ→きれいの対訳コーパス。眺めるだけで面白い。
古いコードのリズムや構造を音楽に変換。レガシーの「音」を聴く。
きれいなコードしか知らない AI に汚いコードを食わせたら?
☙ FOUND IN: payroll_calc.c — last modified 2003-04-12
// ============================================
// FIXME: this workaround has been here since 1998
// Original author: unknown (left company in 2001)
// Last modified: 2003-04-12
// Nobody knows why removing this breaks payroll
// ============================================
if (month == 2 && day > 28) {
day = 28; // TODO: handle leap years properly
// HACK: just... don't deploy in February
}
// See you space cowboy...こんなコード、眠ってませんか? 読み解くのは、わりと得意です。
DISCOVER
API / Archive index
CLONE
--depth 1
EXTRACT
Metadata + cloc
SCAN
Smells + Secrets
STORE
Parquet + Raw
よくある質問
消えゆく90年代以前〜2000年代のソースコードを系統的に収集・保存するソフトウェア考古学プロジェクトです。Google Code Archive、CodePlex、SourceForge等の死蔵プラットフォームに眠るコードを、消える前に収集し、創造的な使い方を探ります。
主にAI登場以前(Pre-AI時代)に書かれたソースコードが対象です。Google Code Archive(140万プロジェクト)、CodePlex Archive(10.8万リポジトリ)、SourceForge(約50万プロジェクト)、GitHub放棄リポジトリ、学術コード、政府公開OSS、レトロ/デモシーン(1980年代〜2000年代)などから収集しています。
古いコードはAIの学習データに含まれない「ソフトウェアの骨董品」です。TODOコメントには開発者の苦悩が化石のように刻まれ、コードスメルのパターンは現代のソフトウェア品質向上に活かせます。また、パラダイムの変遷を20年分のコードで追うことは、ソフトウェア工学の自然史として学術的価値もあります。
TODO Archaeology(コメントの化石記録分析)、Code Archaeology AI(コードの年代・起源推定)、Software Natural History(パラダイム変遷研究)、Before/Afterペアデータセット(リファクタリング前後の比較)、Code Sonification(コード構造の音楽化)、Legacy Whisperer(汚いコードを理解するAI訓練)など、研究・創作の両面で活用を構想しています。
はい。古いコードベースの情報提供、共同研究のご提案、収集ソースの紹介など歓迎しています。お問い合わせフォームから「Legacy Code Archive(ソフトウェア骨董品収集)」を選択してご連絡ください。公開リポジトリで明示的なライセンスがあるコードのみを対象としています。
Software Heritageは27B以上のソースファイルを保存する大規模アーカイブです。Legacy Code Archiveは保存だけでなく、古いコードの「創造的活用」に焦点を当てています。TODOコメントの考古学的分析やコードの音楽化など、骨董品を鑑賞し新しい価値を見出すアプローチが特徴です。
LEGACY CODE ARCHIVE
骨董品屋の主人は説明しない。
「これ、いいでしょう」と言うだけ。