本データは須賀隆のブックマークのうち下記で利用するために公開する部分を抜き出したものです。
機械学習関連情報の収集と分類(構想)のⒹに相当するブックマークとキーワードです。
http://hosi.org:4000/bookmarks が参照しているブックマークです。
ショートカット・ディレクトリとプレインテキストの変換で説明しているフォーマットです。
但し、下記に留意してください。
・important か否かの区別はなく、常に各項目の冒頭は“=”です。
・タイムスタンプの日付部分は原則として当該記事の公開日、時刻部分は当該記事の採集時刻です。ただし、2016年5月6日~9日に、別のフォーマットから本フォーマットへの一括変換作業を実施したため、それ以前のものは、必ずしもこの原則に従っていません。
・リンクの説明は原則として当該記事の題号(HTMLの<title/>要素)ですが、利用したファイルシステムの制約により文字の置き換えや省略をしている場合があります。
・URL要素以外は公開する上で意味がないので省略しています。
・木構造はかなりいい加減です。同じ記事が複数のカテゴリに該当すると主観的に判断した場合、複数箇所に配置しています。
・リンク先の内容の保証はしませんし、リンク切れのメンテナンスもしていません。
・本情報の更新は不定期です。
下記のようなデータフローで情報を加工していくツール群です。
機械学習関連情報の収集と分類(構想)作成時点とはかなり変わっているのでご注意ください。
・キーワードを管理するという概念が追加されています。これにより例えばサービスの名称とその提供会社を関連付けられるようにしました。
・❻ crawl が ⒺElasticsearch を参照しないのは、Fess が古いコンテンツを Expire させてしまう仕様のためです。
・❼~❾の処理が細分化されているのは、ハイパーパラメータのチューニング時に逐次中間成果物を残す方が効率が良いからです。
・❾ digest はまだうまく動きません。扱う形態素の最少出現頻度を20にしないとメモリが足りないのですが、そうすると扱う形態素を含まない文が大量に出てしまうからです。
各ツールの詳細はこちらのpdfをご覧ください。
・図の「半自動化」記載の通り、手動で行っていたⓃ→Ⓐの振り分け処理を半自動化しました。
ブックマークファイルは CC0 1.0 Universal、スクリプトは MIT Licence です。

