Skip to content

suchowan/bookmarks

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1,300 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Takashi SUGA's personal bookmarks for computer and other special interest items

本データは須賀隆のブックマークのうち下記で利用するために公開する部分を抜き出したものです。

機械学習関連 - compueter.url.txt, computer.keywords.txt

機械学習関連情報の収集と分類(構想)のⒹに相当するブックマークとキーワードです。

こんなふうにして作ったもの

その他 - sig.url.txt

http://hosi.org:4000/bookmarks が参照しているブックマークです。

フォーマット

ショートカット・ディレクトリとプレインテキストの変換で説明しているフォーマットです。

但し、下記に留意してください。

・important か否かの区別はなく、常に各項目の冒頭は“=”です。

・タイムスタンプの日付部分は原則として当該記事の公開日、時刻部分は当該記事の採集時刻です。ただし、2016年5月6日~9日に、別のフォーマットから本フォーマットへの一括変換作業を実施したため、それ以前のものは、必ずしもこの原則に従っていません。

・リンクの説明は原則として当該記事の題号(HTMLの<title/>要素)ですが、利用したファイルシステムの制約により文字の置き換えや省略をしている場合があります。

・URL要素以外は公開する上で意味がないので省略しています。

・木構造はかなりいい加減です。同じ記事が複数のカテゴリに該当すると主観的に判断した場合、複数箇所に配置しています。

・リンク先の内容の保証はしませんし、リンク切れのメンテナンスもしていません。

・本情報の更新は不定期です。

スクリプト

下記のようなデータフローで情報を加工していくツール群です。

データフロー

機械学習関連情報の収集と分類(構想)作成時点とはかなり変わっているのでご注意ください。

・キーワードを管理するという概念が追加されています。これにより例えばサービスの名称とその提供会社を関連付けられるようにしました。

・❻ crawl が ⒺElasticsearch を参照しないのは、Fess が古いコンテンツを Expire させてしまう仕様のためです。

・❼~❾の処理が細分化されているのは、ハイパーパラメータのチューニング時に逐次中間成果物を残す方が効率が良いからです。

・❾ digest はまだうまく動きません。扱う形態素の最少出現頻度を20にしないとメモリが足りないのですが、そうすると扱う形態素を含まない文が大量に出てしまうからです。

各ツールの詳細はこちらのpdfをご覧ください。

2017-10-27 追記

・図の「半自動化」記載の通り、手動で行っていたⓃ→Ⓐの振り分け処理を半自動化しました。

LICENCE

ブックマークファイルは CC0 1.0 Universal、スクリプトは MIT Licence です。

About

Personal bookmarks

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published