Software

azarashi

azarashiは、djangogensimとmongodbをベースにした履歴ベースとコンテンツベースの両方に対応したレコメンデーションエンジンです。集計に関しては、現状mongodbのmapreduce機能を用いて実現しています。(MongoDBをshard構成で使うとはまりどころが多いので、全履歴を保持せずに、至近N日のみmongodb上に保持するなどして一台構成にするのが良いと思われます。item-user行列はインクリメンタルに作成するのでログは古い物がなくても問題ないです。)。コンテンツベースのレコメンドに関しては、説明文の類似度・画像の類似度・メタデータ、タグの類似度を元にレコメンドします。

履歴に基づいた基本的なレコメンドや、タグの類似度やテキストの類似度や画像の類似度(color coherence vector)を用いたコンテンツベースのレコメンデーションを提供します。現在は、gensimをラップする形で、tf-idf(ベーシックな協調フィルタ)、LSIOkapi BM25LDAの4つのモデルにもとづいてレコメンデーションを実現すると同時に、商品のメタデータごとに集計したランキングに基づくレコメンデーション機能を提供しています。

レポジトリ

バックエンド

  • mongodb
  • memcache

依存ライブラリ

django
1.5系
gensim
0.84以上(pypiの最新版のtop-kクエリに不具合があって異常に遅いのでgithubの最新版を利用してください)
numpy
gensimの仕様に合わせてください
scipy
gensimの仕様に合わせてください
msgpack_python
ヴァージョン指定無し
mongoengine
0.8.3以上
pyccv
0.07以上
PIL
1.1.6以上
Bottleneck
0.8以上
gunicorn
-
python-memcached
-
mecab
-

使い方

マスターデータの投入

履歴情報のトラッキングAPI

履歴情報の集計

レコメンデーションモデルの構築

レコメンデーションAPI


  トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2014-03-27 (木) 14:05:09 (1355d)