私は書籍の名前のリストを著者と一緒に数多く持っています(ISBN番号なし)。私は本のユニークなエントリを含む単一のリストを維持し、すべての本の重複したエントリを削除したい。重複する書籍を見つける
私が直面している問題は、異なるリストが本のエントリを格納するために異なる規則に従うことがあるということです。たとえば、リストには著者名がlast name
first name
という規則で格納されていてもよく、別のリストでは、その本自体の名前エントリには、系列番号のような追加情報が含まれています。
この種の問題を処理するための標準アルゴリズムはありますか?私は車輪を再発明したくありません。今私は、ソリューションをコーディングするためにPHPを使用しています。初心者として、私はlevenshtein, soundex, metaphone, similar_text
を試しましたが、どれも私に有望に見えません。
例:Inheritance Cycleの例を考えてください。このシリーズには4冊の書籍が含まれています。今シリーズの第2冊のエントリは、Eldest
,Eldest: The Inheritance Cycle (Book 2)
,Eldest (Inheritance)
,Eldest (Inheritance Cycle)
,Inheritance 002: Eldest
とすることができます。
これは複雑な問題です。書籍タイトルと著者名のデータベースを使用して、データのパターン認識を試みることができます。また、ここで使用できるAmazon APIがあるかどうかを調べる予定です。 –
無料の最新の本のデータベースや何らかの種類の定期購読がありますか? –