2017-06-24 4 views
0

私はこれをここで尋ねるべきかどうかわかりませんが、わかりません。記事内のすべての文字を除いたWikipedia APIが抽出を返しますか?

私はこの問題をWikipediaの「Meme」の記事(https://en.wikipedia.org/wiki/Meme)で最初に見つけました。 MediaWiki API(https://en.wikipedia.org/w/api.php?format=jsonfm&action=query&prop=revisions|extracts&redirects=true&titles=meme)で照会された抽出には表示されない発音のためのいくつかの特殊文字があります。

MediaWiki APIのドキュメントや代替案で解決策を見つけることができませんでした(私はjsoupを使ってページ全体を解析しようとしましたが、抽出クエリが必要とする記事から内容を確実に取得できませんでした)。

答えて

2

抽出APIは、テキストをより読みやすくするためにテキストをサニタイズしようとします(発音に先行する斜体の文も表示されないことがあります)。その一部は、スペルを含むnoexcerptクラスですべてを削除しています。 (将来、括弧内のテキストが完全に削除されてmetadata creepを処理する可能性があります)

関連する問題