私はこれをここで尋ねるべきかどうかわかりませんが、わかりません。記事内のすべての文字を除いたWikipedia APIが抽出を返しますか?
私はこの問題をWikipediaの「Meme」の記事(https://en.wikipedia.org/wiki/Meme)で最初に見つけました。 MediaWiki API(https://en.wikipedia.org/w/api.php?format=jsonfm&action=query&prop=revisions|extracts&redirects=true&titles=meme)で照会された抽出には表示されない発音のためのいくつかの特殊文字があります。
MediaWiki APIのドキュメントや代替案で解決策を見つけることができませんでした(私はjsoupを使ってページ全体を解析しようとしましたが、抽出クエリが必要とする記事から内容を確実に取得できませんでした)。