2016-03-21 3 views
2

外部ソースからのデータをcassandraに書き込んでいます。スパークストリーミングを使用してcassandraで最新のデータをストリーム

val cassandraRDD = ssc.cassandraTable("keyspace2", "feeds")

は、テーブル全体のデータを取ります

​​

ただし、次の行:今

、私は継続的に次のコードでカサンドラからこのデータを読み取るために、スパーク・ストリーミングを使用しています毎回カサンドラから。今すぐ最新のデータをテーブルに保存します。

私がやりたいことは、スパークストリーミングが最新のデータ、すなわち前回の読み込み後に追加されたデータだけを読み込むようにすることです。

どうすればこの問題を解決できますか?私はこれをGoogleにしようとしましたが、これに関してはほとんどドキュメントがありませんでした。

私はspark 1.4.1,scala 2.10.4およびcassandra 2.1.12を使用しています。

ありがとうございます!

EDIT:それはスパークストリーミングとカサンドラの接続について語ると、この質問は、最新のデータのみをストリーミングについてですので、(私が尋ねた)

提案重複質問は、重複はありません。 BTW、私が提供したコードを使用することにより、cassandra ISからのストリーミングが可能です。ただし、最新のデータだけでなく、毎回テーブル全体を取得します。

+2

が重複する可能性をスパークストリーミングをcassandraに接続しますか?](http://stackoverflow.com/questions/34993290/how-to-connect-spark-streaming-with-cassandra) – maasg

+0

カッサンドラからのストリーミングは現時点では不可能です。これを見てください:http://stackoverflow.com/questions/34993290/how-to-connect-spark-stream-with-cassandra – maasg

+0

ha。私はちょうどその質問をしたのはあなただと気付いた。答えはまだ変わっていない、私は恐れている。 – maasg

答えて

0

これ読んで、カサンドラに着信する新しい突然変異の外部システムに通知することができますカサンドラにいくつかの低レベルの仕事(などインデクサ、スパーク・ストリーム)があります:[方法のhttps://issues.apache.org/jira/browse/CASSANDRA-8844

関連する問題