Wczoraj byłem na I Seminarium BigData: “Big Data. Cassandra. Hadoop. Azure” na Politechnice Warszawskiej. Zaciekawiło mnie to spotkanie ze względu na słówko kluczowe “hadoop”, bo w nowej firmie pracuje z tą technologią. Byłem tylko na pierwszej prelekcji

  • Massively scalable noSQL with Apache Cassandra.Piotr Kołaczkowski (Datastax, US)

Temat ciekawy. Prowadzący kompetentny. To “Seminarium” miało naturalnie charakter marketingowo-produktowy. Pan prowadzący wytłumaczył nam, że jego firma deleguje swoich programistów do pracy w projekcie open-source apache cassandra. Że jest to popularna baza dokumentowa, używana przez wiele, wiele firm na świecie (tutaj został wyświetlony slajd -tapeta – z logo różnych brendów).

  • Dla przykładu omawiane były case z eBay oraz Netflix.

Datastax stworzyło moduł integracyjny pomiędzy apache cassadra a hadoop. Nazywa się Datastax Enterprise. W Europie korzystają z niego jakieś firmy w Berlinie, w Polsce nie mają klientów.
Bardzo mnie zaciekawił moduł integracyjny tych dwóch technologi bo cassadra to przecież rozproszona baza a hadoop ma przecież HDFS. Okazało się, że Datastax do interfejsu HDFS napisało implementację używając (podpinając) apache cassandra.
Oprócz tego szukają ludzi do pracy :)

  • johnny

    After http://www.datastax.com/faq

    How does Cassandra differ from HBase?

    HBase is an open source, column-oriented datastore modeled after Google BigTable, and is designed to offer BigTable-like capabilities on top of data stored in Hadoop. However, while HBase shared the BigTable design with Cassandra, its foundational architecture is much different.

    A Cassandra cluster is much easier to setup and configure than a comparable HBase cluster. HBase’s reliance on the Hadoop namenode equates to there being a single point of failure in HBase, whereas with Cassandra, because all nodes are the same, there is no such issue.

    In internal performance tests conducted at DataStax (using the Yahoo Cloud Serving Benchmark – YCSB), Cassandra offered literally 5X better performance in writes and 4X better performance on reads than HBase.

  • kamil

    A jak to się ma do HBase, który ma bardzo podobny model danych (taki sam?) i dla którego HDFS jest natywnym systemem plików?