데이터베이스 전체를 query하기 보다는 특정 task를 하려고 할 때
HBase
NoSQL - Random access to planet-size data
Scale up MySQL
SQL이 꼭 필요한지를 고려할 필요가 있음
런타임에 query가 복잡하지 않고 API하나만 필요하다면?
key - value datastore를 써도 괜찮지않은가
어떤 툴을 쓰는게 좋은가
근데 만약 엄청 큰 규모라면 non-relational 데이터베이스를 사용하는 것이 더 빠르고 scalable함
Spark
가 data processing 한 후 MongoDB로 저장