Hadoop Conference Japan 2014に行ってきました!資料・メモ・感想など

Hadoop Conference Japan 2014に行ってきました!

見たものをざっくりまとめると:
  • 大物がいっぱい来てるね(ダグさんとか太田さんとか古橋さんとか)。
  • Sparkがそろそろ来そう(だけどもうちょいか)。
  • Googleすごすぎ。
  • Prestoめちゃくちゃ良さそう。hiveもDBも扱えるものなのね。触ってみたい。


あとでリンクが付くだろうけど資料集


Hadoop Conference Japan 2014 Tickets, Tue, Jul 8, 2014 at 10:00 AM | Eventbrite
資料などはここにアップされる予定。
USTで公開されており、リンクもあり、プレゼンが完全に見れます(事前に知ってれば・・・)。

おそらく懇親会後の写真

https://twitter.com/hadoopconf/status/486485469689942018/photo/1 # 行けばよかったか





以下、HDC2014 見たものを時系列にメモ

(長いです。あとでもう少しまとめますmm)




(道に迷って遅刻mm 慣れない都会は苦手。。)

扇子とHCJ2014ストラップもらいました。(和風な流れの布石?)



# 象さんがいました(ブレブレでごめんなさい)。



濱野さん

司会的な。
今回は障子が開いて和風な音楽の後登壇者が登場する流れ。ふむ。。



Doug Cuttingさん

Hadoopのこれまでとこれからのお話



Databricks Patrick Wendellさん

Databricksすごいよ。リアルタイムで簡単に集計。


太田さん TD CTO

Hadoop関連と流れをおおまかに分類


ここでお弁当配布。
1000人近くに、、(ごくり)
リクルートさんすごいっす!!


Treasure DataさんのTシャツが直前の宣伝効果でバーゲン会場みたいになってて
あせってSサイズとっちゃいましたw


12:10 C会場(ランチセッション) Hadoopセキュリティ Cloudera 小林さん

・Sentry
 ・hiveの細かい認証・認可が可能に
 ・Sentry1.4, CDH5.1からGrantとかRevokとかでできるように。


13:00 C会場 Google BigQueryの大規模JOIN・UDF・Hadoop対応で何が変わるか Google 佐藤 一憲さん

http://www.ustream.tv/recorded/49696613

  1. BigQuery(Dremel)はインデックス使わないのに超速い(100億行の検索が10秒とか)。カラム型(カラムナ)DBだから。そして安い。
  2. HadoopやFluentdでもBigQueryを使えるようになった。UDFもそのうちできる。
  3. Google I/Oで発表されたGoogle Cloud Dataflow(Streaming|Batch)の話。

Comming Soon!
Googleのペーパー読んでね。Pub/Subの元: FlumeJava, Streamingの元: MillWheel
これを実現してBigQueryユーザーに公開するのがGoogle Cloud Dataflow。ペーパーが元になっている。
バッチとストリーミング処理を(ほとんど)同じ記述でできる。


FlumeJava: Easy, Efficient Data-Parallel Pipelines
MillWheel: Fault-Tolerant Stream Processing at Internet Scale


感想:凄い。必見。皆これを目指すべき。これ聞けただけでも行った甲斐があった。
キーワード:DCから湯気、サイベースIQもカラム型、コロッサス、MPP、Small/Big JOIN、DAG、Tenjin( Mapreduce Project)



13:50 B会場 hivemall aist.go.jp 油井 誠さん

spark 1.0の回帰分析は遅い
協調フィルタは無さそう
しかし発表中でCTRの予測をしてたのが気になる。どういうロジックか(質疑応答で少し話していた)。


14:40 C会場 新日鉄ソル アルツハイマー解析 高田さん

2008 研究開始
2012 実運用開始


NEDOの一環
mahoutで統計情報から診断支援
MRI/PETデータから超早期診断
RandomForest
正規化→スムージング Matlab
複数モダリティのRF Grayらの手法
・普通に項目をプラス(データ結合)
・次元縮約
・新 モデル合成→制度が高かった
RやRDBでできるところはそれで。
Sparkに期待。
軽度の判別にに使えるように。
システム化したい。



15:40 B会場 ドコモ田中さん

・2009年から 1000台Hadoopクラスタ 三浦半島の先端
・標準的なLinux技術者一名 月1回のサーバ修理
課題
・多様なスループットとレイテンシへの要求
Hadoop進化への追従


多様なデータI/O
・マイクロバッチ化
大規模な計算でもフットプリントが小さい
・SPARK
・STORM


同一クラスタ内でデータを共有しながらの利用
・YARN


Hadoop/SPARK/Storm
スケーラビリティ、オペラビリティ、フレキシビリティ


Spark NTTデータ土橋さん
Hadooper。最近はオンメモリ系も。


Data processing
・low latency
・APIs for data analysis
> Spark
Data management
・different types of frame works on one architecture
・multi clusters management
> YARN


Spark
for inside google:"Hadoop ソースコードリーディング spark"


Spark has 3 modes
Single|Meths|*YARN


Hard

  • 4k+ core
  • 10TB+ RAM
  • 6core 64GB 1.3GHz 10GBase-T x 2port 3TB

Soft

  • Spark 1.0.0
  • HDFS & YARN(CDH5.0.1)


1. word count Capability
> good
2. reasonable performance over cache(Logistic regression)
> effective(ある程度)。キャッシュを効果的に設計するのが重要(シンプルなデータフォーマットであとで計算)。
3. shuffle process groupByTest
> 納得の結果。ネットワークだけでなくディスクの性能もかなり重要。たまにOOM。
4. POC multi-stage job
> いろいろな工夫。まだまだ。だいぶ玄人好みなつくり。


感想:かなりわかりやすく課題も自分たちと似てると感じた。Spark1.0はまだまだ茨の道。1.1で道が開けそう。



16:30 TD on YARN 小林さん

Treasure Data
Hadooper, Cassandra, Machine Larnning, Huahin


PlazmaDB(Collumna Strage)/S3


TD Using Customized-
Hadoop
Hive(12->13ですっごい変更)
Pig
Impala
Presto


4 clusters / in world
TD Using Customized-
Scheduler
Queue


1個 YARNのクラスタを隣で流してる。


MR v1/YARN Queue


5000users/about 6 trillion records/12 million jobs/40000Job by day

Yet Another Resource Negotiator
Resource Manager=JT
Node Manager=TT
Application Master
Container
Job History Server*




今年の1月からYARNを検証


Hadoop 2.4.0以降を使うべし!(前のは重大なバグが有る)
x ApachHadoop2.2.0
x ApachHadoop2.3.0 o 2.4.0~1
x HDP2.0(2.2.0base) o HDP2.1(2.4.0base)
x CDH4(2.2.0base) o CDH5.0.2(2.3.0base and patch)

Capacity Scheduler
Fair Scheduler
both has dead lock bug


many configuration changed

hadoop-conf-pseudo does not work
mapreduce.shuffle->mapreduce_shuffle

2.2.0->2.4.0
there are some differences
node managerのなんちゃらを設定しないとだめ。
HDPやCDHのVMを見るといい。
Use Ambari or Cloudera Manager

v1

  • slot

YARN(MRv2)

  • resource(contaner)

scheduler.xml

  • maxMaps, minMaps
  • max

yarn-site.xml

  • resource.memory-mb

-
-
mapred-site.xml

  • yarn.app.maprduce.am.resource.mb

-
-
fir-scheduler.xml

  • maxResources, minResources

pool->queue
Job->App

for resource calc
hdp-configuration-utils.py

goo.gl/L2hxyq

Ambari

Container Executer

/tmp/hadoop-yarn/



17:20 A会場 Presto TD 古橋さん

Presto is SQL query engine


2012 fall~ Facebook
2013 open sourced
30+ contributors
5 core committer


Problems

  • visualize HDFS data

- hive low latency is
- ODBC unavailable/unstable

  • intaractive DB

- cost on scale

  • Some data are not stored in HDFS

- copy

> Presto solves them.


HIve+Presto


can use cassandra/MySQL/Commertiol DBs


BI tools

  • IBM Congnos
  • Tableau


Facebook

  • regions
  • 1000 nodes
  • 1000 emps
  • 30000 queries/ day

Netflix, TD,...


Architecture
Discovery Service
Coordinator
Worker
Connector plugin


Connector

  • Presto plugin
  • access to storage and metadata
  • Implementations

- Hive
- cassandra
- MySQL
- Mix

  • SQL Connector
  • stateless = scalable


2. Data visualization


ODBC/JDBC


"Prestogres": Can use Presto like Postgres.


DEMO
tableau
chartio.com(tabeleauみたいなプロダクト)


感想:Prestoかなり使えそう。
管理画面くらいなら直でいけてグラフィカルな表示を簡単にできそう。
簡単なUIパッケージとかないのかな。
CDH3サポートって書いてないけど、試したい。

リンク

Hadoop Conference Japan 2014に参加してきました | Developers.IO # かなりよくまとまってます