Hadoop Conference Japan 2014に行ってきました!資料・メモ・感想など
Hadoop Conference Japan 2014に行ってきました!
見たものをざっくりまとめると:
- 大物がいっぱい来てるね(ダグさんとか太田さんとか古橋さんとか)。
- Sparkがそろそろ来そう(だけどもうちょいか)。
- Googleすごすぎ。
- Prestoめちゃくちゃ良さそう。hiveもDBも扱えるものなのね。触ってみたい。
あとでリンクが付くだろうけど資料集
Hadoop Conference Japan 2014 Tickets, Tue, Jul 8, 2014 at 10:00 AM | Eventbrite
資料などはここにアップされる予定。
USTで公開されており、リンクもあり、プレゼンが完全に見れます(事前に知ってれば・・・)。
Ustream
Room A: http://www.ustream.tv/channel/hadoop2014-a
Room B: http://www.ustream.tv/channel/hadoop2014-b
Room C: http://www.ustream.tv/channel/hadoop2014-c
発表資料
Hadoop Conference Japan 2014 ご挨拶・Hadoopを取り巻く環境
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
リクルート式Hadoopの使い方 3rd Edition | Advanced Technology Lab
Hadoopの標準GUI HUEの最新情報
BigQuery and the world after MapReduce // Speaker Deck
Batch processing and Stream processing by SQL
Hcj2014 myui
Taming YARN @ Hadoop Conference Japan 2014
Spark1.0での動作検証 - Hadoopユーザ・デベロッパから見たSparkへの期待 (Hadoop Conference Japa…
Shib: WebUI tool provides crossover of Hive and MPP
http://www.slideshare.net/yamakatu/hcj2014-lt-sparkml
FluentdやNorikraを使ったデータ集約基盤への取り組み紹介 | Advanced Technology Lab
Apache Flume 1.5を活⽤したAmebaにおけるログのシステム連携
Evolution of Impala #hcj2014
Treasure Data on The YARN - Hadoop Conference Japan 2014
HBaseを用いたグラフDB「Hornet」の設計と運用
Presto - Hadoop Conference Japan 2014
実践機械学習 — MahoutとSolrを活用したレコメンデーションにおけるイノベーション - 2014/07/08 Hadoop Con…
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan…
参考
Spark Internals - Hadoop Source Code Reading #16 in Japan
Hadoop 2 @ Twitter, Elephant Scale
Apache Spark の紹介(前半:Sparkのキホン)
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
Book
《無料》実践 機械学習:レコメンデーションにおけるイノベーション | Hadoop Times # free!
O'Reilly Japan - Cloudera Impala # free!
Paper
FlumeJava: Easy, Efficient Data-Parallel Pipelines
MillWheel: Fault-Tolerant Stream Processing at Internet Scale
以下、HDC2014 見たものを時系列にメモ
(長いです。あとでもう少しまとめますmm)
(道に迷って遅刻mm 慣れない都会は苦手。。)
扇子とHCJ2014ストラップもらいました。(和風な流れの布石?)
濱野さん
司会的な。
今回は障子が開いて和風な音楽の後登壇者が登場する流れ。ふむ。。
Databricks Patrick Wendellさん
Databricksすごいよ。リアルタイムで簡単に集計。
太田さん TD CTO
Hadoop関連と流れをおおまかに分類
ここでお弁当配布。
1000人近くに、、(ごくり)
リクルートさんすごいっす!!
Treasure DataさんのTシャツが直前の宣伝効果でバーゲン会場みたいになってて
あせってSサイズとっちゃいましたw
12:10 C会場(ランチセッション) Hadoopセキュリティ Cloudera 小林さん
・Sentry
・hiveの細かい認証・認可が可能に
・Sentry1.4, CDH5.1からGrantとかRevokとかでできるように。
13:00 C会場 Google BigQueryの大規模JOIN・UDF・Hadoop対応で何が変わるか Google 佐藤 一憲さん
http://www.ustream.tv/recorded/49696613
- BigQuery(Dremel)はインデックス使わないのに超速い(100億行の検索が10秒とか)。カラム型(カラムナ)DBだから。そして安い。
- HadoopやFluentdでもBigQueryを使えるようになった。UDFもそのうちできる。
- Google I/Oで発表されたGoogle Cloud Dataflow(Streaming|Batch)の話。
Comming Soon!
Googleのペーパー読んでね。Pub/Subの元: FlumeJava, Streamingの元: MillWheel
これを実現してBigQueryユーザーに公開するのがGoogle Cloud Dataflow。ペーパーが元になっている。
バッチとストリーミング処理を(ほとんど)同じ記述でできる。
FlumeJava: Easy, Efficient Data-Parallel Pipelines
MillWheel: Fault-Tolerant Stream Processing at Internet Scale
感想:凄い。必見。皆これを目指すべき。これ聞けただけでも行った甲斐があった。
キーワード:DCから湯気、サイベースIQもカラム型、コロッサス、MPP、Small/Big JOIN、DAG、Tenjin( Mapreduce Project)
13:50 B会場 hivemall aist.go.jp 油井 誠さん
spark 1.0の回帰分析は遅い
協調フィルタは無さそう
しかし発表中でCTRの予測をしてたのが気になる。どういうロジックか(質疑応答で少し話していた)。
14:40 C会場 新日鉄ソル アルツハイマー解析 高田さん
2008 研究開始
2012 実運用開始
NEDOの一環
mahoutで統計情報から診断支援
MRI/PETデータから超早期診断
RandomForest
正規化→スムージング Matlab
複数モダリティのRF Grayらの手法
・普通に項目をプラス(データ結合)
・次元縮約
・新 モデル合成→制度が高かった
RやRDBでできるところはそれで。
Sparkに期待。
軽度の判別にに使えるように。
システム化したい。
15:40 B会場 ドコモ田中さん
・2009年から 1000台Hadoopクラスタ 三浦半島の先端
・標準的なLinux技術者一名 月1回のサーバ修理
課題
・多様なスループットとレイテンシへの要求
・Hadoop進化への追従
多様なデータI/O
・マイクロバッチ化
大規模な計算でもフットプリントが小さい
・SPARK
・STORM
同一クラスタ内でデータを共有しながらの利用
・YARN
Hadoop/SPARK/Storm
スケーラビリティ、オペラビリティ、フレキシビリティ
Spark NTTデータ土橋さん
Hadooper。最近はオンメモリ系も。
Data processing
・low latency
・APIs for data analysis
> Spark
Data management
・different types of frame works on one architecture
・multi clusters management
> YARN
Spark
for inside google:"Hadoop ソースコードリーディング spark"
Spark has 3 modes
Single|Meths|*YARN
Hard
- 4k+ core
- 10TB+ RAM
- 6core 64GB 1.3GHz 10GBase-T x 2port 3TB
Soft
- Spark 1.0.0
- HDFS & YARN(CDH5.0.1)
1. word count Capability
> good
2. reasonable performance over cache(Logistic regression)
> effective(ある程度)。キャッシュを効果的に設計するのが重要(シンプルなデータフォーマットであとで計算)。
3. shuffle process groupByTest
> 納得の結果。ネットワークだけでなくディスクの性能もかなり重要。たまにOOM。
4. POC multi-stage job
> いろいろな工夫。まだまだ。だいぶ玄人好みなつくり。
感想:かなりわかりやすく課題も自分たちと似てると感じた。Spark1.0はまだまだ茨の道。1.1で道が開けそう。
16:30 TD on YARN 小林さん
Treasure Data
Hadooper, Cassandra, Machine Larnning, Huahin
PlazmaDB(Collumna Strage)/S3
TD Using Customized-
Hadoop
Hive(12->13ですっごい変更)
Pig
Impala
Presto
4 clusters / in world
TD Using Customized-
Scheduler
Queue
1個 YARNのクラスタを隣で流してる。
MR v1/YARN Queue
5000users/about 6 trillion records/12 million jobs/40000Job by day
Yet Another Resource Negotiator
Resource Manager=JT
Node Manager=TT
Application Master
Container
Job History Server*
今年の1月からYARNを検証
Hadoop 2.4.0以降を使うべし!(前のは重大なバグが有る)
x ApachHadoop2.2.0
x ApachHadoop2.3.0 o 2.4.0~1
x HDP2.0(2.2.0base) o HDP2.1(2.4.0base)
x CDH4(2.2.0base) o CDH5.0.2(2.3.0base and patch)
Capacity Scheduler
Fair Scheduler
both has dead lock bug
many configuration changed
hadoop-conf-pseudo does not work
mapreduce.shuffle->mapreduce_shuffle
2.2.0->2.4.0
there are some differences
node managerのなんちゃらを設定しないとだめ。
HDPやCDHのVMを見るといい。
Use Ambari or Cloudera Manager
v1
- slot
YARN(MRv2)
- resource(contaner)
scheduler.xml
- maxMaps, minMaps
- max
yarn-site.xml
- resource.memory-mb
-
-
mapred-site.xml
- yarn.app.maprduce.am.resource.mb
-
-
fir-scheduler.xml
- maxResources, minResources
pool->queue
Job->App
for resource calc
hdp-configuration-utils.py
goo.gl/L2hxyq
Ambari
Container Executer
/tmp/hadoop-yarn/
17:20 A会場 Presto TD 古橋さん
Presto is SQL query engine
2012 fall~ Facebook
2013 open sourced
30+ contributors
5 core committer
Problems
- visualize HDFS data
- hive low latency is
- ODBC unavailable/unstable
- intaractive DB
- cost on scale
- Some data are not stored in HDFS
- copy
> Presto solves them.
HIve+Presto
can use cassandra/MySQL/Commertiol DBs
BI tools
- IBM Congnos
- Tableau
- regions
- 1000 nodes
- 1000 emps
- 30000 queries/ day
Netflix, TD,...
Architecture
Discovery Service
Coordinator
Worker
Connector plugin
Connector
- Presto plugin
- access to storage and metadata
- Implementations
- Hive
- cassandra
- MySQL
- Mix
- SQL Connector
- stateless = scalable
2. Data visualization
"Prestogres": Can use Presto like Postgres.
DEMO
tableau
chartio.com(tabeleauみたいなプロダクト)
感想:Prestoかなり使えそう。
管理画面くらいなら直でいけてグラフィカルな表示を簡単にできそう。
簡単なUIパッケージとかないのかな。
CDH3サポートって書いてないけど、試したい。
リンク
Hadoop Conference Japan 2014に参加してきました | Developers.IO # かなりよくまとまってます