我们已经告诉Habr,新的SmartData是有关数据工程的会议。但是实际上这到底意味着什么,哪些报告符合该定义?在发布之时,我们只能用笼统的方式进行解释,但是现在会议计划已经准备就绪,因此我们将展示所有细节。在剪切下-所有报告的描述。
- -: 1 YouTube , ( asm0dey , olegchir , , ) — , . YouTube-.
Streaming
«Flink + Zeppelin: Streaming data analytics platform», Jeff Zhang
Flink — , . , Flink SQL, Flink . , Apache Zeppelin . , Zeppelin Flink -, HTML/JS- .
, Flink Zeppelin, .
: Zeppelin
: Zeppelin — Exploratory Data Analysis (EDA). , .
: , Zeppelin Flink .
« Kafka NiFi: »,
Apache NiFi Apache Kafka .
: VirtualHealth . , , ?
: , NiFi Kafka.
: VirtualHealth , .
«Advanced usage patterns of Scala UDF in PySpark»,
PySpark UDF, Scala/Java. .
, , Scala/Java UDF PySpark.
, :
- PySpark , UDF;
- pyspark.sql.Column UDF spark.sql(...);
- Singleton Pattern UDF;
- UDF ;
- log4j.
: Spark .
: , Spark, - , Spark (Spark-).
: , , .
«Stateful streaming: , , »,
— , . , . , .
Storage
«Kusto (Azure Data Explorer): Big Data »,
Kusto — Big Data. , Kusto Azure . Kusto security log analytics- : Azure Monitor, Azure Sentinel, Microsoft Defender Advanced Threat Protection . Kusto Azure Data Explorer, e-commerce, gaming, manufacturing, automotive .
, Kusto (Azure Data Explorer) , , - ( ) , , Kusto.
: — .
: . .
: , .
, .
«Kusto (Azure Data Explorer): Architecture and internals»,
Kusto , . , , .
. , , , Azure .
«NeoFS: »,
NeoFS — , . . NeoFS AWS S3, . .
, S3 , . , , , , .
: .
: .
: , , .
« : Business intelligence Clickhouse»,
: , . Data Silo. - , .
Data Silo . DWH Clickhouse, Kafka Spark.
, , - . , DWH Clickhouse, , . , , , Clickhouse DWH .
: DWH DE, , .
: ClickHouse — , BA , .
: , BI.
«The latest and greatest of Delta Lake», Jacek Laskowski
: Spark, « » Apache Spark, Delta Lake, Apache Kafka Kafka Streams.
: , SQL. DeltaLake — , .
: -, DeltaLake.
« . , , »,
: bare metal, Hadoop&CO, Vertica, ClickHouse, ExaSol, GreenPlum (ArenaDataDB), RDBMS, Teradata .
, , . , , .
, , , .
: , , .
: , .
«SQL- Postgres »,
? ? ? - , . , — ? ( ), ?
, PostgreSQL, .
: PG, , .
: , — , .
: , , , .
Tooling
« - Dagster»,
- — , Java/Scala- .
Spark + Scala- Python-? Dagster , - , .
, Dagster .
: 7 , ML DE , .
: -.
: , - .
« »,
Lamoda:
- SVN + Python + Jira + cron Git + Liquibase + Bamboo;
- ;
- .
: , .
: , , . .
«CI/CD Ml- »,
, , DS . , , , DS - ( , ).
— , , . , , .
: MLOps .
: -, ML.
«Scio — data processing at Spotify», Neville Li
Scio — Scala API Apache Beam Google Cloud Dataflow, Spotify , , . Scio .
big data Spotify: Python, Hadoop, Hive, Storm, Scalding . , « », , Discover Weekly, Wrapped, a , .
, Scio Spotify big data- Scala, Algebird, macros, shapeless magnolia. , .
Industry use-cases
« »,
« » — , , , .
, Kafka, Clickhouse Esper , , .
: , stateful- .
«Enterprise data platform: -»,
S7 . , , data governance . , , , .
S7 : Openshift, Minio, Apache Spark, Apache Airflow, Apache Kafka, Python, Scala, Java, Dremio, Alation.
: , , - . , , .
«Predictive Maintenance S7: »,
S7. S7 , , .
S7 : Apache Spark, Apache Airflow, Python, R.
: S7 , .
: , , DE. , , .
«: , ,
, , , , .
, , : , , , , .
: Kafka, Redis, ClickHouse, Quartz, Spring, Flink, ZooKeeper.
. .
: , , -.
Architecture
«Retable DSL: technology-agnostic data pipelines »,
Retable DataFrame DSL — open-source data pipelines DSL. C , data-, Spark DataFrames Python Pandas, — backend-agnostic, data pipelines data warehouses ELT, ETL data lakes, Spark.
Modern Data Stack, (ETL) (ELT) , DSL. , data pipelines, CI/CD-, — Spark, Snowflake Pandas Code.
«Highly Normalized Hybrid Model, », ,
DWH «» «». , , Agile.
, DWH , : Data Vault Anchor modeling — . , , : , .
:
- DV AM: ;
- «» ;
- «» , ;
- , ;
- .
: DWH.
: -, DWH.
« . »,
, DWH, Hadoop.
:
: -, Hadoop, , data engineering.
« »,
, . . DWH, . , , .
:
- ;
- , -;
- .
: Apache Kafka, Apache Flink, AWS, S3, EKS, Compression, Spark, Parquet, JSON.
: : — Joom , .
: DE, .
: .
« -»,
- , . , , MongoDB .
: .
Other
« »,
, , , . , . , — JIT, BLAS .
« NiFi»,
Apache NiFi , , NiFi, . , . , , .
, , .
, . , — . « », . SmartData 9 12 !