MySQL性能优化

• 2023年06月20日

一、背景在数据爆炸的年代，单表数据达到千万级别，甚至过亿的量，都是很常见的情景。这时候再对数据库进行操作就是非常吃力的事情了，select个半天都出不来数据，这时候业务已经难以维系。技术在进步虽然有了NoSQL、NewSQL数据库，但...

什么情况下需要对数据库进行分库分表分区

• 2023年06月10日

一、什么是分区、分表、分库分区就是把一张表的数据分成N个区块，在逻辑上看最终只是一张表，但底层是由N个物理区块组成的。分表就是把一张表按一定的规则分解成N个具有独立存储空间的实体表。系统读写时需要根据定义好的规则得到对应的字表明，然...

• 2019年07月23日

SQL是数据处理中使用最广泛的语言。它允许用户简明扼要地声明他们的业务逻辑。大数据批计算使用SQL很常见，但是支持SQL的实时计算并不多。Apache Flink是一款同时支持批和流计算的引擎，Flink SQL的实现完全遵循ANSI...

• 2019年07月14日

一、Phoenix简介Phoenix是HBase的开源SQL中间层，它允许你使用标准JDBC的方式来操作HBase上的数据。在Phoenix之前，如果你要访问HBase，只能调用它的Java API，但相比于使用一行SQL就能实现数据...

• 2019年07月11日

一、数据准备本文主要介绍Spark SQL的多表连接，需要预先准备测试数据。分别创建员工和部门的Datafame，并注册为临时视图，代码如下： 1234567val spark = SparkSession.builder().ap...

• 2019年07月11日

一、简单聚合1.1 数据准备12345678// 需要导入spark sql内置的函数包import org.apache.spark.sql.functions._val spark = SparkSession.builder()...

• 2019年07月11日

一、简介1.1 多数据源支持Spark支持以下六个核心数据源，同时Spark社区还提供了多达上百种数据源的读取方式，能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections P...

• 2019年07月10日

一、Spark SQL简介Spark SQL是Spark中的一个子模块，主要用于操作结构化数据。它具有以下特点：能够将SQL查询与Spark程序无缝混合，允许您使用SQL或DataFrame API对结构化数据进行查询；支持多种...