从零开始入门数据分析-SQL篇(全干货!入门SQL一篇文章就够了)
该文章主要用于知识点整理,没有引用大量实例,方便小伙伴们巩固知识点。
有不足的地方还请交流指正,谢谢!
(1) 语句书写顺序:select-distinct-from-join-on-where-group by-having-order by-limit
(2) 语句执行顺序:from-on-join-where-group by-having-select-distinct-order by-limit
注:group by后不能加字段别名。(但在MySQL中可以使用,因为MySQL会优先将select后的字段进行类似扫描的工作)。
(1) 单列排序:order by 字段1 (desc);
(2) 多列排序:order by 字段1 (desc),字段2(desc)。
注:括号内desc代表降序。
(1)like用法:like后可以在字符中添加%或下划线'_', %号代表任意字符,下划线代表一个占位符。
例如:select name from tableA where name like '%什锦%'
上面语句是将name字段中包含'什锦'两个字符的name都查询出来。
(2)正则表达式regexp常见用法:
regexp '^M' 该语句查询某字段中以M开头的行;
regexp 'M$' 该语句查询某字段中以M结尾的行;
regexp 'M' 该语句查询某字段中包含M的行;
regexp 'p1|p2|p3' 该语句查询某字段中包含p1或p2或p3的行。
regexp '[abc]' 该语句查询某字段中包含a或b或c的行。
regexp '^[abc]' 该语句查询某字段中以a或b或c为首的行。
(1)常用语法:(case 字段 when 条件A then B
字段 when 条件C then D else G END ) as 别名
上面语句进行判断,当满足条件A时返回结果为B,当不满足A但满足C时,返回D,否则返回G。
注:D和G的类型必须相同,即当D为字符串类型而G为数值类型时,会报错。
(2)和聚合函数共同使用:sum(case 字段 when 条件A then B else C END) as 别名
(1) 排名类窗口函数:rank(), dense_rank(), row_number()
聚合类窗口函数:sum(),count(),max(),min(),avg()...
注:排名类窗口函数三者的区别,当出现排名并列的情况(以并列第一为例),三者输出的结果如下:
rank():1、1、3、4...
dense_rank():1、1、2、3...
row_number():1、2、3、4...
(2) ntile(n) over(partition by A order by B) :用于将分组数据按照顺序切分成n片,返回当前切片值
n:切分的片数;A:分组的字段名称;B:排序的字段名称
(3) 偏移分析函数:lead(字段名,n)和lag(字段名,n)
lead将行向上移动n行,默认值为1
lag将行向下移动n行,默认值为1
6.1日期函数
(1)curdate() :返回当前日期;
(2)curtime() :返回当前时间;
(3)timestampdiff(时间单位,start_time,end_time) :日期字段相减,其中常用时间单位为year,month,week,day,minute...
(4)datediff(日期字段1,日期字段2) :计算两个日期之间间隔的天数,单位为日;
(5)date_add(日期,INTERVAL n 时间单位) date_sub(日期,INTERVAL n 时间单位);
(6)last_day() :返回某个日期的当月最后一天;
(7)date_format(日期字段,'%Y-%m-%d') :转换日期字段格式;
(8)to_date(字符串字段) :将字符串字段转换为日期类型。
6.2字符串函数
(1)concat(a,b): 将字符串拼接,连接为一个字符串;
(2)left(s,n): 返回从字符串s开始的n最左字符;
(3)trim(s): 移除字符串开头或者结尾的空格;
(4)substring(s,n,len): 截取字符串s中第n个位置开始,长度为len的字符串。注:起始从1开始,末尾从-1开始;
(5)substring_index(字段,分隔符号,n): 返回字符中,在分隔符号第n次出现位置之前的字符串。注意:当n为正数,则取分隔符号左边的所有字符。当n为负数,则取分隔符号右边的所有字符;
(6)substring_replace(str,'旧字符串','新字符串'):字符串替换。
6.3数学函数
(1)ABS(x): 返回绝对值;
(2)floor(x):向下取整;
(3)ceil(x):向上取整;
(4)mod(x,y):返回x除以y后的余数。
6.4转换函数
1.CAST()
(1)定义:CAST函数用于将某种数据类型的表达式显式转换为另一种数据类型。CAST()函数的参数是一个表达式,它包括用AS关键字分隔的源值和目标数据类型。
(2)语法:CAST (expression AS data_type)
(3)例子:
2.CONVERT()
(1)定义:日期转换为新数据类型的通用函数,也可以用不同的格式显示日期/时间数据
(2)语法:convert(data_type(length),data_to_be_converted,style)
Style IDStyle格式100或0mon dd yyyy hh:miAM (或者 PM)101mm/dd/yy102yy.mm.dd103dd/mm/yy104dd.mm.yy105dd-mm-yy106dd mon yy107Mon dd, yy108hh:mm:ss109 或者 9mon dd yyyy hh:mi:ss:mmmAM(或者 PM)110mm-dd-yy111yy/mm/dd112yymmdd113 或者 13dd mon yyyy hh:mm:ss:mmm(24h)114hh:mi:ss:mmm(24h)120 或者 20yyyy-mm-dd hh:mi:ss(24h)121 或者 21yyyy-mm-dd hh:mi:ss.mmm(24h)126yyyy-mm-ddThh:mm:ss.mmm(没有空格)130dd mon yyyy hh:mi:ss:mmmAM131dd/mm/yy hh:mi:ss:mmmAM(3)例子:
3.to_char()
(1)定义:该函数只能在Oracle中使用,是将数值型或日期型转化为字符型。
(2)语法:
函数返回描述例子to_char(date, timestamp)text把 timestamp 转换成 stringto_char(sysdate,'yyyy-MM-dd HH24:mi:ss')to_char(int, text)text把 int4/int8 转换成 stringto_char(125, '999')to_char(float, text)text把 float4/float8 转换成 stringto_char(125.8, '999D9')to_char(numeric, text)text把 numeric 转换成 stringto_char('-125.8', 'S999D99')to_date(text, text)date把 string 转换成 dateto_date('05 Dec 2000', 'DD Mon YYYY')to_timestamp(text, text)date把 string 转换成 timestampto_timestamp('05 Dec 2000', 'DD Mon YYYY')to_number(text, text)numeric把 string 转换成 numericto_number('12,454.8-', '99G999D9S')用一张图说明Join的各种用法:
DDL主要用于创建数据库、创建表及修改表结构等。作为业务部门涉及到使用DDL语句的场景比较少,所以放在第二部分讲解。
1.创建数据库
(1)create database 数据库名:创建指定名称的数据库;
(2)create database 数据库名 character set 字符集:创建指定名称的数据库,并指定字符集(一般都指定utf8)
2.查看/选择数据库
(1)use 数据库:切换数据库;
(2)select database():查看当前正在使用的数据库;
(3)show databases:查看Mysql中都有哪些数据库;
(4)show create database 数据库名:查看一个数据库的定义信息。
3.修改数据库
(1)alter database 数据库名 character set 字符集:数据库的字符集修改操作。
4.删除数据库
(1)drop database 数据库名:从Mysql中永久的删除某个数据库。
一个数据库中可以有n个数据表,每个数据表中可以有n个字段(列),在创建表的时候需要定义好字段的数据类型。
1.常用数据类型
类型描述int整数型double浮点型varchar字符串型char字符串型date日期类型(没有时分秒)其中varchar与char的区别在于:
char类型是固定长度的,根据定义的字符串长度分配足够的空间(例如用于身份证号,手机号等);varchar类型是可变长度的,只是用字符串长度所需的空间(例如用于收入金额等)。两者的特点:
char 耗费更多的空间,但是查询效率高;varchar 耗费更少的空间,但是查询效率低。2.创建表
(1)语法:create table 表名(
字段名1 字段类型(长度),
字段名2 字段类型(长度)
);
(2)例子:创建一个表名为test1,两个字段分别为tid,tdate,字段类型分别为INT,DATE。
3.快速创建一个表结构相同的表(复制表结构)
(1)creat table 新表名 like 旧表名;
(2)例子: create table test2 like test1;
desc test2; --查看表结构
4.查看表
(1)show tables :查看当前数据库中的所有表名;
(2)desc 表名:查看数据表的结构;
(3)show create table category:查看创建表的SQL语句。
5.删除表
(1)drop table 表名:从数据库中永久删除某一张表;
(2)drop table if exists 表名:判断表是否存在,存在的话就删除,不存在就不执行删除。
6.修改表
(1)修改表名:rename table 旧表名 to 新表名;
(2)向表中添加列:alter table 表名 add 字段名称 字段类型;
(3)修改表中某列的数据类型或者长度:alter table 表名 modify 字段名称 字段类型;
例如:将category表中的cdesc字段改为varchar(50)类型
代码:alter table category modify cdesc varchar(50);
(4)修改列名:alter table 表名 change 旧列名 新列名 类型(长度);
(5)删除列:alter table 表名 drop 列名。
DML主要用于对表中的数据进行增删改操作,不会对表的结构进行改变。可以简单理解为DML是针对表中的"行"进行操作,而DDL往往是针对"表"和"列"进行操作。
向一个表中插入数据,有三种方法:
(1)方法1:插入全部字段,将所有字段名都写出来
INSERT INTO student(字段1,字段2,字段3...) values(内容1,内容2,内容3...);
(2) 方法2:插入全部字段,不写字段名
INSERT INTO student values(内容1,内容2,内容3...) ;
(3) 方法3:插入指定字段的值
INSERT INTO 表名(字段1) values(内容1);
插入数据有以下需要注意的点:
值与字段必须要对应,即个数相同且数据类型相同;值得数据大小,必须在字段值指定的长度范围内;varchar、char、date类型的值必须使用单引号;如果要插入空值,可以忽略不写或者插入null;如果插入指定字段的值,必须要写上列名。(1)不带条件的修改:update 表名 set 列名=值;
(2)带条件的修改:update 表名 set 列名=值 where 条件表达式;
例如:将tableA中所有uid为2的数据,将age改为20,address改为北京
代码:update tableA set age=20,address = "北京" where uid = 2
(1)删除所有数据:delete from 表名 或者truncte table 表名
两者的区别:
delete from 表名:不推荐,会逐行执行删除操作,效率低;truncate table 表名:推荐,先删除整张表,然后在创建一张一摸一样的表,效率高,当一个表中条数非常多,又要做删除动作的时候,如果用delete会很慢,所以truncate更佳。(2)指定条件删除数据:delete from表名 where 字段名 = 值
对表中的数据进行进一步限制,从而保证数据的正确性、有效性、完整性,违反约束的不正确数据,将无法插入到表中。
(1)定义: 不可重复,唯一非空,用来表示数据库中的每一条记录;
(2)语法:create table A(列名 INT PRIMARY KEY);
(3) 删除主键约束:alter table A drop primary key;
(4) 主键的自增:主键如果让我们自己添加很有可能重复,我们通常希望在每次插入新记录时,数据库自动生成主键字段的值。
关键字 auto increment
(5) 设置主键自增的起始值:默认的主键起始值是1,假如想设置初始值为100
(1)定义:某一列不能为空。
(2)语法:字段名 字段类型 not null。
(1)定义:某一列不能重复。
(2)语法:字段名 字段类型 unique。
(1)语法:
在新建表时添加外键约束:
constraint 外键约束名称 foregin key (外键字段名称) references 主表名(主字段名);
向已有表添加外键:
alter table 从表 add constraint 外键约束名称 foregin key (外键字段名)
references 主表(主键字段名);
注:外键字段类型要和主表的主键字段类型保持一致。
(2)删除外键约束:
alter table 从表名 drop foregin key 外键约束名称
(1)定义:用来指定某列的默认值
(2)语法:字段名 字段类型 DEFAULT 默认值
1.避免使用select*
原因:select*不会走覆盖索引,会有大量的回表操作。
回表:普通索引找不到我们想要的完整信息,迫不得已要执行回表查询,再回到主键索引或者聚集索引中查询数据。
覆盖索引:建立联合索引,就是索引覆盖。
2.用union all 代替union
原因:union会进行遍历和判断,但是如果出现大量重复数据需要清除,所以在确定被union的两个表没有重复行时,则要用union all 代替union。
3.用小表驱动大表
首先讲一下in和exists关键字的区别:
in:优先执行in右边括号内的语句,因此如果in括号内的数据量少,则查询速度会快;
exists:限制性exists左边的语句,即主查询语句,然后会把它作为条件,去跟右边的语句匹配。如果匹配上,则可以查询出数据,匹配不上则会被过滤掉。
总结:in适用于左边大表,右边小表;exists适用于左边小表右边大表。
4.join使用的注意事项
(1)使用inner join的时候,数据库会自动选择两张表中的小表去驱动大表,所以性能上不会有太大的问题。
(2)使用left join的时候,数据库会默认用left join关键字左边的表,去驱动它右边的表。如果左边的表数据很多时,则会出现性能问题。因此在使用left join时,尽量使用左边小表右边大表,如果能使用inner join,则尽量少用left join。
5.使用where先将数据量缩小,在进行分组等操作
我们通过之前提到的SQL语句执行顺序可知,where在join之后就执行了,所以可以将一些筛选条件放在where后面,将数据量减少,之后在进行group by等操作。
至此本篇文章完结,在熟练运用的情况下,本篇文章足以解决业务中70~80%的问题。后续会更新一些典型SQL题目的思路及核心代码的文章。