CFA一级 数量分析方法 学习笔记

  PATR 1 货币的时间价值 Time value of Money

  金融学基本假设 货币是有时间价值的

  (1)只是假设 金融学基础

  (2)货币用于投资或者再

  生产中

  (3)货币投资会产生正向价值 也就是会盈利

  引出问题:

  如何度量这个价值 ---利率

  如何计算不同时间点价值----终值和现值

  核心知识点: 1、利率 2、 终值和现值

  三个角度理解利率

  interest rate 利率

  required rate of return 最低回报率 投资者投资可以接受的最低的回报率

  discount rate 折现率 折现未来现金流的利率(货币具有时间价值 现在和未来之间的折算)

  不同时间点现金流不能相加减,折现到t=0 未来现金流折现后求和

  opportunity cost 机会成本 放弃未来的可能收益就是决策的机会成本。

  利率的组成:

  1、名义利率

  real risk-free interest rate 实际无风险利率 不考虑通货膨胀因素

  inflation premium 通货膨胀溢价

  名义利率 ≈ 实际无风险利率+通货膨胀溢价

  2、风险资产收益率 riskpremium(风险溢价) 补偿投资者承担的风险

  default risk premium 违约风险溢价 到期无法偿还风险 只要违约,就是违约风险

  liquidity premium 流动性风险溢价 流动性风险:短期内无法将资产按照市场公允价值迅速变现的风险 如:国债流动性风险低于个人欠条的 市场交易的活跃程度,持有资产迅速变现的能力,看供给情况

  maturity premium 期限风险溢价 一般情况下,期限越长利率越高,例如长期国债利率高于短期的 夜长梦多

  利率=实际无风险利率+通货膨胀溢价+违约风险溢价+流动性风险溢价+期限风险溢价

  计息方式

  simple interest 单利 compounding interest 复利 考虑了时间因素

  各种金融机构提及的利率如无特别提及,都是复利

  复利模式下:

  stated anuual interest rate / quoted interst rate 报价利率

  非1年内真实利率,要关联报价次数

  Effective Annual Rate ,EAR 有效年利率

  rs为报价利率 m为1年内的计息次数

  1年内计息次数趋于无穷,连续复利continuous compounding(在100%的报价利率下,无穷次数计算复利1年内1块钱最多可以变成多少钱)

  e为“欧拉数” e=2.71828

  present value ,PV 现值 future value ,FV 终值

  r为给定利率 n为计息周期数 关键点:复利计息

  如果是一年复利多次,rs 为报价利率 ,m为1年内的计息次数,N为年份,将EAR概念代入,得到:

  如果1年为无限次复利,rs为报价利率,N为年份代入连续复利公式:

  一定要先画现金流量图 这是必考题!!!

  画图计算方法:

  0时刻为当前时间点,标出不同时间点的现金流,用箭头表示折算的方向;

  在进行终值和现值计算是,不一定非要折算到0时刻或者从0时刻开始折算,任何一期都可以。

  比如一家基金,预期第五年磨将收到一笔钱,需要计算这笔钱在第15年后的终值,计息的起点就是第五年,计息期是10年而不是15年。

  Anuuity 年金 广义:等额且定期支付的一系列现金流,例如:养老金发放、分期付款、分期还贷等。

  Ordinary Anuuity 普通年金 每期期末支付等额年金

  Anuuity Due 先付年金 每期期初支付等额年金

  Perprtuity Anuuity 永续年金 无限期支付年金,支付时间点为每期期末 视为无限期的普通年金

  Unequal cash flow 不规则现金流 每期现金流不等的一系列现金流

  1234的本质都是现金流,遵循时间的货币价值。

  先付年金可以堪称是第一年年金的现值加上一个普通年金,所以在计算是可以按照普通年金简化操作。

  不规则现金流可以拆分成不同的年金和单个现金流之和,或者直接折算成n个不同的现金流进行计算。

  普通年金的终值计算:

  可以将其拆分成n个独立现金流的终值,利用终值的计算公式,指示计息期次依次降低。

  A为每期年金金额,r为有效利率, n为年金期次

  等比数列求和的公式:S=a1*[(1-q^n)/(1-q)] 可以认为a1=A/(1+r),q=1+r,代入后得到上面终值计算公式

  r为计息期利率 n为计息期数 括号内成为年金终值系数。

  普通年金的现值计算

  通过上两个公式可以得出[也可以认为从最后一期A向前折算,最后一期折算到第0期就是 A/(1+r)^n,也就是PV=A/(1+r)+A/(1+r)^2+...+A/(1+r)^n )]:

  计算月供:FA=-R (R为贷款金额);r为计息期利率; n为分期期数;PV=0;可以计算出分期还款金额A 。计算器计算:N=n;I/Y=r=R(报价利率)/m(计息次数);PV=-R;FV=0,求PMT

  先付年金的现值计算:

  可以认为是第一期年金和一个普通年金现值之和

  在计算不规则现金流时,就只能依靠逐一计算单独现金流现值,再相加

  永续年金的现值:n趋向于+∞,上述公式可以计算为:

  永续年金现实中的产品例子:a consol bond永续债券--无到期日不可赎回源源不断支付利息

  例题:每年支付100英镑,年回报率5%的永续年金,可以折算出其现值为2000英镑 (PV=100/5%)

  例题1:

  丰田汽车2018年销量896辆,2012年销量为735,求这六年的复合增长率。

  解:N=6;PV=735;FV=-896;P;MT=0;计算得出I/V=3.36% 注意:PV正数意思是投资金额或现有资产 FV负数就是收回投资或收回资产

  例题2:

  一千万在7%的复利下,多久可以成为两千万?

  解:I/v=7% ;PV=1000;FV=2000;PMT=0;计算得出N=10.24

  例题3:

  房子总价12万美金,首付2万美金,30年按揭贷款,名义贷款利率8%,月供多少?

  解:IV=8%/12=0.6667%;PV=-(120000-20000)=-100000;FV=0;N= 30*12=360;计算得出:PMT=736.55

  例题4

  手机1200元,分12个月偿还,每月等本等息偿还100元本金+固定7.2元利息,实际年化报价利率是多少:

  解:PV=-1200;FV=0;PMV=107.2;N=12,计算器得出I/V=1.09%

  实际年化报价利率=1.09%*12=13.08%

  例题5

  华为手机刚上市销售价8788,后来市场降价1000元,商家不讲价,24期分期,月度月利率是多少?年化有效利率是多少?

  解:PV=-(8788-1000)=-7788;N=24;PMV=8788/24=366.17;FV=0;计算器得到月度利率为0.98%,

  年化有效利率=(1+0.98%)^12-1=12.91%

  PATR 2 数据的整理、可视化和描述

  数据分类(变量 variable、观测值 observation)

  数值型数据 Numerical Data(也称:定量数据 Quantitative Data)

  连续数据 continuous data :变量可以在一个特定范围内连续取值。例如:一只股票在一段时间内的收益率数据

  离散数据 discrete data : 变量一系列可数的、有限的取值数据。例如:掷骰子出现点数的数据

  分类数据 Categorical data (也称:定性数据 Qualitative Data)

  名义数据 nominal data : 分类不涉及排序

  排序数据 ordinal data : 根据数据的某些特征有次序排序

  截面数据 Cross-Sectional Data 多个观测对象在同一特定时间点一些列取值

  时间序列数据 Time-Series Data 同个观测对象同一个变量在等时间间距的时间段内的取值

  面板数据 Panel Data截面数据和时间序列数据的综合形式,通常以数据表格形式呈现

  结构化数据 Structured Data 数据可以有序组织和储存。例如:公司的财报数据、分析数据

  非结构化数据 Unstructured Data 产生于非传统数据源(①个人 例如:社交媒体信息、网络浏览信息②商业过程 例如:交易数据、监管信息等③传感器 例如:摄像机、行车记录仪等)

  数据整理:

  一维数组 One-Dimensional Array

  二维矩阵数组 Two-Dimensional Rectangular Arrays

  绝对频数 absolute frequency 累计频数 cumulative absolute frequency

  绝对频数分布 absolute frequency distribution

  相对频率 relative frequency 累计频率 cumulative relative frequency

  累计频率分布 relative frequency distribution

  3. 联合频数 jiont frequency 同时满足两个条件的数字

  边际频数 marginal frequency 每一行或每一列的合计数即满所在行或者列联合频数之和

  转化成相对频率表。。。

  数据可视化

  matrix矩阵

  统计学四大基本概念

  总体 Population 研究对象

  总体参数 Parameter 研究目的

  样本 Sample 总体抽样

  样本统计量 Sample Statistics 样本描述性统计、估计总体参数

  描述性统计学 Descriptive Statistics 数据各方面有效全面进行总结

  推断性统计学 Inferential Statistics 抽样样本特征进行总体预估、估计与判断

  统计学四种度量尺度

  名义尺度 nominal scale 分类,将不同分类赋予不同数字,只分类不能排序不能计算

  顺序尺度 ordinal scale 按照某些特征排序,有顺序意义,由于排名差距不同,不能加减运算

  区间尺度 interval scale 排序且间距相等,可加减。区间尺度零点不具备数学自然数0的 意义,不能乘除。例如温度每一摄氏度之间温差相等,温度可以排序,还可以加减温度的尺度,但是不能乘除。

  比率尺度 ratio scale 相等间距,绝对零点。 可以加减、可以乘除。

  统计度量:

  (一)中心趋势

  度量指标:

  均值 Mean

  算数平均数 Arithmetic Mean

  计算公式为数据加总平均

  总体均值用μ,总体样板数N;样本容量n

  几何平均数 Geometric Mean

  算数平均数每个数值相互独立,在计算利率时,每个数值都是相互影响的,下一个数值以上一个为基础,所以要寻找到相关影响的平均数算法,这就是几何平均数。即其用于计算延时间的平均变化率。

  在几何中,长方形的面积是边长的成绩,开根号可以认为是两个边的平均长度(面积相等的所有长方形中正方形的边长),所以这种计算平均数的方法叫做几何平均数

  计算公式为所有的数据相乘然后开方

  上面公式的弊端为根号内的计算结果为负,就无法计算,投资事务中,收益率有可能为负,所以计算平均收益率时,将每个参数都加1(收益率最坏就是-100%,+1可以确保都是正数),可得到平均收益率的计算公式:

  对投资行业来说,几何平均数比算数平均数更有实用价值

  调和平均数 Harmonic Mean

  Harmonc,和声 琴弦长度的数量关系时用到

  定投测算平均购买成本就要用到调和平均数

  可以解释为:每期定投1元,每期的股价分别是X1,X2,X3...Xi,那么各期购买的股票数量就是1/X1,1/X2,1/X3...1/Xi,相加就是所有的股票数量。总金额n除以总数量就是平均购买成本。可以看出,定期等量购买,平均购买成本与每次的购买金额没有关系。

  加权平均数 Weighted Mean

  投资实务中,一个投资组合由不同的资产类别,不同的资产类别有不同的权重和收益率,在计算该组合平均收益率时必须考虑其权重。最常见的就是各类指数的构建。 算术平均数就是加权平均数在等权重的特例。

  调和平均数 ≤ 几何平均数 ≤ 算数平均数

  可以通过数学严格证明

  所有数值完全相同时,三个平均数相等,等号成立

  数值的离散程度越大,三个平均数的差距越大

  中位数 Median 一组按顺序排列的数据中位于中间位置的数

  n为奇数,中位数为位于(n+1)/2位置的数;n为偶数,中位数为处于n/2和(n+2)/2两个位置数的平均值

  众数 Mode 数据中出现频率最高的数

  众数可以不止一个,1个为单峰unimodal、2个为双峰bimodal、3个为三峰trimodal,也有不存在众数

  

  分位数 Quantile (词根来源:Quanlity )

  五分位数 Quintiles(词根来源:Quint)

  四分位数 Quartiles (词根来源:Quarter)

  十分位数 Deciles (词根来源:Decade)

  百分位数 Percentiles (词根来源:Percent)

  分位数的位置计算公式:

  其中:n观测数量值(+1是为了调整误差,比如n是奇数,中位数位置就是(n+1)/2 )

  y分位数

  Ly分位点位置

  例题分析:<-------------易错、不会题

  某基金旗下共有15各基金经理,去年收益率按照从小到大排列顺序为-20%、-15%、-13%、-7%、5%、8%、10%、11%、13%、15%、18%、20%、25%、38%、52%,求该基金经理收益率的第2个

  五分位数。

  解: Ly=(15+1)*40/100=6.4

  6<6.4<7,第6个数为8%,第7个数为10%,

  则 第2个5分位数 即 6.4位置的数 为 8%+(10%-8%)*(6.4-6))=8.8%

  插值法:假设第10位第11位数字之间的数据呈线性变化,这样就可以将其切成更小的单位。相当于把斤切分成两,10.4就是十斤四两。

  定长度 找刀口 插值法 切面条分成几份 第2个五分位数就是第2刀切在哪里。

  离散程度 Measures of Dispersion

  绝对离散程度 Absolutive Dispersion 即 只针对本组数据进行测量

  在投资领域,离散程度代表风险。考察离散程度,就会使用到四组层层递进关系的概念(主要指标: 变异系数 Coefficient of variation):

  极差 Range

  数据组中最大值与最小值之差。极差越大,表述数据集中的观测值越分散。优点:便于计算。缺点:仅仅应用了两个极端值,无法对数据的分布情况提供更多信息。

  平均绝对离差 Mean Absolute Deviation ,MAD

  和平均数相比,每个具体数值相对于平均数值的差值,即离差。所有的数据围绕均值波动,计算MAD要取差值的绝对值,然后再计算离差的均值。平均绝对离差越小,说明数据越稳定,离散程度也越小。

  方差与标准差 Variance and Standard Deviation

  处理负值的另外一种方法就是取平方,这样就引入了“方差”的概念。

  For Population:

  For Sample:

  (分母为n-1的原因是很大概率会出现1个非常或者完全接近均值的样本值,拔除这个样本值会更确保样本统计量的无偏性,调整自由度。在抽样完成后已确定,所以大小为n的样本中只要n-1个数确定了,第n个数就只有一个能使样本符合 /X(X拔) 的数值。也就是说,样本中只有n-1个数可以自由变化,只要确定了这n-1个数,方差也就确定了。这里,平均数 /X(X拔)就相当于一个限制条件,由于加了这个限制条件,样本方差s的自由度为n-1。)

  标准差的量纲与期望均值的量纲相同,更便于比较理解,所以求出方差后再开根号得到标准差:

  For Population:

  For Sample:

  固定代表字母(英文字母--样本量 希腊字母--总体量):

  重点!!!:当给出一组基金(funds 或者 portfolio)的回报率数值求方差标准差时,如果没有说明是选取了一部分数据时,认为是全部的总体值已经收取到,不是样本量不是样本量不是样本量,是总体是总体是总体!

  下行标准差 Downside Deviation

  半方差 Semivariance :小于均值的数值离散度

  目标半方差 Target Semivariance :比目标值小的数值的离散度

  相对离散程度 Relative Dispersion

  延伸出来三个公式(本章重点):

  切比雪夫不等式 Chebyshev's Ineqaulity

  切比雪夫不等式:对任意一组观测值,个体落在均值周围k个标准差之内的概率不小于1-1/k^2,对任意k>1。代表的含义:比如k=2 不管数据怎么分布,落在均值周围2个标准差的概率大于等于(1-1/4)即不小于75%。表示大部分数据在均值周围。

  常遇到的考试题型:

  已知k值,求概率P

  已知均值、标准差、和概率,求范围上下限

  变异系数 Coefficient of Variation

  变异系数 Coefficient of variation ,CV 剔除量纲和取值大小的影响。以均值为单位来衡量标准差。

  研究资产收益率时候,变异系数表示单位均值/X(X拔)收益率承担的风险大小。

  描述:每单位均值/X(X拔)的标准差s、每单位均值的风险大小-------------每隔几年就考一次

  性质:(1)剔除了规模(量纲和取值)scale - free

  (2)相对离散程度 relative dispersion

  对比不同资产时,对于风险厌恶的投资者而言,变异系数越低越好

  描述:每单位均值的risk

  考试题型:

  给出几组数据CV值,S值 衡量谁的相对/绝对离散程度的值高

  夏普比率 Sharp Ratio

  夏普比率 Sharp Ratio 是一个业绩衡量指标,即:单位风险下的超额收益

  作用: (1)用于资产收益率和期待值(或者标准值 Benchmark)相比较

  (2)衡量风险率。风险并不是损失,是一种不确定性。

  用投资的方差或者标准差衡量风险:return的方差越大,收益的不确定性越大,也就是风险越大。

  Rp代表资产P的收益率 RF代表无风险收益率,σp代表资产P收益率的标准差。

  描述:每单位risk的excess return

  性质:对投资者而言,SR也就是夏普比率越大越好(σp越小,则收益的不确定性越小;Rp高于RF的值越大,收益率越高。收益超额值除以收益率标准差,则同时衡量了两个作用,所以SR越大越好)。

  偏度和峰态 Skewness & Kurtosis

  偏度 Skewness 标红部分经常用于判断左右(正负)偏 的 题型

  正态分布mean=median=mode

  正偏(右偏)分布 Positively(Right) Skewned mode<median<mean(技巧:众数在图形峰值,3个数他靠右就是左边尾巴长即左偏,3个数它靠左就是右边尾巴长即右偏 & 3个数平均数大得正偏),尾巴哪边长就是哪边(左/右)偏。右偏的偏度>0

  负偏(左偏)分布 Negatively(Left) Skeness mean<median<mode, 尾巴左边长就是负偏。左偏的偏度<0

  对于return distribution来说:

  右偏 小的损失发生的比较多,可以取到一些极大的收益(极端受益)。(投资偏好 右偏!)

  左偏 小的收益发生的比较多,可以取到一些极大的损失(极端损失)。

  标准正态分布的峰度:3

  峰度 Kurtosis

  和正态分布(Normal Distribution)的峰度 峰度=3 超峰度=0,比较。

  尖峰态 lepkuetic 峰度>3,超峰度>0,尖峰肥尾

  低峰态 platykurtic 峰度<3, 超峰度<0, 厚峰瘦尾

  做风控主要研究尾部,对风险厌恶者来说 肥尾代表极端损失和极端获利的可能性高,不喜欢肥尾。

  计算偏度的公式power是3次方

  计算峰度的公式power是4次方(考过!!)

  PATR 3 概率论基础 Founditions of Probability

  Probability concepts

  Odds for or against

  Multiplication rule and Addition rule

  Calculation rules and correlation***必考

  Expected return and variance of portfolios***必考

  Bayes' formula 隔几年考一次

  Principles of counting 隔几年考一次

  概率论术语 Terminology of Probability

  随机变量 Radom Varable 取值不确定的量 一般记为X

  结果 Outcomes 随机变量产生的的所有可能结果组成的集合叫做样本空间

  随机事件 Event 事件本质是一个集合,可以使样本空间的任意集合

  事件之间关系

  互斥事件 Mutually Exclusive Events 不可能同时发生的事件

  遍历事件 Exhaustive Events 包含随机变量所有可能结果的事件

  独立事件 Independent Events 一个事件的发生不影响另一个事件的发生,两个事件独立

  不独立事件 Dependent Events 一个事件的发生影响另一个事件发生,互斥事件不独立

  概率的定义:P(E)实际上是一个把事件映射到概率的函数

  特征:(1)0≤P(E)≤1 ;

  (2)一组互斥且遍历事件的概率和为1:

  概率的确定方法

  客观概率 objective probability 用历史数据

  经验概率 empirical probability 通过历史数据来估算事件发生的概率

  分析过去,得到将来

  先验概率 priori probability 通过逻辑分析来估计事件发生的概率

  分析过去,得到过去 | 加逻辑

  、 贝叶斯公式是典型的先验概率

  主观概率 subjective probability 只要加入自己的想法,就一定是主观概率

  通过个人主观判断估计事件发生的概率

  赔率 Odds ---常考!

  事件发生的赔率 Odds for the Event E = P(E) / 1- P(E)

  事件不发生的赔率 Odds against for the Event E = 1-P(E) / P(E)

  条件概率 Conditional Probability

  P(A|B) 在已知事件B发生的情况下,事件A发生的概率

  概率的计算:

  联合概率 Joint Probability 一组事件同时发生的概率 P(AB)

  计算适用乘法法则 Multiplication Rule ;

  P(AB)=P(A|B)P(B)

  乘法法则推导过程:先让A发生,得到P(A),再计算A发生之后B发生的概率 P(B|A)

  加法法则 Addition Rule 适用于事件A或事件B至少一个发生的概率

  P(A or B)=P(A)+P(B)-P(AB)

  两个法则比对两个事件:

  1、A、B是互斥事件 P(AB)=0 P(A or B)=P(A)+P(B)

  2、A、B是独立事件 P(A|B)=P(A) P(B|A)=P(B) P(AB)=P(A)P(B)----非常重要,每年考到!!!

  3、如果A与B互斥,则A、B一定是不独立的 ,相反不一定成立。

  考试题型:1、给一段描述计算一个概率 2、给一段描述判断关系(互斥、独立)

  由乘法和加法法则可以得出 全概率公式:

  其中A1,A2,...,Aj互斥且遍历

  分析:

  A是研究问题中所关注的概率,如果得到新的信息B,可以依据新的信息来更新对事件A的概率的估计,即P(A|B)。P(A)为先验概率,P(B)为后验概率,公式中P(B)实际上用全概率公式计算。

  P(A|B)=P(AB)/P(B)=P(B|A)*P(A)/P(B)

  随机变量的统计量

  期望 Expectation

  1、定义:

  对于随机变量来说,在某一时刻其取值并不确定,已知的仅是可能的结果以及对应的概率。在不考虑成本情况下,期望收益应该为加权平均(计算来源于赌博,比如赢的概率是60%,赢20,输的概率40%,输10,则期望的概率(其实就是加权平均)为:60%*20+40%*(-10))

  2、性质

  对任意常数:E(cX)=cE(X)

  对资产组合来说,资产组合收益率的期望等于组合中每个资产收益率的加权平均,权重为资产在组合中的占比。w1+w2+...+wn=1

  引出:二叉树工具

  其中 P(上涨)=60% P(EPS=1|上涨)=30% P(EPS=1 同时 上涨)=60%*30%=18%

  随机变量的方差与标准差

  求方差的本质,是求期望---- 对(Xi-/X)^2 的期望 下图黄颜色部分是考点!!!

  如果题目中提到数据的概率(权重)的话,则要用上图 方差的本质的这种计算公式来计算。

  在资产配置理论中,了解不同资产之间收益率的联动关系,就需要用到协方差和相关系数来度量。(资产配置中,资产A与资产B互相之间的影响)

  协方差 Covariance 度量不同资产之间的收益率联动性。

  定义:衡量两个随机变量,变化的方向性。 比如,两只股票的ruturn为 X、Y,从历史数据看,/X /Y都是向上增长 or 都是向下下滑的,计算出来的协方差Covariance>0。如果两个一个向上一个下滑,计算出来的Covariance<0。取值范围:负无穷到正无穷

  方差Variance的本质为求期望,即Var(X)=E[(X-/X)^2]=E[(X-/X) (X-/X)]

  协方差的公式就借用了这个公式 即:

  Cov(X,Y)=E[(X-/X) (Y-/Y)]

  也可以反推:自己和自己的协方差就是方差

  协方差矩阵图如下:

  如果题目的题干中给出了协方差矩阵图,那么Cov(Ra,Ra)就是Ra的协方差。见图红框。例题如下:

  两个资产协方差的正负就表示了两个资产的正相关/负相关。

  求期望的本质就是求加权平均!!!!!!

  展开后的协方差公式就是:

  相关系数 Correlation 每年必考!!!!!!

  1、公式:(分母是标准差,开根号出来的也就是分母大于0)

  2、含义:衡量两个随机变量之间的线性关系。

  3、范围:值取【-1,+1】

  4、取特殊值的含义:

  取+1,代表完全正的线性关系,变化方向完全正相关

  取-1,代表完全负的线性关系,变化方向完全负相关

  取0,代表没有线性关系,但是不能说两个变量完全独立(但是两个变量完全独立,Correiation取值必然为零)

  Correlation绝对值越接近1,线性关系越强;Correnlation绝对值越接近0,线性关系越弱。

  5、缺陷:

  只能确定线性关系,有其他关系时无法用Correlation衡量;

  出现异常值outlier时(散点图显示绝大部分趋于线性关系,但是有异常值出现时,Correnlation的取值的绝对值非常小)影响准确性:偶然现象排除异常值;如果异常值(比如次债危机)出现关键信息,则要考虑异常值。

  伪相关Spurious Correlation:万物之间有联系,两组毫不相关数据也有可能出现相关关系数据,这样的现向叫做伪相关,比如标普指数和天气

  投资组合的收益和风险Portfolio Return and Risk

  投资组合的期望收益 Expected return ---加权平均

  投资组合风险 (标准差) Standard deviation

  只考两个资产做组合,做风险(标准差)评估,可以由上推导出:----------必考!!!!!!!!!

  其中:相关系数Correlation:

  记忆方法:

  1、完全平方和公式(A+B)^2=A^2+B^2+2AB 其中这个AB相乘时候要加上AB之间的关系系数(协方差)。

  2、协方差矩阵图

  权重、协方差

  如果是三个资产:

  考点:

  1、计算

  2、结论:

  把Correlation取出的原因,是因为其范围在[-1,1]之间取值,体现性质:

  Correlation=+1则两个资产完全正相关,标准差(风险)等于两个资产取权重相加

  Correlation=-1则两个资产完全负相关,标准差等于两个资产取权重减绝对值,如果此时标准差(代表风险)等于0,表示资产组合完全无风险No risk

  Crrelation取值+1 时候,组合方差最大,风险最大;Crrelation取值11 时候,组合方差最大小,风险最小。也就是Crrelation从+1到-1逐渐减小的过程中,方差逐渐变小,意味着风险逐步降低,也可以说是投资组合分散化效果越来越好。

  可以理解成极端风险厌恶者选择资产组合配置时候,尽量选择两两资产的相关系数Correlation趋近于-1,完全线性负相关(比如美金和大宗商品(原油)组合)

  对于n个资产,对组合方差(风险)有影响的变量:单个资产的权重、单个资产的方差风险、两两资产之间的相关系数。同时当n数量上升,Risk下降,同时两两资产之间的相关系数影响投资组合风险更大(比如资产n=500,单个资产的风险方差有500个,但是500个资产各自两两资产之间的协方差有十万多个)。

  贝叶斯公式 Bayes' Formula 乘法法则的逆运算 隔三差五考一次

  P(AB)=P(A|B)*P(B)=P(B|A)*P(A)

  例题1

  已知嫌犯撒谎的概率为0.8,当嫌犯撒谎时,测谎仪测出撒谎的概率为0.85,;嫌犯没有撒谎时,测谎仪测出撒谎的概率为0.1.问 当测谎仪测出嫌犯撒谎时,嫌犯确实撒谎的概率为多少?

  解:事件A 测谎仪测出结果为撒谎

  事件B1 嫌犯撒谎 事件B2嫌犯没撒谎

  得到题目符号化:

  已知P(B1)=0.8 、P(B2)=1-0.8=0.2 、P(A|B1)=0.85 、P(A|B2)=0.1 求P(B1|A)

  则:P(B1|A) = P(B1A)/ P(A)

  P(A)=P(AB1)+P(AB2)【说明:B1、B2互斥且遍历】

  =P(A|B1)P(B1)+P(A|B2)P(B2)=0.85*0.8+0.1*0.2=0.7

  P(B1A)=P(AB1)=P(A|BI)P(B1)=0.85*0.8=0.68

  P(B1|A)=0.68/0.7=97.14%台湾剧

  做题方式:

  公式法:1、设字母 2、字母代入条件 用表达式表达出题干和问题 3、代入公式运算

  二叉树法

  计数法则 Role of Counting

  从n个元素中任取r个元素:

  组合Combination 不区分取出元素的次序

  乘法计数法则 Multiplication Role of Counting

  一项工作分为k个步骤,每个步骤有n(i)个办法,则完成工作的总的办法有n1 * n2 * ... *ni种办法,即办法数量就是每个办法数量相乘。

  分房间问题:n! 给n个人分到n个不同房间的办法

  多项式公式 Multinomial Formula

  标签问题,将n 个物品分为k类,第i类n i个物品,n1+n2+...+ni=n,方法有n!/(n1! n2! ...ni!)种

  第i类的ni个物品不用内部排序

  组合公式 Combination Formula

  将n个物品分为两类,第1类r个,第2类n-r个

  2. 排列Permutation 区分取出元素的次序

  分房间--贴标签--组合(即两种方案的贴标签)---排列(考虑先后顺序的两种标签的贴标签)

  考试考点:

  1、分清排列和组合 C 组合 不考虑顺序 ;P 组合 要考虑顺序(order)

  2、考试只考排列和组合

  PATR 4 常见概率分布 Probability Distribution

  对于随机变量--有概率---概率分布图

  离散型随机变量 Discrete Radom Variable :取值可数Can be countable

  P(X)=0代表完全不会发生,=1表示一定会发生

  连续型随机变量 Continuous Radom Variable 不可数(取值无穷) Outcomes is infinite

  P(X)=0 即使X发生

  研究P(X1<X<X2)才有意义,即一定要研究取值上下限发生的概率

  概率密度函数 Probability density function,PDF 就是来研究连续性随机变量的取值范围对应的函数,符号记为f(x)

  f(x)非负,f(x)与x围成的面积等于1

  累积概率分布函数Cumulative Distribution function CDF符号记为F(x):

  F(x) = P(X<=x)

  用密度函数的面积来表示概率

  F(-无穷)=0 F(+无穷) =1

  F(x)单调递增

  P(X1<X≤X2)=F(X2)-F(X1)

  离散分布 Distribution

  离散数据分布 Discrete Distribution

  离散j均匀分布 Discrete uniform distribution

  特征:取值可数 每一个取值取到的概率相等 P(x)=1/n

  二项式分布 Binomial distribution -------常考内容,本章重点!!!

  (1)伯努利随即变量:

  P(Y=1)=p P(Y=0)=1-p(1代表完成,0代表失败)-----进行了一次实验(抛了一次硬币)

  (2)进行n次实验,就是二项式分布 Binormial distribution:

  公式推导:

  ①实验总数n次,成功x次

  ②计数法则,不考虑顺序,使用组合概念 得到:nCx

  ③单次成功概率p,x次成功概率就是p^x,计入乘法法则

  ④但是不要忘记,还有n-x次没成功,只计算成功次数的概率并不能分化没有成功里面不能有成功的现实,所以一定要追加乘法法则,即单次不成功概率(1-p),x次不成功概率就是(1-p)^(n-x),同样必须就乘法法则。

  ⑤最终相乘得到概率结果也就是如上二项式公式

  考试中要掌握的内容:

  ①伯努利和二项式分布的对比 相同点:2种结果 不同点:伯努利只做一次实验 二项式分布不止一次。

  ②计算公式 如上

  伯努利实验的均值、方差计算方法:

  P(Y=1)=p P(Y=0)=1-p

  均值就是每个结果(取值)乘以概率(权重)再求和:E(Y)=1*p+0*(1-p)=p=/Y

  方差Var(Y)=E[(Yi-/Y)^2]=p*(1-p)^2+(1-p)*(0-p)^2=p(1-p)

  而二项式分布就是n次单独独立的伯努利实验

  均值 E(X)=E(Y1)+E(Y2)+...+E(Yn)=p*n

  方差 Var(X)=n*E(Yi)=n*p(1-p)

  

  连续均匀分布 Continuous Uniform distribution

  1、基本特征: 连续随机变量取值不可数+均匀(取到每个取值的概率是一样的)

  2、计算:计算概率就是要取上下限,计算出面积就是概率( 连续型变量概率符合概率密度函数F(x) )

  即:For all a ≤ x1 ≤ x2 ≤ b 全部取值完整范围为a-b时

  P(b-a)=1

  P(x1≤X≤x2)=(x2-x1)/(b-a) 底乘以高(完整面积是1.完整底是b-a,则高固定为1/(b-a))

  P(x<a or x>b)=0

  连续性随机变量的 正态分布 Normal Distribution 本章最重点

  密度函数图形the shape of the density function:

  基本性质

  对于正态分布的公式,决定正态分布的变量是均值、方差。提到一个正态分布,就一定要提到它的均值是多少,方差是多少。记做(注意,是方差,也就是标准差的平方!!):

  对正态分布函数的图形,是对称图形 Symmetrical ,所以偏度skewness=0;也学习过峰度kurtosis=3

  如果随机变量X服从正态分布,随机变量Y服从正态分布,那么X和Y的线性组合也服从正态分布

  永远不和X轴相交,即概率取值永远大于0

  置信区间Confidence Intervals

  定义: 落在 某个区间 的 概率 是多大(也就是切比雪夫不等式的应用,当然,切比雪夫不等式是取了一个极限值,对于标准正态分布,更准确的值如下且满足切比雪夫不等式----- 均值左右各k个标准差的取值概率确定 [μ-kσ,μ-kσ] )

  有一个k值,就对应一个区间,得到区间概率,常用的4组值为:

  k=1 对应 P=68% k=1.65 对应 P=90%

  k=1.96 对应 P=95% k=2.58 对应 P=99%

  标准化

  标准正态分布 Standard normal Distribution

  μ=0 , σ=1 即标准正态分布函数N(0,1),也记为 Z

  公式变形基础:E(x)=μ 则 E(ax+b)=aE(x)+b=aμ+b

  Var(x)=σ^2 则 Var(ax)=a^2 * σ^2 ,每组数据加减相同常数的话,不影响离散程度,也就是说常数的方差等于0,所以Var(ax+b)=a^2 * σ^2

  也就是说对x进行(x-μ)/σ的变形,则回归到标准正态分布!!!

  同样可以理解为:将μ设为新坐标轴的原点,再将x轴的每个单位坐标收束变为1/σ倍

  调整为标准正态分布的原因为:方便查表,给出一个正态分布表,然后将其标准化,查表得到累计概率Cumulative Probability. 。注意,查的是累计概率,也就是P(X)

  考试题型,求概率

  步骤:①标准化 先看 μ,σ的值(此处注意标准差要方差值开根号!)

  ②核定范围进行查表核算。(此处注意负号!!利用图形的对称性进行核算!)

  例题:每年必考题型!!!!!!

  已知 X∽N(2,9),求 P(3≤x≤4)

  解:μ=2,σ=9^(1/2)先标准化即 P(3≤x≤4)=Z( (3-2)/3 ≤ y ≤ (4-2)/3 )=Z(0.33≤y≤0.67)

  再计算查表求概率 =Z(0.67)-Z(0.33)=0.7486-0.6393=10.93%

  1:上下限均为正

  2、上下限均为负:

  3、上下限一正一负

  2个推导出的公式:

  F(-z)=1-F(z)

  P(Z>z)=1-F(z)

  分布分为两种类型的分布:

  单变量 Univariate distribution 比如单只股票的收益分布

  多项变量 Multivariate distribution 比如标普500

  考虑同时发生的概率,如果全部服从正态分布那他们的线性组合也符合正态分布。

  把两个分布都转化成正态分布,三维空间中,查立体阴影的体积

  资产收益率多项分布的三类参数:每个资产收益率的均值;每个资产收益率的方差,资产收益率两两之间的相关系数(n 个资产之间的 系数个数为 nC2=n(n-1)/2 )

  第一安全比率Safety First Ratio

  亏空风险Shortfall risk :资产收益率在一段时间内低于最低可接受水平的概率。注意注意:亏空风险是一个概率!!

  如果收益率服从正态分布,亏空风险就是P(R<RL),

  RL=Threshold level return / Mimimum acceptable level

  亏空风险越小越好。

  罗伊第一安全比率 Roy's Safety-Firest Ratio ,SF ratio

  在进行投资时必须最小化亏空风险,也可以通过最大化Roy's Safety-First Ratio 来实现

  其中,E(Rp)为资产p的均值,RL为资产p的最低收益接收水平,σp是资产p的标准差。

  与Sharp tatio夏普比率相对照,当RL=RF(期待值、期待收益率)时,第一安全比率就是夏普比率。(考试原题!!!)

  对于SF ratio 来说,值越大,客户面对的低于最低要求回报率的概率越小。---考点!

  对数正态分布Lognormal Distribution

  性质特征:

  如果 lnX 服从正态分布,则X服从对数正态分布 (不要记反了!) lnX∽N => X∽log

  正偏(右偏)Right skewed / Positive skewed (右长尾 偏度>0 mode<median<mean)

  对服从对数正态分布,随机变量X永远大于0,对应资产的价格 (资产价格大于0),所以相对于衡量收益分布,使用正态分布;在衡量资产价格(比如股票价格)分布时候,使用对数正态分布。

  反顾EAR 和 HRD (了解即可)

  参照EAR (Effective Annual Rate有效年利率)

  EAR是离散数据分布 ,当计息期数趋于无穷:

  而股票的Return(视为连续复利) 的HPR (Holding period Return持有期利率)

  可以推导出

  相对于总体参数的正态分布,当向样本数量选取时候,有三种分布:

  学生t分布 Students t-Distribution 特征如下:

  有且只有一个参数自由度,此分布的自由度是指在计算样本统计量能自由取值的个数

  其概率密度函数 Probability Density Function ,PDF的图是对称的钟形曲线,相对于正态分布尖峰肥尾,即偏度Skewness>0、峰度 kurtosis>3

  当t分布的自由度增加并趋于无穷大时,PDF无限趋近于标准正态分布

  卡方分布 Chi-Squar Distribution 特征如下:

  概率密度函数(Probability density Function,PDF)非对称

  Chi-Squar Distribution的自由度是n-1 (n是Sample statistics 的个数)

  Chi-Squar Distribution的样本取值不取负值

  当自由度增大,PDF趋向于钟型

  F分布 F-Distribution 特征如下:

  F分布是以0为界的非对称分布,有两个自由度定义,称为分子自由度和分布自由度

  当两个随机变量X1 ,X2服从卡方分布,自由度分别是m,n,则随机变量F=(X1/m)/(X2/n)服从F分布,且服从分子自由度是m,分母自由度是n的F分布

  当自由度增大,PDF图形趋于钟形

  模拟 Simulation

  1、定义:用一组数据模拟出值

  举例:有金融产品定价的核心公式(未来现金流折现求和)中核心参数r。r一般为市场利率。

  找到过去100个月的r取值,得到r的分布,得到r的平均价格更具备真实参考意义。

  2、需要掌握的模拟方式:

  历史模拟 Historical Simulation

  也就是用历史数据推导模拟。缺陷:如果选用数据中没有极端数据,最后得到的结果不够准确。

  蒙特卡洛模拟 Monte Carlo Simulation

  如果全部使用历史数据进行模拟,缺陷明显,这时候加入相关极端数据的取值,进行全面的假设分布。然后再得到平均价格分布。--->全面可能情况,假设出分布,也就是蒙特卡洛Simulation

  应用:养老规划基金经理,考虑到生存年龄所有可能

  特征:

  ①给予假设出来的分布 Based on their assumed distributions

  ②缺陷:加入假设,相对来说比较复杂 It's fairly complex

  不是统计出来的结果,不能确定可分析意义

  两个模拟办法优点缺陷互补

  PART 5 抽样与估计 Sampling & Estimation

  1.Sampling:

  Simple radom and stratified radom sampling

  Time-series and cross-sectional data

  Central limit theorem

  Standard error of the sample mean

  2.Estimation

  The desirable peroperties of an estimator

  Confidence interval estimate

  3.Student‘s t-distribution

  4.Five kinds of biases

  一、抽样

  概率抽样 Probability Samples

  简单随机抽样Simple Radom Sampling公平原则:每个个体被抽中的概率是一样的

  分层随机抽样Stratified Radom Sampling 先划分不同类别,每个类别进行简单抽样得到样本

  整群抽样Cluser sampling将总体划分成子总体

  非概率抽样 Non-Probability Samples

  便利抽样Convenience Sampling依据得到数据的容易程度挑选样本

  判断抽样Judgmental Sampling依据专业和指示选择性挑选样本

  抽样误差 Sampling error 抽样误差只能在一定程度上减少而无法避免

  sampling error of the mean = sample mean - population mean 抽样误差均值等于样本均值减去总体均值

  最重要一句话:样本统计量(/X ,X拔,样本均值)本身就是一个随机变量,因而存在概率分布 The sample statistic itself is a radom variable and has a probability distribution

  抽样偏差Sampling Bias在抽样过程中有可能产生各种偏差,从而基于样本得出错误的结论

  数据挖掘偏差 Data-snooping Bias把偶然当必然

  样本选择偏差 Sample Selection Bias由于这样那样的原因排除了一些样本数据,比如进不去马云的豪宅排除了其情况而推导杭州的豪宅情况

  幸存者偏差Survivorship Bias 取得信息的渠道,仅来自于幸存者,信息与实际情况不同,未幸存者已无法发声。Heedeg fund 对冲基金收益(无法继续的基金无法选择)

  前视偏差Look-Ahead Bias使用了预测时候尚且不确定的信息,在这个时间点用的数据得不到,未来才能得到。比如对财报数据(次年年报推迟披露)的使用

  时间段偏差Time-Period Bias时间段偏差结论只在特定时间段成立,不能推广到所有时期

  抽样数据的分类

  时间序列数据 Time-series data 特征:同一公司,不同时间的数据

  剖面数据(横截面数据)Cross-sectional data 特征:同一时间,不同公司的数据

  二、估计

  估计方法,在取样之后,就要对样本统计量进行估计,推导总体参数。估计的方法有:

  点估计Piont Estimate

  表述:利用样本统计量Sample Statistic 来估计总体参数Parameter,也就是用样本均值/X来估计总体均值μ。

  估计量的判断标准(一个好的估计量应该有什么性质)Desirable Properties of Estimator:

  ①无偏性 Unibiasedness:E(/x)=μ 样品本统计量的期望值等于总体参数

  ②有效性 Efficiency 在所有无偏样本统计量中,方差最小的最有效(离散程度更小,紧紧围绕在均值附近)。前提必须是建立在无偏性基础上,都无偏则方差最小的最有效。

  ③一致性 Consistency 当样本容量增大时,样本统计量逼近总体参数的概率上升(注意是逼近的概率上升),当样本容量增大时,标准误的值变小,一致性更好。

  点估计方法(看样本均值服从什么样的分布):

  中心极限定理Central Limit Theory ---大重点

  Central Limit Theory 讲的是/X服从什么样的分布

  定理都是有条件的,central limit theory的条件:

  n≥30 样本容量Slection of Sample Size足够大

  总体均值、方差是已知的,即μ,σ^2已知。

  结论:

  /x∽N 样本均值服从正态分布

  样本均值服从正态分布,对此正态分布,该分布的均值=μ(Unbiasedness 满足无偏性),该分布的方差=σ^2/n,即:

  σ/(n^0.5)称为标准误 (样本均值的标准差)Standard Error--每年都考!!!!

  当总体的标准差未知,用样本的标准差s来代替σ。

  区间估计Confidence Interval Estimate

  表述:估计未知总体参数的取值范围。(估计有多大把总体参数落在一个置信区间内)

  方法:

  置信区间:以点估计量为中心上下限设定为加减置信因子Reliability Factor个标准误Standard Error.

  点估计量±置信因子(Reliability Factor)× 标准误 (Standard Error)

  ----------必考点!!!!

  方式:取/X 的无偏性。把/X 服从的正态分布 进行标准化。

  考点:

  ①计算

  ②宽度受哪些变量的影响 正相关:K σ 负相关:n

  其中:k的取值叫做置信度 Degree of confidence

  k值确定后,双尾被分开,被排除的尾巴面积成为显著性水平Significance level,记做ɑ.

  题目中经常给出置信度水平Significance level也就是ɑ的取值,要计算出执行区间Degree of cinfidence:k+ɑ=1

  t分布 Student's t-distribution

  基本性质:

  PDF概率密度函数图形对称 symmertica(无偏)

  决定t分布的自由度Dgree of Freedom,df =n-1

  t分布相对于正态分布,它属于低峰肥尾(离散程度也就是方差一样情况下出现尖峰肥尾)-------非常重要

  低峰代表:峰度kurtosis<3 肥尾代表:方差(离散程度)比较大,也就是σt>1

  当自由度df增大时,t分布逐渐接近于正态分布,峰度变高,尾部变小,t分布方差变小并趋近于1

  正态分布可以视为t分布的特殊极端情况

  在相同的Significance level 显著性水平下,t分布的置信区间宽于正态分布

  确定置信区间,如何判断是使用正态分布还是t分布

  1、方差已知 用Z

  2、 方差未知 用t

  2、非正态总体小样本不可估计

  3、n>=30,任何情况均可用Z

  根据中心极限定理的条件(1、样本空间足够2、均值方差已知):

  点估计测量判断标准考量一致性,需要样本空间足够大,小样本总体不适用Z分布

  正态分布满足无偏和有效

  正知Z不知踢t不正又小不做足够大必做

  PART 6 假设检验 Hpthothesis testing 难点 重点!!!!

  方式:先假设是正确的,再想办法检验争取的概率。====核心思想类似于反证法

  逻辑性强,环环相扣

  Critical Value methods

  Null hypothesis and alternative

  Hythesis

  Identify the approiate test statistics

  Critical Value

  Decision rule

  P-value methods

  Type I and Type II errors

  parametrical test & non-parametrical test

  假设检验Hypothesis test检验性执法过程

  流程:第一步:建立一个检验的假设 State null and alternative hypothesis 假设平均身高170

  第二步:选择合适的检验统计量,并确定其服从的分布 Identfy the test statistic找到一个检验方法

  第三步:选择假设是否成立的显著性水平select a level of significance设定检验的标准,关键就是找到k值,来选择一个置信区间

  第四步:陈述判断准则Formula a decision rule陈述一下判断的准则是置信区间内还是区间外

  第五步:收集数据,计算检验统计量 Take a sample arrive at decision 计算是否在置信区间内

  第六步:做出判断 Reject / Do not reject

  第七步:进行决策

  以下所有课程逻辑都是按照这个步骤一步一步来进行的推导完成。重点逻辑就是按照步骤流程一步一步来。

  了解流程 再学习怎么使用流程

  Step1 --建立一个检验的假设

  涉及到的名词:

  原假设null hypothesis(也叫0假设 虚假设) 用H0表示

  备择假设 Alternative hypoehesis 用Ha表示

  H0和Ha是一个互补的关系

  什么放在原假设里,什么放在备择假设里的表述方式未:想要拒绝的放在原假设中H0,把想要接受的放在Ha中

  做假设都是给总体参数μ做假设。

  平时做假设时候是分为单尾检验和双尾检验One-tailed and two-tailed test of hypothesis的,

  单尾的意思是 拒绝域在一边

  双尾的意思是 拒绝域在两边

  判断单尾还是双尾的方法:看备择假设,如果Ha的式子里是不等号,则是双尾假设检验,只有大于或者小于号,则是单尾检验。

  如果备择假设的符号是大于号话。拒绝域在右边。反之是小于号的话,拒绝域在左边。

  等于号一定在原假设中!!!

  考点:

  ①原假设和备择假设 的区别

  ②学会区别双尾和单尾假设

  Step2:-----选择合适的检验统计量,并判断其服从什么样的分布

  检验统计量是检验的方法

  用/X 检验总体参数μ,看/x是否落在置信区间里,要想测算要先看/X服从什么分布

  /x服从正态分布 ,对该正态分布标准化也就是/x减去均值 再除以标准差 (此处标准差就是标准误)服从了正态分布Z,Z落在置信区间里则不可拒绝原假设,落在区间外,则拒绝原假设

  对总体均值μ做检验的检验统计量

  在原假设中设出μ,如果总体的标准差是知道的,也就是总体方差已知,总体已知用z,未知用t,样本方差代替总体方差。检验统计量也是个随机变量,也是有分布的,他一般服从正态分布。也就是/X本身不确定,则检验统计量也是随机变量。检验统计量是可由公式计算出来的。

  对样本均值/X 标准化后的Z分布

  首先,有个变量,计算出样本统计量,减去原假设中总体中的参数,再除以样本的标准误。得到样本统计量!

  Step3---设置检验的标准。设置置信区间,就要研究k值,k值被称为关键值Ciitrical Value

  K 关键值Critical value影响因素:与显著性水平、置信度Significence level、Degree rate有关,也就是与α、1-α有关

  单尾 α=5% k=1.96 双尾:α=10% k=1.65(考点!!!)

  α=0.5% k=2.58 α= 1% k=2.58

  α=2.5% k=1.96 α=5% k=1.96

  α=16% k=1 α=32% k=1

  统计学要严谨:不能拒绝原假设或者拒绝原假设

  在N(0,1)分布的情况下,确定α假设检验考试做题步骤:

  1、设定假设 H0 Ha

  2、画分布 确定对什么检验 是 μ,方差 σ^2,还是ρ

  3、找到拒绝域 (看是单尾检验还是双尾检验),标识出来

  4、 找到拒绝域的面积

  5、查表计算出k值

  6、计算检验统计量,减去均值除以标准误

  7、比较k 和z的大小,如果z 在区间内 不能拒绝 在区间外拒绝原假设

  8、做出判断

  考试考点:

  1、设假设,判断单尾检验还是双尾检验,看>,<,(单尾)=(双尾)

  2、判断分布,看总体样本量

  3、看k的影响因素①显著性水平②查表③看但我还是双尾

  4、计算检验统计量,一般形式就是标准误

  5、综合性题目:α 已知,计算z/t判断

  判断分布:大难点!超重点!

  (一)对总体均值进行检验

  1、对一个总体均值进行检验 单个正态分布的总体方差已知用z,方差未知用t,非正态总体小样本无可用,对任何N大于等于30均可用z

  2、对两个总体均值进行检验

  用t分布,t分布在实务中应用比较多,z分布计较极端

  两个总体之间独立的 检验统计量只需要两个总体均值记住使用t分布即可

  两个总体之间关联的 一对一对的进行检验,叫做成对数检验Parires Comparitsond Test检验统计量只需要两个总体均值记住使用t分布即可,分成两个总体之间方差是否相等,公式要学会记:

  检验 H0:μX=μY 做个变形 d=μY-μY转换成d 也就是可以转换成检验是否等于0 即:H0:μd=0 也就是检验μd是否等于0 /X变成/d μ变成μd

  (二)对总体方差进行检验

  对一个正态分布总体方差进行检验 用卡方分布(相当于正态分布求了一个平方)记住用卡方分布

  对两个正态分布总体方差进行检验,用F分布(用方差相除)经常考什么时候用F分布

  (三)对两个总体的Corretion进行检验

  通过计算两个总体检验后相关系数检测出来后,对两个主体的相关系数进行检验,检验中原假设设为corretion =0 ,相关系数服从t分布(自由度df=n-2查表要认真注意!!!!)。注意记忆!!!

  如果拒绝原假设,则两个总体之间的相关系数是显著不等于0的,简单记为Corretion是显著的

  公式:

  P-value method

  1、定义:当拒绝原假设时最小的显著性水平,拒绝原假设的最小α 本质是概率

  取值范围:【0,1】

  假如计算检验统计量,双尾尾巴上的面积之和就是p- value

  2、判断准则 p和α进行比较,p对应的双尾面积>α 则不能拒绝原假设,p值对应的双外面积=α完完全全 可以拒绝原假设,P值越小越拒绝。

  第一类错误 type I erro---必考点!!!

  把原假设分成两个状态 一种是正确的,一种是错误的

  拒绝正确的 是第一类错误,拒真(错杀好人)

  接受错误的 是第二类错误,受伪(放走坏人)

  则:拒真概率p(I)=α

  受伪概率p(II)=1-α(统计检验力 power of test 与第二类错误有关)

  p(I)+p(II)概率之和不一定等于1,第一类错误的概率与第二类错误概率此消彼长

  希望两种错误都下降方法就是样本铜梁都增大!!

  参数检验parametrics test

  参数检验都与总体参数有关

  参数检验一般事先假定总体分布服从某个分布

  非参数检验nonparametrics test

  总体分布未知,或者样本数据(比如非正态小样本)并不满足某个特定分布

  按照等级分类的数据When data is given in ranks

  假设不涉及总体参数,也就是检验的不是参数(例如:检验+++----)

  如果想要检验两个总体是否存在关系,可以使用卡方分布的非参数检验统计量进行检验。

  总结:

  一、关键值测量 Criticlal Value metod 掌握5种题型的八个解题步骤

  1、设假设

  2、判断分步:

  3、k值的影响因素

  4、计算检验统计量 z/t (s-H0)/标准误 s^2/n^0.5

  5、判断拒绝还是不拒绝

  二、p值 计算

  1、定义α

  2、判断准则 p值越小越拒绝。

  三、第一类错误 拒真 第二类错误 受伪

  PART7 一元线性回归Simple linear regression

  举报/反馈