R语言知识文章关闭所有内容预览 | 展开所有内容预览
-
[组图] 均匀分布及在R语言中的实现
[内容预览]
9744 | 2020-07-18
均匀分布也称矩形分布,是最简单的一种连续型分布。 一、均匀分布 若随机变量X的概率密度函数为: 则称X服从区间[a, b]上的均匀分布,记为X~U[a, b]。 概率密度图像如下图所示: 其分布函数为: 分布函数是概率密度函数从负无穷到正无穷上的积分;在坐标轴上,概率密度函数的函数值y表示落在x点上的概率为y;分布函数的函数值y则表示x落在区间(-∞,+&inf...
[阅读全文]
-
[组图] R语言中使用箱线图检测数据的异常值并进行标注
[内容预览]
5171 | 2020-07-14
箱线图概述 箱线图又称箱形图或盒须图,主要从四分位数的角度来描述数据的分布。一个箱线图由上边缘线、上四分位数(QU)、中位数(me),下四分位数(QL)和下边缘线组成。 上、下四分位数之差称为四分位差,或内距或四分位数间距,记为IQR: IQR = QU - QL 箱线图中盒子的上、下线分别是上、下四分位数,盒子中间的线是中位数。由触须延长的上、下边缘线分别为: 上边缘线的值 = ...
[阅读全文]
-
[组图] 泊松分布及在R语言中的实现
[内容预览]
24751 | 2020-07-01
泊松分布(Poisson Distribution)是一种离散型概率分布。泊松分布是描述某一特定时间或空间段内,某一事件发生的次数的分布。如机器每周发生故障的次数,某医院妇产科2小时内出生的婴儿个数,某服务台在某时间段内到达的顾客次数等。 一、泊松分布律 泊松(Poisson)分布的分布律为: 其中,则称X服从参数为的泊松分布,记为或。 这里的P即为等同区间内事件发生k次的概率; X...
[阅读全文]
-
标准分数法检测数据的异常值及在R语言中的实现方法
[内容预览]
3502 | 2020-04-27
一、异常值的概念 在数据处理与应用中(如训练机器学习算法或应用统计技术),错误值或异常值通常会造成测量误差或异常系统条件的结果。 有时数据集中含有一个或多个异常大或者异常小的观测值,像这种极端的值被称为异常值。通常异常值产生的原因可能有: (1)观测、记录或录入时不正确; (2)测量值来自不同的总体; (3)测量值是正确的,但代表一个稀有或偶然的事件。 二、异常值的判断之标准分数法 ...
[阅读全文]
-
伯努利分布、二项分布及在R中的实现
[内容预览]
7962 | 2019-09-30
1、伯努利分布 在我们实际生活中,许多事件发生的结果存在着非此即彼的现象,如抛硬币,正面朝上的结果不是“是”就是“否”,或“正”或“反”;出生婴儿的性别一般是“男”或“女”,抽奖的结果不是“中了”就是“没中”等。这些事件可以被称为伯努利实验。 伯努利分布(Bernoulli distribution)又名两点分布或0-1分布。伯努利分布是一个离散型的随机分布,其中的随机变量只有两类取值。伯努利...
[阅读全文]
-
R语言中grep函数的使用方法
[内容预览]
15831 | 2019-09-10
R语言中的grep函数可以在给定的字符串向量中搜索某个子字符串。 其语法格式如下: grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE, fixed = FALSE, useBytes = FALSE, invert = FALSE) 各参数的含义如下: (1)pattern: 字符串类型,正则表达式,指定搜索...
[阅读全文]
-
方差分析中的交互效应图
[内容预览]
7233 | 2019-04-26
在进行双因素方差分析中,我们在考虑两个因素之间是否存在着交互作用时,我们还可以借助交互效应图来直观的进行判断。 在图中,将某一因素(假设A)作为横轴,用另一因素(假设为B)各水平在目标问题(因变量)上的均值作为纵轴取值,并用线段依此将各点连接起来。 R语言中绘制交互效应图的函数 在R语言中可以使用interaction.plot()函数来绘制交互作用图,该函数的原型如下: interact...
[阅读全文]
-
使用R语言进行有交互作用的双因素方差分析
[内容预览]
12700 | 2019-04-21
在前面文章中介绍了双因素方差分析的相关知识以及无交互作用的双因素方差分析的相关理论,并给出了R语言的相关代码。本文将进一步介绍一下有交互作用的双因素方差分析方法,并在R中实现的基本方法。 关于无交互作用的方差分析方法,可参见本站的文章:使用R语言进行无交互作用的双因素方差分析 在实际中,两个因素往往对要研究的问题存在着交互影响,如适当的施肥量和降雨量对农作物的产量存在着交互影响。 有交互作用...
[阅读全文]
-
使用R语言进行无交互作用的双因素方差分析
[内容预览]
4294 | 2019-04-03
双因素方差分析就是考虑两个因素的方差分析,两个因素可以称之为因素A和因素B,设因素A有r个水平A1,A2,...,Ar,因素B有s个水平B1,B2,...,Bs. 双因素方差分析有两种类型: 一种是无交互作用的双因素方差分析,它假定因素A和因素B的效应之间是相互独立的,不存在相互关系; 另一种是有交互作用的方差分析,它假定A、B两个因素不是独立的,而是相互起作用的,两个因素同时起作用的结果不...
[阅读全文]
-
R语言中进行多重均值检验的方法
[内容预览]
8859 | 2019-03-28
本站在《使用R语言进行单因素方差分析》一文中介绍了在R语言中使用aov函数进行方差分析的方法,并给出具体的例子讲解了该函数的使用方法及其正态性检验和方差齐性检验的方法。在实际中,在进行单因素方差分析时,可能检验结果拒绝了零假设,即因素A的r个水平效应具有显著的差异,也就是说r个均值之间有显著区别。但这并不能说明r个均值之间都会存在这个显著差异,只能说明至少2个总体的均值有显著差异。那么,到底是哪些...
[阅读全文]
-
使用R语言进行单因素方差分析
[内容预览]
6627 | 2019-03-27
1、方差分析的基本概念 方差分析(Analysis of Variance, ANOVA),由英国统计学家费雪(Ronald Aylmer Fisher)于1920年前后提出,最初主要应用于生物和农业田间试验,后来推广到各个领域。 它直接对多个总体的均值是否相等进行检验。 方差分析能够解决多个均值是否相等的检验问题。 方差分析是要检验各个水平的均值是否相等,采用的方法是比较各水平的方差。 ...
[阅读全文]
-
使用R语言进行线性相关分析
[内容预览]
13310 | 2019-03-13
一、相关分析相关理论 1、什么是相关关系 相关分析(correlation analysis),从数量上分析现象之间相关关系的理论和方法。 现象之间的关系可以分为确定关系和非确定性关系。 确定性关系,可以说是函数关系,也就是说对于某一变量的每个数值都有另一变量的完全确定的值与之对应。 非确定性关系,即这里所说的相关关系,现象之间存在一定的依存关系,但不是一一对应的关系,即相随变动关系。 ...
[阅读全文]
-
使用R语言对两独立样本进行t检验
[内容预览]
25677 | 2019-03-06
1、什么是两独立样本t检验 根据样本数据对两个样本来自的两个独立总体的均值是否有显著差异进行判断。 2、使用的前提条件 (1)两个样本应该是相互独立的; (2)样本来自的两个总体应该服从正态分布。 3、问题描述 设总体x1服从正态分布N(μ1,σ12),总体x2服从正态分布N(μ2,σ22),分别从两个总体中抽取两组样本:(X11,x12,...,x...
[阅读全文]
-
使用R语言进行单样本t检验
[内容预览]
12522 | 2019-03-04
一、单样本t检验 单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。 (--百度百科) 在单样本的情况下,假设数据x1,x2,...,xn来自于服从N(μ,σ2)的独立随机变量。我们希望对假设μ=μ0进行检验。 对n个均值为μ,标准...
[阅读全文]
-
R语言中使用curve函数绘制常用函数曲线
[内容预览]
20486 | 2018-11-16
前面文章中介绍了使用plot函数绘制图形的方法。本文介绍一下使用R中curve函数绘制常见函数曲线的方法。 1、curve函数简介 curve函数语法格式如下: curve(expr, from = NULL, to = NULL, n = 101, add = FALSE, type = "l", xname = "x", xlab = xname, ylab = NULL, log = ...
[阅读全文]
-
在R语言中实现排列与组合
[内容预览]
14045 | 2018-11-12
所谓排列,就是指从给定个数的元素中取出指定个数的元素进行排序。组合则是指从给定个数的元素中仅仅取出指定个数的元素,不考虑排序。(摘自百度百科) 一、定义与公式 1、排列的定义及公式 从n个不同元素中,任取r(m≤r,r与n均为自然数,下同)个元素按照一定的顺序排成一列,叫做从n个不同元素中取出r个元素的一个排列;从n个不同元素中取出r(r≤n)个元素的所有排列的个数,叫做从n个不...
[阅读全文]
-
R语言中求解线性方程组的方法
[内容预览]
8376 | 2018-10-15
在本站上一篇文章中探讨了在R中求解一元方程的方法,本文将进一步探讨R中求解线性方程组的方法。 设有n个未知数的m个方程的线性方程组: 可以抽象成下列的形式: Am×n Xn×1 = bm×1 对于该方程组 有唯一解的充分必要条件是R(A) = R(A, b) = n; 有无限多解的充分必要条件是 R(A) = R(A, b) < n; 无解的充分必要条件是 R(A) < R...
[阅读全文]
-
R中求解一元方程的方法
[内容预览]
5700 | 2018-10-14
在R中可以使用uniroot函数来求解一元方程。 R中uniroot函数的语法形式如下: uniroot(f, interval, ..., lower = min(interval), upper = max(interval), f.lower = f(lower, ...), f.upper = f(upper, ...), extendInt = c("no", "yes",...
[阅读全文]
-
在R语言中实现简单随机抽样
[内容预览]
2031 | 2018-10-12
关于抽样的基本概念 从总体中抽取样本的方法有很多种,比较常用的就是简单随机抽样。从容量为N的总体中随机抽取出容量为n的样本,每个样本被抽取到的可能性相等,则抽到的样本是一个容量为n的简单样本。 如果每次抽取的样本不放回到总体中,一直抽取到n为止,则这种抽样称为无放回抽样。 如果每次抽取到一个样本,做记录后,再将样本放回到总体,重复这个过程,直至抽满n个样本为止,则称这种抽样为有放回的抽样。 ...
[阅读全文]
-
R语言中使用stem()函数绘制茎叶图
[内容预览]
8526 | 2018-09-02
茎叶图概述 茎叶图(Stem-and-Leaf display)又称“枝叶图”,由统计学家约翰托奇( Arthur Bowley)设计,它的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。 茎叶图是一个与直方图相类似的特殊工具,但又与直方图不同,茎叶...
[阅读全文]
-
R语言中绘制箱线图
[内容预览]
5473 | 2018-08-16
箱线图 箱线图或箱形图是由5个特征值绘制而成的图形,其有一个箱子和两条线段组成。5个特征值是变量的最大值、最小值、中位数、第一四分位数和第三四分位数。连接两个分位数画出一个箱子,箱子用中位数分割,把两个极值点与箱子用线条连接,即成箱线图。箱线图的形式如下图所示: 图片来源于网络 在R中绘制箱线图可以使用boxplot函数。 boxplot函数的基本用法为: boxplot(x, .....
[阅读全文]
-
R语言中绘制饼图
[内容预览]
1864 | 2018-08-15
饼图英文学名为Sector Graph, 又名Pie Graph。常用于统计学模块。饼图显示一个数据系列中各项的大小与各项总和的比例。也就是说我们想直观的看某一样本值在所有样本总值中所占的比例时,可以使用饼图来表示。 在R语言中绘制饼图的函数为pie,其使用格式如下: pie(x, labels = names(x), edges = 200, radius = 0.8, clockwise...
[阅读全文]
-
R语言中使用par()函数实现同时绘制多幅图
[内容预览]
8797 | 2018-08-14
在R绘图时,有时我们想在一个绘图区中同时绘制多幅图。这时,par()函数就派上用场了。 当然实现同一绘图区绘制多个图形有多个方法,这里先介绍一下par()函数的使用。 R中的par()函数可以将绘图区分割成规则的几个部分。 par()函数的作用主要是查询或设置绘图环境的参数。这里主要考虑使用它如何在一个绘图区绘制多幅图的情况。 多图环境用参数mfrow或参数mfcol来设定,如: par...
[阅读全文]
-
R语言中条形图绘制函数及使用
[内容预览]
3508 | 2018-08-13
条形图(bar chart)是用宽度相同的条形的高度或长短来表示数据多少的图形。它主要用来展示不同分类(横轴)下某个数值型变量(纵轴)的取值。条形图横轴上的数据是离散而非连续的。条形图可以横置或纵置。 在实际中,条形图主要有简单条形图,组合条形图和堆叠条形图。 在R语言的基础包中可以使用barplot()函数来绘制条形图。 R语言中barplot()函数的基本语法格式如下: barplot...
[阅读全文]
-
R语言中使用text()函数给绘图添加文字
[内容预览]
53049 | 2018-08-10
R语言中text()函数同abline()函数,lines()函数一样属于低水平函数,即在已有绘图中添加相关图形。 text()函数的作用是在给定的x和y坐标的位置添加字符串。 text()函数的默认使用格式如下: text(x, y = NULL, labels = seq_along(x$x), adj = NULL, pos = NULL, offset = 0.5, vfont =...
[阅读全文]
-
R语言中使用lines函数绘制直线
[内容预览]
29409 | 2018-08-09
在上一篇文章中介绍了abline()函数的使用方法。abline函数主要在当前图中添加一条直线,该直线可以通过给定截距和斜率,或者垂直于横轴或纵轴的向量,或者是回归对象等。 lines()函数也是一个低水平绘图函数。它主要是在当前绘图中通过线段依次将点连接起来。 其语法格式为: lines(x, ...) 默认格式为: lines(x, y = NULL, type = "l", ......
[阅读全文]
-
R中使用abline函数在当前图中添加直线
[内容预览]
12541 | 2018-08-06
在R语言中,使用abline()函数可以在当前绘图中添加一条或多条直线。 在绘图中可以设置的参数一般包括:直线的截距(a),直线的斜率(b),水平线的纵轴取值(h)、垂直线的横轴取值(v)等。 abline()函数的使用格式为: abline(a = NULL, b = NULL, h = NULL, v = NULL, reg = NULL, coef = NULL, untf = FA...
[阅读全文]
-
R中计算方差与标准差
[内容预览]
10002 | 2018-08-02
1、概述 描述样本值的离散程度,最常用的指标是方差和标准差,它们与前面所说的全距(极差)只使用了两个极值情况不同,它们利用了样本的全部信息去描述数据取值的分散性。 2、计算方差的公式 方差是各样本相对均值的偏差平方和的平均。使用s2来表示,其公式如下: 当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均...
[阅读全文]
-
R语言中计算一组数据全距的方法
[内容预览]
3741 | 2018-08-02
1、全距 全距是统计学中离散指标的测度之一。 全距就是变量的最大值(xmax)与最小值(xmin)之差,也叫极差,表明变量的最大变动范围或绝对幅度。全距通常用R表示,即: R = xmax - xmin 全距一般只根据未分组数据或单项式数列计算。 全距是测定变量分布离中趋势最简单的方法,在实际中有较多的应用。如天气预报中的最高温度与最低温度的温差;股票市场中某股票每天的最高成交价与最低成...
[阅读全文]
-
使用R语言绘制散点图
[内容预览]
5250 | 2018-07-29
在R语言中可以使用plot函数绘制简单的散点图,在前面的一篇文章中,已经给出了plot函数的具体使用方法(参见R语言中plot函数的使用),在该文章中也给出了绘制散点图的方法。在这里,再给出一个例子,单独来介绍散点图的使用。 散点图(scatter diagram)是对两个数量变量间关系的图形表述。 某商店在过去三个月内10次利用周末电视广告来促销。管理人员想证实广告播放次数和下一周商店销售额...
[阅读全文]