好好上网

Nov 4, 2018

  1. 好好上网
  2. Mendeley
  3. github

统计基础

  1. 均值
  2. 方差
  3. 大数定理
  4. 中心极限定理
  5. 假设检验
  6. p-value定义

1. 好好上网,好好学习,好好提问

查文献

问问题:

2. Mendeley

学习资源几类 (每一个层次都需要动手做实践)

  • 视频
    • 万门,网易云课堂,coursera, Udacity
  • 教科书
    • 周志华老师《机器学习》
    • Ian Goodfellow 《深度学习》
    • W. Mckinney 《Python for data analysis》
  • paper论文或者小章节 (理论基础较好者,在有志学习深度学习以及人工智能时,应多读paper, 比如说)

<img src=’./libs.png’,width=400>

lalal

这么文件,如何管理?

试试Mendeley

<img src=’./Mendeley.png’,width=400>

<img src=’./Mendeley_user.png’,width=400>

3. Github

github

Github是程序员必备工具,作为版本控制(version control)和协同合作的利器,让人爱不释手。

  • 几个概念:
    • 缓存区
    • 代码库
    • 本地
    • 远端
  1. 安装github for windows, 注册账户
  2. 基本命令
    • git init, 建一个新的repository
    • git clone 克隆一个repository
    • git add 加入新的内容到缓存区
    • git commit 实际提交改动
    • git push 推送改动到远端
    • git checkout -b 做一个分支branch
    • git pull 获取并合并远端的版本 (fetch+merge)
    • git merge 合并其他版本, 遇到冲突怎么办?
    • git log 查看记录

参考资料

几个名词:工作区(workspace),暂存区(index),代码库(Repository),远端(Remote)

<img src=’git.jpg’,width=600>

看看github的workflow

<img src=’./createbranch.png’,width=600>

  1. 在主干master之外,建立新的branch
  2. 在本地修改,提交到暂存区
  3. 提交pull requests
  4. 群组讨论,进一步修改
  5. merge到master上面

上手练练

参考

Step1. 建立新的repository (本机)

1.1 本机建立repository: 在命令行中新建一个文件夹,进入文件夹后,使用git init进行初始化

1.2 添加一点文字文档内容,对本文件夹进行一定改动

Step2. 在远端建立repository, 并保存远端地址

Step3. 保存远端地址, 并在本地的command line命令行工具中,添加远端地址,这样就把本地和远端链接起来了

Step4. 将变动推送到主干master上

Step5. 创建新的分支branch, 同时进入该新branch

Step6. 查看过去记录

下面开始

Step1. 建立新的repository (本机)

  • 从0开始,git init开始

1.1 本机建立repository: 在命令行中新建一个文件夹,进入文件夹后,使用git init进行初始化

mkdir newgame

cd newgame

git init

<img src=’./git_init.png’,width=500>

1.2 添加一点文字文档内容,对本文件夹进行一定改动
使用jupyter notebook或者sublime或者记事本,在文件夹内新建一个文档,这时对本文件夹产生了变动.

检查变动,使用

git status

<img src=’./txt_new.png’,width=500>

1.3 将改动提交到暂存去,然后再交到代码库

git add ./

git commit -m ‘第一次改动‘

Step2. 在远端建立repository, 并保存远端地址 (需要先注册一个账号)

<img src=’./remote_init.png’,width=400>

Step3. 保存远端地址, 并在本地的command line命令行工具中,添加远端地址,这样就把本地和远端链接起来了。要链接起来,还有更简单的方式,直接git clone

git remote add origin ——————————–

<img src=’./remote_link.png’,width=500>

  • 这一步有更方便的办法,克隆已有的远端 repository,连最初的git initi也不用了,直接git clone —远端的地址=========——-

<img src=’./clone.png’,width=500>

Step4. 将变动推送到主干master上

git push -u origin master

Step5. 创建新的分支branch, 同时进入该新branch

git checkout -b ‘newbranch’

newbranch是新branch的名称,用户可以随意改动

如果要改回 master 主干,使用

git checkout master

Step6. 查看过去记录

git log

这个是标准的查看过去记录的语句

<img src=’./git_log.png’,width=500>

git的功能非常多,简单介绍了这几个,在以后工作中,还会有 git merge, git fetch, git pull, 等用法

统计基础

  1. 均值
  2. 方差
  3. 大数定理
  4. 中心极限定理
  5. 假设检验
  6. p-value定义

基础的均值与方差,在讨论回归的时候,很有意义,需要明确概念

我们在讨论假设检验的时候,先不要引入具体的概率分布,不要想t-分布, 而是直接从原假设与备择假设上面考虑。这次听不懂没关系,我们在下周的课程中,会专门讨论假设检验,p-value的定义及其应用

1.均值

\begin{equation}
\bar{X}n=\frac{1}{n}\left(\sum{k=1}^n X_k\right)
\end{equation
}

连续整体的期望值是

\begin{equation}
\mu = E\left(X\right) = \int xp(x)dx
\end{equation
}

2.样本的方差

\begin{equation}
S^2 = \frac{1}{n-1}\sum_{i=1}^n\left(X_i-\bar{X}\right)^2
\end{equation
}

整体的方差
\begin{equation}
Var(X) = \sigma^2 = \int \left(x-\mu\right)^2 f(x)dx
\end{equation
}

\begin{equation}
Var(X) = E[(X-\mu)^2] = E(X^2) - E^2(X)
\end{equation
}

3.大数定理

样本数量越多,则其平均就越趋近期望值

\begin{equation}
n\rightarrow \infty,
\bar{X}_n \rightarrow \mu
\end{equation
}

4.中心极限定理

中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。

5.假设检验

6.p-value
最具争议的统计概念
定义:在原假设成立的情况,出现观测值以及更极端情况的概率

<img src=’hypoth_testing.png’,width=750>