O mínimo de duas vezes o par de regressões lineares

Autora:Inventor quantificado - sonho pequeno, Criado: 2016-12-18 11:36:26, Atualizado: 2016-12-18 11:41:31

O mínimo de duas vezes o par de regressões lineares


  • ### Um, Introdução

Durante esse período, aprendi a fazer o jogo, e aprendi o jogo de regresso logístico do capítulo 5, que me pareceu bastante cansativo. A origem do jogo, desde o jogo de regresso logístico até o jogo de regresso linear do jogo, até o jogo de duplicado mínimo do jogo. Finalmente, o jogo foi configurado para o jogo de duplicado mínimo do jogo de matemática avançada (a sexta edição. O quadrado mínimo por quadrado é uma implementação do método de construção de fórmulas experimentais em problemas de otimização. Saber como ele funciona é útil para entender o quadrado de aprendizagem do quadrado de regressão Logistic e do quadrado de vectores.

  • ### Segundo, conhecimento de fundo

O contexto histórico do surgimento do quadratico mínimo do quadratico é interessante.

Em 1801, o astrônomo italiano Giuseppe Piazzi descobriu o primeiro asteroide, a estrela do vale. Após 40 dias de observações, o asteroide perdeu a posição devido ao seu trajeto para trás do Sol. Cientistas de todo o mundo começaram a procurar a estrela usando os dados de observações de Piazzi, mas não encontraram nenhum resultado com base nos cálculos da maioria.

O método de Gauss para o mínimo de duplicado foi publicado em 1809 em seu livro A Teoria do Movimento dos Órgãos Celestes, e o cientista francês Le Jeannard descobriu o mínimo de duplicado de duplicado de duplicado de duplicado de duplicado de duplicado de duplicado em 1806, mas ficou em silêncio porque não era conhecido.

Em 1829, Gauss forneceu uma prova de que o efeito de otimização do modo mínimo de duplicação é mais forte do que outros métodos, ver Gauss-Markov.

  • ### Três, usar o conhecimento

O núcleo do quadrado mínimo por quadrado é garantir o quadrado e o mínimo de todos os desvios de dados.

Suponhamos que coletemos dados de comprimento e largura de alguns navios.

线性回归之——最小二乘法

Com base nesses dados, desenhamos um gráfico de pontos em Python:

线性回归之——最小二乘法

O código para desenhar um gráfico de pontos é o seguinte:

```
import numpy as np                # -*- coding: utf-8 -*
import os
import matplotlib.pyplot as plt
def drawScatterDiagram(fileName): # 改变工作路径到数据文件存放的地方
    os.chdir("d:/workspace_ml")
    xcord=[];ycord=[]
    fr=open(fileName)
    for line in fr.readlines():
        lineArr=line.strip().split()
        xcord.append(float(lineArr[1]));ycord.append(float(lineArr[2]))
    plt.scatter(xcord,ycord,s=30,c='red',marker='s')
    plt.show()
```

假如我们取前两个点(238,32.4)(152, 15.5)就可以得到两个方程
152*a+b=15.5
328*a+b=32.4
解这两个方程得a=0.197,b=-14.48
那样的话,我们可以得到这样的拟合图:

![线性回归之——最小二乘法](/upload/asset/8c4ec1df86e5867e4ce4da6af7d7c8423b163ef7.png) 

好了,新的问题来了,这样的a,b是不是最优解呢?用专业的说法就是:a,b是不是模型的最优化参数?在回答这个问题之前,我们先解决另外一个问题:a,b满足什么条件才是最好的?

答案是:保证所有数据偏差的平方和最小。至于原理,我们会在后面讲,先来看看怎么利用这个工具来计算最好的a和b。假设所有数据的平方和为M,则

![线性回归之——最小二乘法](/upload/asset/7189e60a47e6a0a78747c40ff511abe8357350c0.png) 

我们现在要做的就是求使得M最小的a和b。请注意这个方程中,我们已知yi和xi

那其实这个方程就是一个以(a,b)为自变量,M为因变量的二元函数。

回想一下高数中怎么对一元函数就极值。我们用的是导数这个工具。那么在二元函数中,  我们依然用导数。只不过这里的导数有了新的名字“偏导数”。偏导数就是把两个变量中的一个视为常数来求导。
通过对M来求偏导数,我们得到一个方程组

![线性回归之——最小二乘法](/upload/asset/4a863a2f6678f5689641aafb11860b12bc820f80.png) 

这两个方程中xi和yi都是知道的。

很容易就求得a和b了。由于采用的是维基百科的数据,我这里就直接用答案来画出拟合图像:

![线性回归之——最小二乘法](/upload/asset/2cfbd2f5af3b691577361855ebe337110be5991d.png) 

```
# -*- coding: utf-8 -*importnumpy as npimportosimportmatplotlib.pyplot as pltdefdrawScatterDiagram(fileName):
# 改变工作路径到数据文件存放的地方os.chdir("d:/workspace_ml")xcord=[];
# ycord=[]fr=open(fileName)forline infr.readlines():lineArr=line.strip().split()xcord.append(float(lineArr[1]));
# ycord.append(float(lineArr[2]))plt.scatter(xcord,ycord,s=30,c='red',marker='s')
# a=0.1965;b=-14.486a=0.1612;b=-8.6394x=np.arange(90.0,250.0,0.1)y=a*x+bplt.plot(x,y)plt.show()
# -*- coding: utf-8 -*
import numpy as np
import os
import matplotlib.pyplot as plt
def drawScatterDiagram(fileName):
    #改变工作路径到数据文件存放的地方
    os.chdir("d:/workspace_ml")
    xcord=[];ycord=[]
    fr=open(fileName)
    for line in fr.readlines():
        lineArr=line.strip().split()
        xcord.append(float(lineArr[1]));ycord.append(float(lineArr[2]))
    plt.scatter(xcord,ycord,s=30,c='red',marker='s')
    #a=0.1965;b=-14.486
    a=0.1612;b=-8.6394
    x=np.arange(90.0,250.0,0.1)
    y=a*x+b
    plt.plot(x,y)
    plt.show()
```
  • ### Quatro, a investigação dos princípios

No caso dos dados ajustados, por que é que os parâmetros do modelo devem ser optimizados com o quadrado dos dados de previsão em relação ao diferencial entre os dados reais e não com os valores absolutos e mínimos?

A pergunta já foi respondida, veja o link.http://blog.sciencenet.cn/blog-430956-621997.html)

Pessoalmente, a explicação é muito interessante. Especialmente a hipótese: todos os pontos que se desviam de f (x) são ruidosos.

Quanto maior o desvio de um ponto, menor a probabilidade de que ele ocorra. Então, qual é a relação entre o grau de desvio x e a probabilidade de ocorrência f (x)?

线性回归之——最小二乘法

线性回归之——最小二乘法

  • ### Cinco, expandir, expandir

Tudo o que foi dito acima é bidimensional, ou seja, há apenas uma variável autônoma. Mas no mundo real, o resultado final é influenciado por uma sobreposição de vários fatores, ou seja, há vários casos de variáveis autônomas.

Para a função N metalinear em geral, é OK resolver com a matriz inversa na matriz de álgebra linear de acoplamento; como não foi encontrado um exemplo adequado temporariamente, fica aqui como um derivado.

Naturalmente, a natureza é mais uma combinação de polígonos do que uma simples linearidade, que é um conteúdo mais elevado.

  • ### Referências

Trabalho original, permitido a reprodução, no momento da reprodução, certifique-se de indicar a origem original do artigo em forma de hiperlink, informações do autor e esta declaração; caso contrário, será processada pela responsabilidade legal.http://sbp810050504.blog.51cto.com/2799422/1269572


Mais informações