Sunday 4 June 2017

Desvio Padrão Médio Móvel Ponderado


Oi Eu coletei alguns dados de processo por 3 anos e eu quero imitar uma análise prospectiva EWMA, para ver se o meu parâmetro de suavização set teria detectar todas as mudanças importantes (sem muitos alarmes falsos). Parece que a maioria dos livros didáticos e literatura que eu olhei que usam uma média e desvio padrão para calcular os limites de controle. Esta é geralmente a média em-controle e desvio padrão de alguns dados históricos, ou a média e sd da população a partir da qual as amostras são desenhadas. Eu não tenho nenhuma informação. Existe uma outra maneira de calcular os limites de controle Existe uma variação da tabela EWMA que não usa a média eo desvio padrão Quaisquer idéias criativas Obrigado antecipadamente Para ter certeza de entender isso: você poderia calcular a média EWMA e variância, mas você Não tem uma linha de base para compará-los. Parece-me que você tem uma técnica supervisionada (o que pressupõe que você pode definir o que ele deve ser), mas você quer uma técnica não supervisionada (que só procura diferenças sem chamar um estado quotgoodquot e outro Quotbadquot). Para técnicas não supervisionadas, clustering vem à mente, mas ele teria que ser modificado para se aplicar a timeseries. Como cerca de Razão de verossimilhança Generalizada (GLR) ndash Jim Pivarski Jun 25 14 at 2:49 Se nos referimos a en. wikipedia. orgwikiEWMAchart. Posso calcular o Zi para o meu dado lambda, mas quando se trata dos limites de controle, eu não tenho dados históricos para calcular o T e S. Obrigado vou olhar em GLR e também postar em Cross Validated. Sim, T e S são a média eo desvio padrão de uma distribuição de linha de base, que é dada a priori ou determinada a partir de um conjunto de dados de treinamento. O conjunto de dados de treinamento representa o que os dados devem ser parecidos, portanto, esta é uma técnica supervisionada e você quer uma técnica não supervisionada. O GLR não é ponderado exponencialmente, mas encontra dinamicamente uma quebra nos dados entre duas distribuições diferentes e combina dados de cada lado da quebra para obter resultados mais robustos. Poderia ser o que você quer. Ndash Jim Pivarski Jun 25 14 at 3:00 A partir de uma perspectiva prática operacional, o uso de análise estatística de dados históricos por si só, é raro. Sim, ele fornece algumas orientações sobre como o processo (e seu sistema de controle) estão realizando, porém a coisa mais importante é de longe ter um bom entendimento e conhecimento dos limites de engenharia. Refiro-me aos limites operacionais, que são determinados pelas especificações e características de desempenho dos vários equipamentos. Isso permite que se desenvolva um bom entendimento de como o processo deve comportar-se (em termos de pontos de operação óptimos e limites de controle superiores) e onde as áreas de maior desvio do ótimo são. Isso tem muito pouco a ver com a análise estatística de dados históricos, e muito a ver com a metalurgia de engenharia de processo - dependendo do tipo de processo que você está lidando. Os limites de controle são determinados, em última instância, pelo que o Process Manager Process Engineer WANTS, que normalmente são (mas nem sempre) dentro da capacidade da placa de identificação do equipamento. Se você está trabalhando dentro dos limites operacionais, e você está no domínio da otimização de processos, então sim, a análise estatística é mais amplamente utilizado e pode oferecer uma boa visão. Dependendo da variabilidade do seu processo, do quão bem seu sistema de controle está configurado e da homogeneidade do seu produto de alimentação, os limites de controle superiores selecionados variam. Um bom ponto de partida é o ponto de operação ideal (por exemplo, 100 m3hr), então use uma quantidade razoável de dados históricos para calcular um desvio padrão, e faça seu limite superior 100 1 dev padrão eo seu limite inferior 100-1 padrão dev. Esta não é uma regra dura e rápida, mas é um ponto de partida sensato. Respondido Feb 7 16 em 12: 12Below você pode ver meu método de C para calcular Bollinger Bands para cada ponto (média móvel, acima da faixa, para baixo faixa). Como você pode ver este método usa 2 para loops para calcular o desvio padrão móvel usando a média móvel. Usou-se conter um laço adicional para calcular a média móvel durante os últimos n períodos. Isso que eu poderia remover adicionando o novo valor de ponto para totalaverage no início do loop e removendo o valor de ponto i - n no final do loop. Minha pergunta agora é basicamente: Posso remover o loop interno restante de uma maneira semelhante que eu consegui com a média móvel perguntou Jan 31 13 às 21:45 A resposta é sim, você pode. Em meados dos anos 80, desenvolvi um algoritmo tal (provavelmente não original) no FORTRAN para uma aplicação de monitoramento e controle de processos. Infelizmente, isso foi há mais de 25 anos e eu não me lembro das fórmulas exatas, mas a técnica foi uma extensão da de médias móveis, com cálculos de segunda ordem, em vez de apenas linear. Depois de olhar para o seu código alguns, eu acho que posso suss como eu fiz isso naquela época. Observe como seu laço interno está fazendo uma Soma de Quadrados: da mesma forma que sua média deve ter originalmente teve uma Soma de Valores As únicas duas diferenças são a ordem (seu poder 2 em vez de 1) e que você está subtraindo a média Cada valor antes de quadrá-lo. Agora que pode parecer inseparável, mas na verdade eles podem ser separados: Agora o primeiro termo é apenas uma soma de quadrados, você lidar com isso da mesma maneira que você faz a soma de valores para a média. O último termo (k2n) é apenas a média ao quadrado vezes o período. Desde que você divide o resultado pelo período de qualquer maneira, você pode apenas adicionar o quadrado médio novo sem o laço extra. Finalmente, no segundo termo (SUM (-2vi) k), uma vez que SUM (vi) kn total você pode então mudá-lo para isso: ou apenas -2k2n. Que é -2 vezes a média ao quadrado, uma vez que o período (n) é dividido novamente. Assim, a fórmula combinada final é: (certifique-se de verificar a validade deste, uma vez que estou derivando-lo fora do topo da minha cabeça) E incorporando em seu código deve ser algo como isto: Obrigado por isso. Eu usei-o como a base de uma implementação em C para o CLR. Descobri que, na prática, você pode atualizar tal que newVar é um número negativo muito pequeno, eo sqrt falhar. Eu introduzi um if para limitar o valor para zero para este caso. Não idéia, mas estável. Isso ocorreu quando cada valor na minha janela tinha o mesmo valor (eu usei um tamanho de janela de 20 eo valor em questão era 0,5, no caso de alguém queira tentar reproduzir isso.) Ndash Drew Noakes Jul 26 13 às 15:25 Ive Usado commons-math (e contribuiu para que a biblioteca) para algo muito semelhante a este. Sua fonte aberta, portar para C deve ser fácil como loja-comprado pie (você já tentou fazer uma torta do zero). Confira: commons. apache. orgmathapi-3.1.1index. html. Eles têm uma classe StandardDeviation. Ir para a cidade respondeu Jan 31 13 at 21:48 You39re bem-vindo Lamento não ter a resposta que você está procurando. Eu definitivamente didn39t significa sugerir portar toda a biblioteca Apenas o código mínimo necessário, que deve ser algumas centenas de linhas ou assim. Note que eu não tenho idéia do que legal restrições de direitos autorais apache tem sobre esse código, então você deve ter que verificar isso. No caso de você persegui-lo, aqui está o link. Assim que a variância FastMath ndash Jason Jan 31 13 em 22:36 A informação a mais importante já foi dada acima --- mas talvez este é ainda do interesse geral. Uma pequena biblioteca Java para calcular a média móvel eo desvio padrão está disponível aqui: githubtools4jmeanvar A implementação é baseada em uma variante do método Welfords mencionado acima. Métodos para remover e substituir os valores foram derivados que podem ser usados ​​para mover o valor windows. Exploring A volatilidade média exponencial ponderada média é a medida mais comum de risco, mas vem em vários sabores. Em um artigo anterior, mostramos como calcular a volatilidade histórica simples. (Para ler este artigo, consulte Usando a volatilidade para medir o risco futuro.) Usamos os dados reais do estoque do Google para computar a volatilidade diária com base em 30 dias de dados de estoque. Neste artigo, melhoraremos a volatilidade simples e discutiremos a média móvel exponencialmente ponderada (EWMA). Histórico vs. Volatilidade implícita Primeiro, vamos colocar esta métrica em um pouco de perspectiva. Há duas abordagens gerais: volatilidade histórica e implícita (ou implícita). A abordagem histórica pressupõe que o passado é um prólogo que medimos a história na esperança de que ela seja preditiva. A volatilidade implícita, por outro lado, ignora a história que resolve pela volatilidade implícita nos preços de mercado. Espera que o mercado conheça melhor e que o preço de mercado contenha, mesmo que implicitamente, uma estimativa consensual da volatilidade. Se focarmos apenas as três abordagens históricas (à esquerda acima), elas têm duas etapas em comum: Calcular a série de retornos periódicos Aplicar um esquema de ponderação Primeiro, nós Calcular o retorno periódico. Isso é tipicamente uma série de retornos diários onde cada retorno é expresso em termos continuamente compostos. Para cada dia, tomamos o log natural da razão dos preços das ações (ou seja, preço hoje dividido pelo preço de ontem, e assim por diante). Isso produz uma série de retornos diários, de u i para u i-m. Dependendo de quantos dias (m dias) estamos medindo. Isso nos leva ao segundo passo: é aqui que as três abordagens diferem. No artigo anterior (Usando a Volatilidade para Avaliar o Risco Futuro), mostramos que, sob algumas simplificações aceitáveis, a variância simples é a média dos retornos quadrados: Note que isto soma cada um dos retornos periódicos e depois divide esse total pela Número de dias ou observações (m). Então, é realmente apenas uma média dos retornos periódicos quadrados. Dito de outra forma, cada retorno ao quadrado é dado um peso igual. Portanto, se alfa (a) é um fator de ponderação (especificamente, um 1m), então uma variância simples é algo como isto: O EWMA Melhora na Variância Simples A fraqueza desta abordagem é que todos os retornos ganham o mesmo peso. O retorno de ontem (muito recente) não tem mais influência na variância do que nos últimos meses. Esse problema é corrigido usando-se a média móvel exponencialmente ponderada (EWMA), na qual retornos mais recentes têm maior peso na variância. A média móvel exponencialmente ponderada (EWMA) introduz lambda. Que é chamado de parâmetro de suavização. Lambda deve ser inferior a um. Sob essa condição, em vez de pesos iguais, cada retorno ao quadrado é ponderado por um multiplicador da seguinte forma: Por exemplo, RiskMetrics TM, uma empresa de gestão de risco financeiro, tende a usar um lambda de 0,94 ou 94. Neste caso, o primeiro Mais recente) é ponderado por (1-0.94) (. 94) 0 6. O próximo retomo ao quadrado é simplesmente um lambda-múltiplo do peso anterior neste caso 6 multiplicado por 94 5.64. E o terceiro dia anterior peso é igual a (1-0,94) (0,94) 2 5,30. Esse é o significado de exponencial em EWMA: cada peso é um multiplicador constante (isto é, lambda, que deve ser menor que um) do peso dos dias anteriores. Isso garante uma variância que é ponderada ou tendenciosa em direção a dados mais recentes. (Para saber mais, consulte a Planilha do Excel para a Volatilidade do Google.) A diferença entre simplesmente volatilidade e EWMA para o Google é mostrada abaixo. A volatilidade simples pesa efetivamente cada retorno periódico em 0.196, como mostrado na coluna O (tivemos dois anos de dados diários sobre os preços das ações, ou seja, 509 retornos diários e 1509 0.196). Mas observe que a Coluna P atribui um peso de 6, então 5.64, então 5.3 e assim por diante. Essa é a única diferença entre a variância simples e EWMA. Lembre-se: Depois de somarmos toda a série (na coluna Q) temos a variância, que é o quadrado do desvio padrão. Se queremos a volatilidade, precisamos nos lembrar de tomar a raiz quadrada dessa variância. Sua significativa: A variância simples nos deu uma volatilidade diária de 2,4, mas a EWMA deu uma volatilidade diária de apenas 1,4 (veja a planilha para mais detalhes). Aparentemente, volatilidade Googles estabeleceu-se mais recentemente, portanto, uma variância simples pode ser artificialmente elevado. A variação de hoje é uma função da variação dos dias de Pior Você observará que nós necessitamos computar uma série longa de pesos exponencial declinando. Nós não faremos a matemática aqui, mas uma das melhores características do EWMA é que a série inteira convenientemente reduz a uma fórmula recursiva: Recursivo significa que as referências de variância de hoje (ou seja, é uma função da variação de dias anteriores). Você pode encontrar esta fórmula na planilha também, e produz o mesmo resultado exato que o cálculo de longhand Diz: A variância de hoje (sob EWMA) iguala a variância de ontem (ponderada por lambda) mais o retorno ao quadrado de ontem (pesado por um lambda negativo). Observe como estamos apenas adicionando dois termos juntos: ontem variância ponderada e ontem ponderado, retorno ao quadrado. Mesmo assim, lambda é o nosso parâmetro de suavização. Um lambda mais alto (por exemplo, como o RiskMetrics 94) indica um declínio mais lento na série - em termos relativos, vamos ter mais pontos de dados na série e eles vão cair mais lentamente. Por outro lado, se reduzimos o lambda, indicamos maior decaimento: os pesos caem mais rapidamente e, como resultado direto da rápida decomposição, são usados ​​menos pontos de dados. (Na planilha, lambda é uma entrada, para que você possa experimentar com sua sensibilidade). Resumo A volatilidade é o desvio padrão instantâneo de um estoque ea métrica de risco mais comum. É também a raiz quadrada da variância. Podemos medir a variância historicamente ou implicitamente (volatilidade implícita). Ao medir historicamente, o método mais fácil é a variância simples. Mas a fraqueza com variância simples é todos os retornos obter o mesmo peso. Então, enfrentamos um trade-off clássico: sempre queremos mais dados, mas quanto mais dados temos, mais nosso cálculo é diluído por dados distantes (menos relevantes). A média móvel exponencialmente ponderada (EWMA) melhora a variância simples atribuindo pesos aos retornos periódicos. Ao fazer isso, podemos usar um grande tamanho de amostra, mas também dar maior peso a retornos mais recentes. (Para ver um filme tutorial sobre este tópico, visite o Bionic Turtle.) Um tipo de imposto cobrado sobre ganhos de capital incorridos por indivíduos e empresas. Os ganhos de capital são os lucros que um investidor. Uma ordem para comprar um título igual ou inferior a um preço especificado. Uma ordem de limite de compra permite que traders e investidores especifiquem. Uma regra do Internal Revenue Service (IRS) que permite retiradas sem penalidade de uma conta IRA. A regra exige que. A primeira venda de ações por uma empresa privada para o público. IPOs são muitas vezes emitidos por empresas menores, mais jovens à procura da. DebtEquity Ratio é o rácio da dívida utilizado para medir a alavancagem financeira de uma empresa ou um rácio da dívida utilizado para medir um indivíduo. Um tipo de estrutura de remuneração que os gestores de fundos hedge geralmente empregam em que parte da compensação é o desempenho baseado. Whuber - Isso é errado, como você suspeita. É correto se os pesos próprios são freqüências. Mas embora as freqüências entrem na computação das porcentagens neste caso, os pesos, embora não especificados, não são freqüências de ocorrência, mas algo mais a ver com o volume de quotdata. Então esta é a resposta errada. Ndash Rex Kerr Sep 8 15 at 17:50 As fórmulas estão disponíveis vários lugares, incluindo a Wikipedia. A chave é notar que depende do que os pesos significam. Em particular, você obterá respostas diferentes se os pesos forem freqüências (ou seja, você está apenas tentando evitar a soma de toda a sua soma), se os pesos são de fato a variância de cada medida, ou se eles são apenas alguns valores externos que você impõe seus dados. No seu caso, ele superficialmente parece que os pesos são freqüências, mas theyre não. Você gera seus dados de freqüências, mas não é uma simples questão de ter 45 registros de 3 e 15 registros de 4 em seu conjunto de dados. Em vez disso, você precisará usar o último método. (Na verdade, tudo isso é lixo - você realmente precisa usar um modelo mais sofisticado do processo que está gerando esses números Você aparentemente não tem algo que cuspe Normalmente distribuídos números, assim caracterizando o sistema com o desvio padrão é Não a coisa certa a fazer.) Em qualquer caso, a fórmula para a variância (a partir da qual você calcula o desvio padrão da maneira normal) com pesos de confiabilidade é onde x soma wi xi soma wi é a média ponderada. Você não tem uma estimativa para os pesos, que eu estou supondo que você quer tomar para ser proporcional à confiabilidade. Tomando porcentagens do jeito que você está vai fazer a análise complicada, mesmo se theyre gerado por um processo Bernoulli, porque se você obter uma pontuação de 20 e 0, você tem porcentagem infinita. Ponderação pelo inverso do SEM é uma coisa comum e às vezes ótima a fazer. Talvez você deva usar uma estimativa bayesiana ou intervalo de pontuação de Wilson. Respondeu Set 8 15 at 17:48 1. A discussão dos diferentes significados de pesos foi o que eu estava procurando neste segmento o tempo todo. É uma contribuição importante para todas as perguntas deste site sobre estatísticas ponderadas. (Eu estou um pouco preocupado com as observações entre parênteses sobre distribuições normais e desvios padrão, porém, porque eles sugerem incorretamente que SDs não têm nenhum uso fora de um modelo baseado na normalidade.) Ndash whuber 9830 Sep 8 15 at 18:23 whuber - Bem, Teorema central do limite para o resgate, é claro Mas para o que o OP estava fazendo, tentando caracterizar esse conjunto de números com uma média e desvio padrão parece extremamente desaconselhável. E, em geral, para muitos usos o desvio padrão acaba atraindo um em um falso sentimento de compreensão. Por exemplo, se a distribuição é algo normal (ou uma boa aproximação dela), confiar no desvio padrão lhe dará uma má idéia da forma das caudas, quando é exatamente as caudas que você provavelmente mais se preocupam em estatística Testes. Ndash Rex Kerr Sep 8 15 at 19:44 RexKerr Nós não podemos culpar o desvio padrão se as pessoas colocam interpretações nele que são imerecidas. Mas vamos embora da normalidade e consideramos a classe muito mais ampla de distribuições unimodais contínuas e simétricas com variação finita (por exemplo). Em seguida, entre 89 e 100 por cento da distribuição está dentro de dois desvios padrão. Muitas vezes, é bastante útil saber (e 95 está muito bem no meio, então ele nunca mais do que cerca de 7 fora) com muitas distribuições comuns, o aspecto de simetria caindo não muda muito (por exemplo, veja a exponencial, por exemplo). Ctd ndash Glenb 9830 Oct 1 15 at 23:57

No comments:

Post a Comment