Kashif & # 039; s ML e NN BLOG.
Dados Forex e LSTM - (TensorFlow) Redes Neurais.
Trabalhei em dados Forex e usei redes neurais para prever o preço futuro do par de moedas EUR_USD ou gerar tendência futura.
Passos realizados para preparar dados baixados:
Os dados baixados estavam em forma json com recursos incorporados de moeda (alto, baixo, aberto, fechado, volume, tempo, completo). Os dados do json foram analisados e colocados no quadro de dados da Pandas e também foram salvos no arquivo csv. Outros recursos como curto e longo SMA, bandas de bollinger, mudança de porcentagem e diferenças em high-low e open-close também foram adicionados aos dados. Em seguida, esses dados foram divididos em conjunto de treinamento e teste. Os dados de treinamento foram alimentados para a Rede Recorrente Neural (LSTM)
3 camadas LSTM, com abandono e, finalmente, com saída de ativação linear de 1 neurônio.
Para perda & # 8220; erro quadrado médio & # 8221; foi usado, e para otimizador & # 8220; rmsprop & # 8221; foi usado.
Os detalhes do modelo estão abaixo:
Outras modificações do modelo também foram tentadas, o que eu não gostaria de mencionar aqui, caso contrário, o detalhe será esmagador para você.
Depois de treinar os dados por 30 épocas, a perda caiu para 0,0114, que você pode ver aqui:
O preço aberto previsto de EUR_USD (usando dados de teste) parecia algo assim:
O gráfico de dados real (linha azul) e previsão (linha verde) parece assim:
Aqui estão mais alguns gráficos usando os mesmos dados:
Usando diferentes conjuntos de recursos, lstm caminha neurônios e épocas, você pode obter diferentes tipos de resultados. Depende da sua estratégia de negociação o que você realmente deseja realizar e quais recursos você deseja incorporar. O intervalo de tempo dos dados coletados e a extensão dos dados também desempenham um papel muito crítico na obtenção de bons resultados de acordo com seus objetivos de negociação.
Divirta-se com o uso de LSTM (redes neurais) com dados Forex e avalie todos os riscos por conta própria antes de fazer negócios reais.

Tutorial de Rede Neural Recorrente, Parte 4 e # 8211; Implementando um RNN GRU / LSTM com Python e Theano.
O código para esta publicação está no Github. Esta é a parte 4, a última parte do Tutorial da Rede Recorrente Neural. As partes anteriores são:
Nesta publicação, aprenderemos sobre redes LSTM (Long Short Term Memory) e GRUs (Gated Recurrent Units). Os LSTMs foram propostos pela primeira vez em 1997 por Sepp Hochreiter e J ürgen Schmidhuber, e estão entre os modelos mais utilizados na Deep Learning para NLP hoje. As GRUs, usadas pela primeira vez em 2017, são uma variante mais simples dos LSTMs que compartilham muitas das mesmas propriedades. Vamos começar olhando os LSTMs e, então, veremos como as GRUs são diferentes.
Redes LSTM.
Na parte 3, analisamos como o problema do gradiente de queda evita que as RNN padrão aprendam dependências de longo prazo. Os LSTMs foram projetados para combater os gradientes de fuga através de um mecanismo de gating. Para entender o que isso significa, vamos ver como um LSTM calcula um estado oculto (I & # 8217; m usando para significar multiplicação elementar):
Essas equações parecem bastante complicadas, mas na verdade não é tão difícil. Primeiro, note que uma camada LSTM é apenas outra maneira de calcular um estado oculto. Anteriormente, calculamos o estado oculto como. As entradas para esta unidade foram, a entrada atual no passo, e o estado oculto anterior. O resultado foi um novo estado oculto. Uma unidade LSTM faz exatamente a mesma coisa, apenas de uma maneira diferente! Esta é a chave para entender o grande quadro. Você pode essencialmente tratar unidades LSTM (e GRU) como caixas pretas. Dada a entrada atual e o estado oculto anterior, eles calculam o próximo estado oculto de alguma forma.
Com isso em mente, tente tentar uma intuição sobre como uma unidade LSTM calcula o estado oculto. Chris Olah tem uma excelente publicação que envolve detalhes sobre isso e, para evitar a duplicação de seu esforço, só vou dar uma breve explicação aqui. Peço-lhe que leia sua postagem para uma visão mais profunda e visualizações agradáveis. Mas, para resumir:
são chamados de portas de entrada, esquecimento e saída, respectivamente. Note-se que eles têm exatamente as mesmas equações, apenas com diferentes matrizes de parâmetros. Eles se importam com os portões chamados porque a função sigmoide esmaga os valores desses vetores entre 0 e 1 e, multiplicando-os de forma elementar com outro vetor, você define a quantidade desse outro vetor que você deseja & # 8220; deixe passar o & # 8221 ;. O gateway de entrada define a quantidade do estado recém-computado para a entrada atual que deseja permitir. O portão de esquecer define quanto do estado anterior que você quer deixar passar. Finalmente, o gateway de saída define quanto do estado interno que deseja expor à rede externa (camadas mais altas e próximo passo). Todos os portões têm as mesmas dimensões, o tamanho do seu estado oculto. é um candidato & # 8220; # 8221; estado oculto que é computado com base na entrada atual e no estado oculto anterior. É exatamente a mesma equação que tivemos em nossa RNN de baunilha, acabamos de renomear os parâmetros e para e. No entanto, em vez de tomar como o novo estado oculto como fizemos na RNN, usaremos o portão de entrada de cima para escolher um pouco disso. é a memória interna da unidade. É uma combinação da memória anterior multiplicada pelo portão de esquadrão e o estado oculto recém-computado, multiplicado pelo portão de entrada. Assim, intuitivamente, é uma combinação de como queremos combinar a memória anterior e a nova entrada. Podemos optar por ignorar completamente a memória antiga (esquecer o portão de todos os 0 & # 8217; s) ou ignorar o estado recém-computado completamente (entrada de todos os 0 & # 8217; s), mas provavelmente queremos algo entre estes dois extremos. Dada a memória, finalmente calculamos o estado oculto de saída multiplicando a memória pelo gate de saída. Nem toda a memória interna pode ser relevante para o estado oculto usado por outras unidades na rede. LSTM Gating. Chung, Junyoung, et al. & # 8220; Avaliação empírica de redes neurais recorrentes fechadas na modelagem de sequências. & # 8221; (2017)
Intuitivamente, as RNN simples podem ser consideradas um caso especial de LSTMs. Se você consertar o gateway de entrada todos os 1 & # 8217; s, o portão de esquadrão para todos os 0 & # 8217; s (você sempre esqueceu a memória anterior) eo gateway de saída para todos os & # 8217; s (você expõe toda a memória) você quase obtenha RNN padrão. Há apenas um adicional que abole a saída um pouco. O mecanismo de gating é o que permite que os LSTMs explicitamente modelem dependências de longo prazo. Ao aprender os parâmetros para seus portões, a rede aprende como sua memória deve se comportar.
Notavelmente, existem várias variações na arquitetura básica do LSTM. Um comum é criar conexões peephole que permitem que os portões não dependam apenas do estado oculto anterior, mas também do estado interno anterior, adicionando um termo adicional nas equações do portão. Há muitas mais variações. LSTM: A Search Space Odyssey avalia empiricamente diferentes arquiteturas LSTM.
A idéia por trás de uma camada GRU é bastante semelhante à de uma camada LSTM, assim como as equações.
Um GRU possui dois portões, um gateway e um gateway de atualização. Intuitivamente, o gateway de reinício determina como combinar a nova entrada com a memória anterior, e o gateway de atualização define quanto da memória anterior se mantém. Se configuramos a reinicialização para todos os 1 & # 8217; s e o gateway de atualização para todos os 0 & # 8217; s, chegamos novamente ao nosso modelo RNN simples. A idéia básica de usar um mecanismo de gating para aprender dependências de longo prazo é a mesma que em um LSTM, mas há algumas diferenças importantes:
Um GRU tem dois portões, um LSTM tem três portões. GRUs don & # 8217; t possuem e memória interna () que é diferente do estado oculto exposto. Eles não têm o portão de saída que está presente nos LSTMs. Os gateways de entrada e de esquadrão são acoplados por um gateway de atualização e o gateway de reinicialização é aplicado diretamente ao estado oculto anterior. Assim, a responsabilidade do gateway de reinício em um LSTM é realmente dividida em ambos e. Nós não aplicamos uma segunda não-linearidade ao calcular a saída. GRU Gating. Chung, Junyoung, et al. "Avaliação empírica de redes neurais recorrentes fechadas na modelagem de sequências". (2017)
GRU vs LSTM.
Agora que você viu dois modelos para combater o problema de gradiente desaparecendo, você pode estar se perguntando: qual deles usar? As GRUs são bastante novas (2017), e suas negociações não foram completamente exploradas. De acordo com avaliações empíricas na Avaliação Empírica de Redes Neurais Recorrentes Gated em Modelagem de Seqüência e Exploração Empírica de Arquiteturas de Rede Recorrentes, não há um vencedor claro. Em muitas tarefas, ambas as arquiteturas produzem desempenho comparável e os hiperparâmetros de ajuste, como o tamanho da camada, são provavelmente mais importantes do que escolher a arquitetura ideal. As GRUs têm menos parâmetros (U e W são menores) e, portanto, podem treinar um pouco mais rápido ou precisam de menos dados para se generalizar. Por outro lado, se você tiver dados suficientes, o maior poder expressivo dos LSTMs pode levar a melhores resultados.
Implementação.
Deixe o retorno à implementação do Modelo de Idioma da parte 2 e use as unidades GRU na nossa RNN. Não há uma razão de princípio por que eu escolhi GRUs em vez de LSTMs nesta parte (outra que eu também queria me familiarizar mais com as GRUs). Suas implementações são quase idênticas, então você deve ser capaz de modificar o código para passar de GRU para LSTM facilmente ao mudar as equações.
Baseamos o código em nossa implementação anterior de Theano. Lembre-se de que uma camada GRU (LSTM) é apenas outra maneira de calcular o estado oculto. Então, tudo o que realmente precisamos fazer é mudar a computação de estado oculto em nossa função de propagação direta.
Em nossa implementação, também adicionamos unidades de polarização. É bastante típico que estes não sejam mostrados nas equações. É claro que também precisamos alterar a inicialização de nossos parâmetros e porque eles agora têm tamanhos diferentes. Não mostro o código de inicialização aqui, mas está no Gitub. Eu também adicionei uma camada de incorporação de palavras, mas mais sobre isso abaixo.
Isso foi bastante simples. Mas e os gradientes? Poderíamos derivar os gradientes para e manualmente usando a regra da cadeia, tal como fizemos antes. Mas na prática, a maioria das pessoas usa bibliotecas como Theano que suportam a auto-diferenciação de expressões. Se você for forçado a calcular os gradientes você mesmo, você provavelmente deseja modularizar unidades diferentes e ter sua própria versão de auto-diferenciação usando a regra da cadeia. Nós deixamos Theano calcular os gradientes para nós:
Isso é muito bonito. Para obter melhores resultados, também usamos alguns truques adicionais em nossa implementação.
Usando rmsprop para atualizações de parâmetros.
Na parte 2, usamos a versão mais básica do Stochastic Gradient Descent (SGD) para atualizar nossos parâmetros. Acontece que esta não é uma ótima idéia. Se você definir sua taxa de aprendizado suficientemente baixa, SGD é garantido para progredir em direção a uma boa solução, mas na prática, isso levaria muito tempo. Existe uma série de variações comumente usadas no SGD, incluindo o método de Momentum (Nesterov), AdaGrad, AdaDelta e rmsprop. Esta publicação contém uma boa visão geral de muitos desses métodos. Eu também planejo explorar a implementação de cada um desses métodos em detalhes em uma publicação futura. Para esta parte do tutorial, escolhi ir com rmsprop. A idéia básica por trás do rmsprop é ajustar a taxa de aprendizado por parâmetro de acordo com a soma (suavizada) dos gradientes anteriores. Intuitivamente, isso significa que os recursos que ocorrem com frequência obtêm uma taxa de aprendizado menor (porque a soma de seus gradientes é maior) e características raras obtêm uma taxa de aprendizado maior.
A implementação do rmsprop é bastante simples. Para cada parâmetro, mantemos uma variável de cache e, durante a descida de gradiente, atualizamos o parâmetro e o cache da seguinte maneira (exemplo para):
O decadência normalmente é definido como 0.9 ou 0.95 e o termo 1e-6 é adicionado para evitar a divisão por 0.
Adicionando uma camada de incorporação.
O uso de incorporações de palavras como word2vec e GloVe é um método popular para melhorar a precisão do seu modelo. Em vez de usar vetores um-quentes para representar nossas palavras, os vetores de baixa dimensão aprendidos usando word2vec ou GloVe carregam significado semântico & # 8211; palavras semelhantes têm vetores semelhantes. Usar esses vetores é uma forma de pré-treinamento. Intuitivamente, você está dizendo à rede quais palavras são semelhantes, de modo que ele precisa aprender menos sobre o idioma. Usar vetores pré-treinados é particularmente útil se você não tiver muitos dados porque permite que a rede generalize para palavras não vistas. Eu não usei vetores de palavras pré-treinados em meus experimentos, mas adicionar uma camada de incorporação (a matriz em nosso código) facilita conectá-los. A matriz de incorporação é realmente apenas uma tabela de pesquisa # 8211; O vetor da coluna ith corresponde à ith palavra em nosso vocabulário. Ao atualizar a matriz, estamos aprendendo os próprios vetores de palavras, mas são muito específicos para nossa tarefa (e conjunto de dados) e não tão gerais como aqueles que você pode baixar, que são treinados em milhões ou bilhões de documentos.
Adicionando uma segunda camada GRU.
Adicionar uma segunda camada à nossa rede permite que nosso modelo capture interações de nível superior. Você poderia adicionar camadas adicionais, mas não tentei isso para essa experiência. Você provavelmente verá retornos decrescentes após 2-3 camadas e, a menos que você tenha uma quantidade enorme de dados (o que nós não precisamos), é improvável que mais camadas façam uma grande diferença e que possam levar a uma superposição.
Adicionar uma segunda camada à nossa rede é direta, nós (novamente) precisamos apenas modificar a função de cálculo de propagação direta e inicialização.
Uma nota sobre o desempenho.
Eu já fiz perguntas sobre isso no passado, então eu quero esclarecer que o código que mostrei aqui não é muito eficiente. Ele foi otimizado para maior clareza e foi escrito principalmente para fins educacionais. Provavelmente é bom o suficiente para brincar com o modelo, mas você não deve usá-lo em produção ou esperar treinar em um grande conjunto de dados com ele. Existem muitos truques para otimizar o desempenho do RNN, mas talvez o mais importante seja o lote de suas atualizações. Em vez de aprender de uma frase por vez, você deseja agrupar frases do mesmo comprimento (ou até mesmo preencher todas as frases para ter o mesmo comprimento) e, em seguida, executar grandes multiplicações de matriz e resumir gradientes para todo o lote. Isso é porque essas grandes multiplicações de matriz são gerenciadas de forma eficiente por uma GPU. Ao não fazer isso, podemos obter pouca aceleração usando uma GPU e o treinamento pode ser extremamente lento.
Então, se você deseja treinar um modelo grande, eu recomendo usar uma das bibliotecas Deep Learning existentes que são otimizadas para o desempenho. Um modelo que levaria dias / semanas para treinar com o código acima só levará algumas horas com essas bibliotecas. Eu pessoalmente gosto de Keras, que é bastante simples de usar e vem com bons exemplos para RNNs.
Para poupar-lhe a dor de treinar um modelo durante muitos dias, treinei um modelo muito semelhante ao da parte 2. Usei um tamanho de vocabulário de 8000, mapeou palavras em vetores de 48 dimensões e usei duas camadas GRU 128-dimensional. O notebook iPython contém código para carregar o modelo para que você possa jogar com ele, modificá-lo e usá-lo para gerar texto.
Aqui estão alguns bons exemplos da saída da rede (capitalização adicionada por mim).
Eu sou um bot, e essa ação foi realizada automaticamente. Eu me aplico ridiculamente bem o suficiente para apenas youtube. I & # 8217; tem um ritmo bom! Não há problema aqui, mas pelo menos ainda acena! Depende de quão plausível seja meu julgamento. (com a constituição que torna impossível)
É interessante olhar para as dependências semânticas dessas frases em vários passos de tempo. Por exemplo, o bot e automaticamente estão claramente relacionados, assim como os suportes de abertura e fechamento. Nossa rede conseguiu aprender isso, muito legal!
Isso é por agora. Espero que tenha se divertido e deixe as perguntas / comentários nos comentários!

Forex lstm
Puxe pedidos 0.
Participe do GitHub hoje.
O GitHub é o lar de mais de 20 milhões de desenvolvedores que trabalham juntos para hospedar e rever o código, gerenciar projetos e criar software juntos.
Clone com HTTPS.
Use o Git ou o check-out com o SVN usando o URL da web.
Uma rede neural recorrente a longo prazo de longa duração para prever séries temporais forex.
O modelo pode ser treinado em dados diários ou mínimos de qualquer par forex. Os dados podem ser baixados a partir daqui.
O lstm-rnn deve aprender a prever o próximo dia ou minuto com base em dados anteriores.
A rede neural é implementada em Theano.
Este código está em desenvolvimento.
&cópia de; 2017 GitHub, Inc. Termos Privacidade Segurança Status Ajuda.
Você não pode executar essa ação neste momento.
Você fez login com outra guia ou janela. Recarregue para atualizar sua sessão. Você se separou em outra guia ou janela. Recarregue para atualizar sua sessão.

MachineLearning.
410 & # 32; пользователей находятся здесь.
МОДЕРАТОРЫ.
Bem-vindo ao Reddit,
a primeira página da internet.
e inscreva-se em uma das milhares de comunidades.
Quer adicionar à discussão?
помощь правила сайта центр поддержки вики реддикет mod guidelines связаться с нами.
приложенияи инструменты Reddit para iPhone Reddit para o site móvel Android кнопки.
Использование данного сайта означает, что вы принимаете & # 32; пользовательского соглашения & # 32; и & # 32; Политика конфиденциальности. &cópia de; 2017 reddit инкорпорейтед. Все права защищены.
REDDIT e o logotipo ALIEN são marcas registradas da reddit inc.
& pi; Renderizado pelo PID 84879 em & # 32; app-456 & # 32; 2017-12-24 20: 16: 30.219661 + 00: 00 executando o código de país a84abeb: UA.

[译] 理解 LSTM 网络.
Neil Zhu, 简书 ID Not_GOD, University AI 创始人 & amp; Cientista Chefe, 致力于推进世界人工智能化进程. 制定并实施 UAI 中长期增长战略和目标, 带领团队快速成长为人工智能领域最专业的力量.
作为行业领导者, 他和 UAI 一起在 2017 年创建了 TASA (中国最早的人工智能社团), DL Center (深度学习知识中心全球价值网络), crescimento de AI (行业智库培训) 等, 为中国的人工智能才建建建了了了了量血液和养养养养了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了了全球第一本深度学习入门书 "神经网络与深度学习", 生产的内容被大量的专业垂直公众号和媒媒媒媒连载连载规划受邀为内顶尖顶尖制定制定制定课程课程课程课程课程课程前沿前沿前沿前沿前沿前沿前沿前沿前沿前沿, 均受学生和老师好评.
Redes Neurônicas Recorrentes.
RNN 解决了这个问题. RNN 是包含循环的网络, 允许信息的持久化.
在上面的示例图中, 神经网络的模块, A, 正在读取某个输入 x_i, 并输出一个值 h_i. 循环可以使得信息可以从当前步传递到下一步.
这些循环使得 RNN 看起来非常神秘. 然而, 如果你仔细想想, 这样也不比一个正常的神经网络难于理解. RNN 可以被看做是同一神经网络的多次复制, 每个神经网络模块会把消息传递给下一个. 所以, 如果我们将这个循环展开:
链式的特征揭示了 RNN 本质上是与序列列表相关的. 他们是对于这类数据的最的神经网络架构.
并且 RNN 也已经被人们应用了! 在过去几年中, 应用 RNN 在语音识别, 语言建模, 翻译, 图片描述等问题上已经取得一定成功, 并且这个列表还在增长. 我建议大家参考 Andrej Karpathy的博客文章 - A Eficácia Não razoável das Redes Neurais Recorrentes 来看看更丰富有趣的 RNN 的成功应用.
而这些成功应应应就就就就就就就就就就就LSTM 达到的. 这篇博文也会就 LSTM 进行展开.
长期依赖 (Dependências de Longo Prazo) 问题.
RNN 的关键之之一就是他们可以用来先前的信息当前的任务上, 例如使用过去的视频段来对对段的理解. 如果 RNN 可以做到这个, 他们就变得非常有用. 但是真的可以么? 答案是, 还有很多依赖因素.
时候先前先前的的来预测预测下下来来们试着试着试着试着试着试着试着试着试着试着试着试着试着试着试着试着的的的的的的的的的的的的的的的的的的的的词们并并需要其他的上使使使使使使先前的信息.
但是同样会有一些更加复杂的场景. 假设我们试着去预测 "Eu cresci na França. Eu falo francês fluente "最后的词. 当前的信息建议下一个词可能是一种语言的名字, 但是如果我需要弄清楚是什么语言, 我们是需要提到的离当前位置很远的 França 的上下文的.......................................
在理论上绝对绝对处处的的问题问题问题问题问题(1994) 等人对该问题进行了深入的研究, 他们发现一些使训练 RNN 变得非常困难的相当根本的原因.
Longo prazo curto 网络 - 一般就叫做 LSTM - 是一种 RNN 特殊的类型, 可以学习长期依赖信息. LSTM 由 Hochreiter & amp; Schmidhuber (1997) 提出并在近期被进进巨巨巨巨巨
LSTM 过刻意的信息在实践中是是是为实践实践中中很很很很代代代代代代代代代代代的的的的的的的的的的的代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代代
所所所所所所具具具具标准
LSTM 同样是这样的结构, 但是重复的模块拥个拥拥拥拥特殊
不必担心这里的细节. 我们会一步一步地剖析 LSTM 解析图. 现在, 我们先来熟悉一下图中使用的各种元素的图标.
在上的图例中每条条传输着着一层. 合在一起的线表示向量的连接, 分开的线表示内容被复制, 然后分发到不同的位置.
LSTM 的核心思想.
LSTM 有通过精心设计的称作为 "门" 的结构来去除或者增加信息到细胞状态的能力. 门是一种让信息选择式通过的方法. 他们包含一个 sigmoid 神经网络层和一个 pointwise 乘法操作.
Sigmoid 层输出 0 到 1 之间的数值, 描述每个部分有多少量可以通过 .0 代表 "不许任何量通过", 1 就指 "允许任意量通过"!
在我们中们们们们从从状态给每个在细胞状态 C_ 中的数字 .1 表示 "完全保留", 0 表示 "完全舍弃".
下下是样样值向量到来来产产生对状态的更新
现在是更新旧细胞状态的时间了, C_ 更新为 C_t. 前面的步骤已经决定了将会做什么, 我们现在就是实际去完成.
们掉掉状态状态与与丢弃丢弃更更更更程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程程.
最终, 我们需要确定输出什么值. 这个输出将会基于我的细胞状态但也也细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞细胞状态通过 tanh 进行处理 (得到一个在 -1 到 1 之间的值) 并将它和 sigmoid 门的输出相乘, 最终我们仅仅会输出我们确定输出的那部分.
在语言模型的例子中, 因为他就看到了一个代词, 可能需要输出与个相关的信息信息例如知知知是是形变化.
们但都在不正常的的微的的的讲一下.
其中一个流形的 LSTM 变体, 就是由 Gers & amp; Schmidhuber (2000) 提出的, 增加了 "conexão peephole". 是说, 我们让门层也会接受细胞状态的输入.
上面的图例中, 我们增加了 peephole 到每个门上, 但是许多论文会加入部分的 peephole 而非所有都加.
另一个变体是通过使用 acoplado 忘记和输入门. 不同于之前是分开确定什么忘记需要添加什么新的信息, 这里是一同做出决定. 我们仅仅会们我们将要输入在当前位置时忘记. 我们仅仅输入新的值那些们们们忘记旧的信息的那些状态.
另一个改动较大的变体是 Gated Recurrent Unit (GRU), 这是由 Cho, et al. (2017) 提出提出的更更更的的变体.
这里只是部分流行的 LSTM 变体. 当然还有很多其他的, 如 Yao, et al. (2018) 提出的 Depth Gated RNN. 还有用一些完全不同的观点来解决长期依赖的问题, 如 Koutnik, et al. (2017) 提出的 Clock RNN.
要问哪个变体是最好的? 其中的差异性真的重要吗? Greff, et al. (2018) 给出了流行变体的比较, 结论是他们基本上是一样的. Jozefowicz, et al. (2018) 则在超过 1 万种 RNN 架构上进行了测试, 发现一些架构在某些任务上也取得了比比较更好的结果.
刚开始我我过过过过过任更
由于 LSTM 一般是通过一系列的方程表示的, 使得 LSTM 有一点令人费解. 然而本文中一步一步地解释让这种困惑消除了不少.
LSTM 是我在在中很自然自然自然自然自然自然重呢下下已经已经了是是是是是图片图片的部分, 根据这部分信息来产生输出的词. 实际上, Xu, et al. (2018) 已经这么做了 - 如果你希望深入探索注意力可能这就是一个有趣的起点! 还有一些使用注意力的相当振奋人心的研究成果, 看起来有更多的东西亟待探索 ......
Agradeço a várias pessoas por me ajudar a entender melhor os LSTMs, comentando as visualizações e fornecendo comentários sobre esta publicação.
Agradeço aos meus colegas do Google os seus comentários úteis, especialmente Oriol Vinyals, Greg Corrado, Jon Shlens, Luke Vilnis e Ilya Sutskever. Agradeço também a muitos outros amigos e colegas por terem tido tempo para me ajudar, incluindo Dario Amodei e Jacob Steinhardt. Estou especialmente agradecido com Kyunghyun Cho por uma correspondência extremamente pensativa sobre meus diagramas.
Antes desta publicação, pratiquei explicar LSTMs durante duas séries de seminários que ensinei em redes neurais. Obrigado a todos os que participaram daqueles por sua paciência comigo e por seus comentários.
我是 Neil 朱小虎, 简书 ID Not_GOD, Universidade AI 创始人 & amp; CH.

Search This Blog

Taxa de câmbio on-line Vila Velha

Forex lstm

Comments

Post a Comment

Popular posts from this blog

Sistema forex de 100 lucros

Violação forex fifo

Compreendendo castiçais japoneses wmv