Modelos de linguagem grandes (LLMs) surgiram como uma pedra angular da IA atual, impulsionando inovações e remodelando a forma como interagimos com a tecnologia.
À medida que esses modelos se tornam cada vez mais sofisticados, há uma ênfase crescente na democratização do acesso a eles. Os modelos de código aberto, em particular, estão desempenhando um papel fundamental nessa democratização, oferecendo a pesquisadores, desenvolvedores e entusiastas a oportunidade de se aprofundar em suas complexidades, ajustá-los para tarefas específicas ou até mesmo desenvolver suas bases.
Neste blog, exploraremos alguns dos principais LLMs de código aberto que estão causando sucesso na comunidade de IA. Cada um traz seus pontos fortes e capacidades exclusivos para a mesa.
1. lhama 3
O Llama 3 da Meta representa um salto monumental em sua linha de modelos de linguagem de código aberto de grande porte. Como sucessor do inovador Llama 2 lançado em 2023, o Llama 3 estabelece um novo estado da arte para modelos disponíveis abertamente nas escalas de parâmetros 8B e 70B. Esta não é apenas uma atualização incremental; é um avanço transformador que permitirá aos desenvolvedores criar aplicativos de linguagem natural de ponta, ao mesmo tempo que estimula a pesquisa aberta e a inovação em IA.
O desempenho incomparável do Llama 3 se deve a grandes melhorias em seu processo e arquitetura de pré-treinamento. O modelo foi treinado em um enorme conjunto de dados de mais de 15 trilhões de tokens de fontes disponíveis publicamente, um número surpreendente de 7 vezes mais dados do que o Llama 2. Isso inclui 4 vezes mais dados de código para aumentar as capacidades de codificação do Llama 3, bem como uma cobertura significativa de mais de 30 idiomas para estabelecer as bases para futuras versões multilíngues. Uma filtragem extensiva foi usada para selecionar esses dados, garantindo que o Llama 3 aprendisse apenas com fontes da mais alta qualidade.
Mas as melhorias do Llama 3 vão além de apenas mais dados. Otimizações de ponta na arquitetura do modelo e no processo de treinamento melhoraram substancialmente suas habilidades de raciocínio, geração de código, seguimento de instruções e diversidade de respostas. Um tokenizer aprimorado torna o Llama 3 até 15% mais eficiente em termos de tokens do que seu antecessor. A atenção de consulta agrupada permite que o modelo 8B mantenha a paridade de inferência com o modelo 7B anterior.
Search
Melhor de5 melhores LLMs de código aberto (novembro de 2024)Atualização do on 31 de outubro de 2024By Alex McFarland e Antoine TardifLLMs de código aberto
Modelos de linguagem grandes (LLMs) surgiram como uma pedra angular da IA atual, impulsionando inovações e remodelando a forma como interagimos com a tecnologia.
À medida que esses modelos se tornam cada vez mais sofisticados, há uma ênfase crescente na democratização do acesso a eles. Os modelos de código aberto, em particular, estão desempenhando um papel fundamental nessa democratização, oferecendo a pesquisadores, desenvolvedores e entusiastas a oportunidade de se aprofundar em suas complexidades, ajustá-los para tarefas específicas ou até mesmo desenvolver suas bases.
Neste blog, exploraremos alguns dos principais LLMs de código aberto que estão causando sucesso na comunidade de IA. Cada um traz seus pontos fortes e capacidades exclusivos para a mesa.
1. lhama 3
Metas LLAMA 3 simplesmente surpreendeu a todos! (GPT-4 de código aberto)
O Llama 3 da Meta representa um salto monumental em sua linha de modelos de linguagem de código aberto de grande porte. Como sucessor do inovador Llama 2 lançado em 2023, o Llama 3 estabelece um novo estado da arte para modelos disponíveis abertamente nas escalas de parâmetros 8B e 70B. Esta não é apenas uma atualização incremental; é um avanço transformador que permitirá aos desenvolvedores criar aplicativos de linguagem natural de ponta, ao mesmo tempo que estimula a pesquisa aberta e a inovação em IA.
O desempenho incomparável do Llama 3 se deve a grandes melhorias em seu processo e arquitetura de pré-treinamento. O modelo foi treinado em um enorme conjunto de dados de mais de 15 trilhões de tokens de fontes disponíveis publicamente, um número surpreendente de 7 vezes mais dados do que o Llama 2. Isso inclui 4 vezes mais dados de código para aumentar as capacidades de codificação do Llama 3, bem como uma cobertura significativa de mais de 30 idiomas para estabelecer as bases para futuras versões multilíngues. Uma filtragem extensiva foi usada para selecionar esses dados, garantindo que o Llama 3 aprendisse apenas com fontes da mais alta qualidade.
Mas as melhorias do Llama 3 vão além de apenas mais dados. Otimizações de ponta na arquitetura do modelo e no processo de treinamento melhoraram substancialmente suas habilidades de raciocínio, geração de código, seguimento de instruções e diversidade de respostas. Um tokenizer aprimorado torna o Llama 3 até 15% mais eficiente em termos de tokens do que seu antecessor. A atenção de consulta agrupada permite que o modelo 8B mantenha a paridade de inferência com o modelo 7B anterior.
Fonte: Meta
O resultado final é um modelo de linguagem que se destaca em uma ampla variedade de tarefas complexas de linguagem:
Geração criativa: O Llama 3 pode gerar textos altamente coerentes e criativos na forma de histórias, roteiros, peças musicais, poemas e muito mais.
Codificação e raciocínio: Graças aos seus dados de treinamento de código aprimorados, o Llama 3 possui habilidades de codificação e raciocínio lógico incrivelmente fortes para lidar com problemas complexos.
Resposta a Perguntas: Ao conectar informações em sua ampla base de conhecimento, o Llama 3 pode fornecer respostas profundamente informadas a perguntas sobre diversos tópicos.
Resumo: Llama 3 é especialista em produzir resumos concisos, porém abrangentes, de artigos longos e conteúdo factual.
Instrução seguinte: Um dos feitos mais impressionantes do Llama 3 é sua capacidade de seguir com precisão instruções complexas de várias etapas para tarefas abertas.
O futuro é brilhante para a série Llama. A Meta já está desenvolvendo versões do Llama 3 com mais de 400B de parâmetros que não são apenas maiores, mas também multilíngues e multimodais. Os primeiros testes mostram que esses modelos de escala ultralarga oferecem resultados promissores, competitivos com os melhores sistemas proprietários.
2. Florescer
Search
Melhor de5 melhores LLMs de código aberto (novembro de 2024)Atualização do on 31 de outubro de 2024By Alex McFarland e Antoine TardifLLMs de código aberto
Modelos de linguagem grandes (LLMs) surgiram como uma pedra angular da IA atual, impulsionando inovações e remodelando a forma como interagimos com a tecnologia.
À medida que esses modelos se tornam cada vez mais sofisticados, há uma ênfase crescente na democratização do acesso a eles. Os modelos de código aberto, em particular, estão desempenhando um papel fundamental nessa democratização, oferecendo a pesquisadores, desenvolvedores e entusiastas a oportunidade de se aprofundar em suas complexidades, ajustá-los para tarefas específicas ou até mesmo desenvolver suas bases.
Neste blog, exploraremos alguns dos principais LLMs de código aberto que estão causando sucesso na comunidade de IA. Cada um traz seus pontos fortes e capacidades exclusivos para a mesa.
1. lhama 3
Metas LLAMA 3 simplesmente surpreendeu a todos! (GPT-4 de código aberto)
O Llama 3 da Meta representa um salto monumental em sua linha de modelos de linguagem de código aberto de grande porte. Como sucessor do inovador Llama 2 lançado em 2023, o Llama 3 estabelece um novo estado da arte para modelos disponíveis abertamente nas escalas de parâmetros 8B e 70B. Esta não é apenas uma atualização incremental; é um avanço transformador que permitirá aos desenvolvedores criar aplicativos de linguagem natural de ponta, ao mesmo tempo que estimula a pesquisa aberta e a inovação em IA.
O desempenho incomparável do Llama 3 se deve a grandes melhorias em seu processo e arquitetura de pré-treinamento. O modelo foi treinado em um enorme conjunto de dados de mais de 15 trilhões de tokens de fontes disponíveis publicamente, um número surpreendente de 7 vezes mais dados do que o Llama 2. Isso inclui 4 vezes mais dados de código para aumentar as capacidades de codificação do Llama 3, bem como uma cobertura significativa de mais de 30 idiomas para estabelecer as bases para futuras versões multilíngues. Uma filtragem extensiva foi usada para selecionar esses dados, garantindo que o Llama 3 aprendisse apenas com fontes da mais alta qualidade.
Mas as melhorias do Llama 3 vão além de apenas mais dados. Otimizações de ponta na arquitetura do modelo e no processo de treinamento melhoraram substancialmente suas habilidades de raciocínio, geração de código, seguimento de instruções e diversidade de respostas. Um tokenizer aprimorado torna o Llama 3 até 15% mais eficiente em termos de tokens do que seu antecessor. A atenção de consulta agrupada permite que o modelo 8B mantenha a paridade de inferência com o modelo 7B anterior.
Fonte: Meta
O resultado final é um modelo de linguagem que se destaca em uma ampla variedade de tarefas complexas de linguagem:
Geração criativa: O Llama 3 pode gerar textos altamente coerentes e criativos na forma de histórias, roteiros, peças musicais, poemas e muito mais.
Codificação e raciocínio: Graças aos seus dados de treinamento de código aprimorados, o Llama 3 possui habilidades de codificação e raciocínio lógico incrivelmente fortes para lidar com problemas complexos.
Resposta a Perguntas: Ao conectar informações em sua ampla base de conhecimento, o Llama 3 pode fornecer respostas profundamente informadas a perguntas sobre diversos tópicos.
Resumo: Llama 3 é especialista em produzir resumos concisos, porém abrangentes, de artigos longos e conteúdo factual.
Instrução seguinte: Um dos feitos mais impressionantes do Llama 3 é sua capacidade de seguir com precisão instruções complexas de várias etapas para tarefas abertas.
O futuro é brilhante para a série Llama. A Meta já está desenvolvendo versões do Llama 3 com mais de 400B de parâmetros que não são apenas maiores, mas também multilíngues e multimodais. Os primeiros testes mostram que esses modelos de escala ultralarga oferecem resultados promissores, competitivos com os melhores sistemas proprietários.
Fonte: Meta
Visite Lhama 3 →
2. Florescer
Introdução ao Bloom AI de código aberto
Em 2022, o projeto BLOOM foi lançado após um esforço colaborativo de um ano liderado pela empresa de IA Hugging Face, envolvendo mais de 1,000 pesquisadores voluntários de mais de 70 países. BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) é um modelo de linguagem grande de 176 bilhões de parâmetros projetado para geração de texto autorregressivo, capaz de estender um determinado prompt de texto para gerar histórias, roteiros, poesias, artigos coerentes e muito mais.
O que diferencia o BLOOM é a sua natureza de acesso aberto – o modelo, o código-fonte e os dados de treinamento estão todos disponíveis gratuitamente sob licenças abertas, em contraste com a maioria dos outros grandes modelos de linguagem desenvolvidos por empresas de tecnologia. Esta abertura convida ao exame, utilização e aprimoramento contínuos do modelo pela comunidade mais ampla de IA.
O BLOOM possui capacidades multilíngues impressionantes, tendo sido treinado em um vasto conjunto de dados de 1.6 TB (o corpus ROOTS) abrangendo 46 linguagens naturais e 13 linguagens de programação, com mais de 30% dos dados sendo em inglês. Para muitos idiomas como espanhol e árabe, o BLOOM é o primeiro modelo do seu tamanho.
O modelo foi treinado durante 3.5 meses no supercomputador Jean Zay, na França, usando 384 GPUs NVIDIA A100, possibilitado por uma doação de computação do governo francês – o que equivale a mais de 5 milhões de horas de computação. Baseado na arquitetura GPT com modificações, o BLOOM alcança desempenho competitivo em benchmarks.
Principais pontos fortes do BLOOM:
Acesso livre: O modelo, o código e os dados de treinamento do BLOOM estão disponíveis gratuitamente, democratizando o acesso a modelos de linguagem poderosos e permitindo pesquisas abertas.
Proficiência Multilíngue: Treinado em dados abrangendo 46 linguagens naturais e 13 linguagens de programação, o BLOOM possui amplos recursos multilíngues.
Habilidades linguísticas versáteis: Da geração de texto à resposta a perguntas, resumo, tradução e geração de código, o BLOOM se destaca em uma variedade de tarefas linguísticas.
Desenvolvimento responsável de IA: O BLOOM foi desenvolvido com foco em práticas responsáveis de IA e é lançado sob uma licença que proíbe casos de uso malicioso.
Fácil implantação: Os desenvolvedores podem acessar o BLOOM por meio da biblioteca Hugging Face Transformers e implantá-lo usando o Accelerate.
Olhando para o futuro, a equipe da BigScience planeja expandir o BLOOM para mais linguagens, compactar o modelo e usá-lo como ponto de partida para arquiteturas mais avançadas. O BLOOM representa um passo importante para tornar os grandes modelos de linguagem mais transparentes e acessíveis a todos.
3. MPT-7B
MosaicML Foundations fez uma contribuição significativa para este espaço com a introdução do MPT-7B, seu mais recente LLM de código aberto. MPT-7B, um acrônimo para MosaicML Pretrained Transformer, é um modelo de transformador somente decodificador no estilo GPT. Este modelo possui vários aprimoramentos, incluindo implementações de camada otimizada para desempenho e mudanças arquitetônicas que garantem maior estabilidade de treinamento.
Um recurso de destaque do MPT-7B é seu treinamento em um extenso conjunto de dados que compreende 1 trilhão de tokens de texto e código. Esse treinamento rigoroso foi executado na plataforma MosaicML durante um período de 9.5 dias.
A natureza de código aberto do MPT-7B o posiciona como uma ferramenta valiosa para aplicações comerciais. Ele tem o potencial de impactar significativamente a análise preditiva e os processos de tomada de decisão de empresas e organizações.
Além do modelo básico, o MosaicML Foundations também está lançando modelos especializados adaptados para tarefas específicas, como MPT-7B-Instruct para instruções curtas, MPT-7B-Chat para geração de diálogos e MPT-7B-StoryWriter-65k+ para a criação de histórias de formato longo.
A jornada de desenvolvimento do MPT-7B foi abrangente, com a equipe MosaicML gerenciando todos os estágios, desde a preparação dos dados até a implantação em algumas semanas. Os dados foram obtidos de diversos repositórios, e a equipe utilizou ferramentas como o GPT-NeoX da EleutherAI e o tokenizer 20B para garantir um mix de treinamento variado e abrangente.
Visão geral dos principais recursos do MPT-7B:
Licenciamento Comercial: O MPT-7B é licenciado para uso comercial, tornando-o um recurso valioso para as empresas.
Dados de treinamento extensivos: O modelo possui treinamento em um vasto conjunto de dados de 1 trilhão de tokens.
Manipulação de entrada longa: O MPT-7B foi projetado para processar entradas extremamente longas sem comprometer.
Velocidade e eficiência: O modelo é otimizado para treinamento e inferência rápidos, garantindo resultados oportunos.
Código-fonte aberto: O MPT-7B vem com código de treinamento de código aberto eficiente, promovendo transparência e facilidade de uso.
Excelência comparativa: O MPT-7B demonstrou superioridade em relação a outros modelos de código aberto na faixa 7B-20B, com qualidade equivalente à do LLaMA-7B.
4. F
Search
Melhor de5 melhores LLMs de código aberto (novembro de 2024)Atualização do on 31 de outubro de 2024By Alex McFarland e Antoine TardifLLMs de código aberto
Modelos de linguagem grandes (LLMs) surgiram como uma pedra angular da IA atual, impulsionando inovações e remodelando a forma como interagimos com a tecnologia.
À medida que esses modelos se tornam cada vez mais sofisticados, há uma ênfase crescente na democratização do acesso a eles. Os modelos de código aberto, em particular, estão desempenhando um papel fundamental nessa democratização, oferecendo a pesquisadores, desenvolvedores e entusiastas a oportunidade de se aprofundar em suas complexidades, ajustá-los para tarefas específicas ou até mesmo desenvolver suas bases.
Neste blog, exploraremos alguns dos principais LLMs de código aberto que estão causando sucesso na comunidade de IA. Cada um traz seus pontos fortes e capacidades exclusivos para a mesa.
1. lhama 3
Metas LLAMA 3 simplesmente surpreendeu a todos! (GPT-4 de código aberto)
O Llama 3 da Meta representa um salto monumental em sua linha de modelos de linguagem de código aberto de grande porte. Como sucessor do inovador Llama 2 lançado em 2023, o Llama 3 estabelece um novo estado da arte para modelos disponíveis abertamente nas escalas de parâmetros 8B e 70B. Esta não é apenas uma atualização incremental; é um avanço transformador que permitirá aos desenvolvedores criar aplicativos de linguagem natural de ponta, ao mesmo tempo que estimula a pesquisa aberta e a inovação em IA.
O desempenho incomparável do Llama 3 se deve a grandes melhorias em seu processo e arquitetura de pré-treinamento. O modelo foi treinado em um enorme conjunto de dados de mais de 15 trilhões de tokens de fontes disponíveis publicamente, um número surpreendente de 7 vezes mais dados do que o Llama 2. Isso inclui 4 vezes mais dados de código para aumentar as capacidades de codificação do Llama 3, bem como uma cobertura significativa de mais de 30 idiomas para estabelecer as bases para futuras versões multilíngues. Uma filtragem extensiva foi usada para selecionar esses dados, garantindo que o Llama 3 aprendisse apenas com fontes da mais alta qualidade.
Mas as melhorias do Llama 3 vão além de apenas mais dados. Otimizações de ponta na arquitetura do modelo e no processo de treinamento melhoraram substancialmente suas habilidades de raciocínio, geração de código, seguimento de instruções e diversidade de respostas. Um tokenizer aprimorado torna o Llama 3 até 15% mais eficiente em termos de tokens do que seu antecessor. A atenção de consulta agrupada permite que o modelo 8B mantenha a paridade de inferência com o modelo 7B anterior.
Fonte: Meta
O resultado final é um modelo de linguagem que se destaca em uma ampla variedade de tarefas complexas de linguagem:
Geração criativa: O Llama 3 pode gerar textos altamente coerentes e criativos na forma de histórias, roteiros, peças musicais, poemas e muito mais.
Codificação e raciocínio: Graças aos seus dados de treinamento de código aprimorados, o Llama 3 possui habilidades de codificação e raciocínio lógico incrivelmente fortes para lidar com problemas complexos.
Resposta a Perguntas: Ao conectar informações em sua ampla base de conhecimento, o Llama 3 pode fornecer respostas profundamente informadas a perguntas sobre diversos tópicos.
Resumo: Llama 3 é especialista em produzir resumos concisos, porém abrangentes, de artigos longos e conteúdo factual.
Instrução seguinte: Um dos feitos mais impressionantes do Llama 3 é sua capacidade de seguir com precisão instruções complexas de várias etapas para tarefas abertas.
O futuro é brilhante para a série Llama. A Meta já está desenvolvendo versões do Llama 3 com mais de 400B de parâmetros que não são apenas maiores, mas também multilíngues e multimodais. Os primeiros testes mostram que esses modelos de escala ultralarga oferecem resultados promissores, competitivos com os melhores sistemas proprietários.
Fonte: Meta
Visite Lhama 3 →
2. Florescer
Introdução ao Bloom AI de código aberto
Em 2022, o projeto BLOOM foi lançado após um esforço colaborativo de um ano liderado pela empresa de IA Hugging Face, envolvendo mais de 1,000 pesquisadores voluntários de mais de 70 países. BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) é um modelo de linguagem grande de 176 bilhões de parâmetros projetado para geração de texto autorregressivo, capaz de estender um determinado prompt de texto para gerar histórias, roteiros, poesias, artigos coerentes e muito mais.
O que diferencia o BLOOM é a sua natureza de acesso aberto – o modelo, o código-fonte e os dados de treinamento estão todos disponíveis gratuitamente sob licenças abertas, em contraste com a maioria dos outros grandes modelos de linguagem desenvolvidos por empresas de tecnologia. Esta abertura convida ao exame, utilização e aprimoramento contínuos do modelo pela comunidade mais ampla de IA.
O BLOOM possui capacidades multilíngues impressionantes, tendo sido treinado em um vasto conjunto de dados de 1.6 TB (o corpus ROOTS) abrangendo 46 linguagens naturais e 13 linguagens de programação, com mais de 30% dos dados sendo em inglês. Para muitos idiomas como espanhol e árabe, o BLOOM é o primeiro modelo do seu tamanho.
O modelo foi treinado durante 3.5 meses no supercomputador Jean Zay, na França, usando 384 GPUs NVIDIA A100, possibilitado por uma doação de computação do governo francês – o que equivale a mais de 5 milhões de horas de computação. Baseado na arquitetura GPT com modificações, o BLOOM alcança desempenho competitivo em benchmarks.
Principais pontos fortes do BLOOM:
Acesso livre: O modelo, o código e os dados de treinamento do BLOOM estão disponíveis gratuitamente, democratizando o acesso a modelos de linguagem poderosos e permitindo pesquisas abertas.
Proficiência Multilíngue: Treinado em dados abrangendo 46 linguagens naturais e 13 linguagens de programação, o BLOOM possui amplos recursos multilíngues.
Habilidades linguísticas versáteis: Da geração de texto à resposta a perguntas, resumo, tradução e geração de código, o BLOOM se destaca em uma variedade de tarefas linguísticas.
Desenvolvimento responsável de IA: O BLOOM foi desenvolvido com foco em práticas responsáveis de IA e é lançado sob uma licença que proíbe casos de uso malicioso.
Fácil implantação: Os desenvolvedores podem acessar o BLOOM por meio da biblioteca Hugging Face Transformers e implantá-lo usando o Accelerate.
Olhando para o futuro, a equipe da BigScience planeja expandir o BLOOM para mais linguagens, compactar o modelo e usá-lo como ponto de partida para arquiteturas mais avançadas. O BLOOM representa um passo importante para tornar os grandes modelos de linguagem mais transparentes e acessíveis a todos.
Visite Flor →
3. MPT-7B
MPT-7B - O primeiro modelo estilo LLaMA totalmente treinado e comercialmente utilizável
MosaicML Foundations fez uma contribuição significativa para este espaço com a introdução do MPT-7B, seu mais recente LLM de código aberto. MPT-7B, um acrônimo para MosaicML Pretrained Transformer, é um modelo de transformador somente decodificador no estilo GPT. Este modelo possui vários aprimoramentos, incluindo implementações de camada otimizada para desempenho e mudanças arquitetônicas que garantem maior estabilidade de treinamento.
Um recurso de destaque do MPT-7B é seu treinamento em um extenso conjunto de dados que compreende 1 trilhão de tokens de texto e código. Esse treinamento rigoroso foi executado na plataforma MosaicML durante um período de 9.5 dias.
A natureza de código aberto do MPT-7B o posiciona como uma ferramenta valiosa para aplicações comerciais. Ele tem o potencial de impactar significativamente a análise preditiva e os processos de tomada de decisão de empresas e organizações.
Além do modelo básico, o MosaicML Foundations também está lançando modelos especializados adaptados para tarefas específicas, como MPT-7B-Instruct para instruções curtas, MPT-7B-Chat para geração de diálogos e MPT-7B-StoryWriter-65k+ para a criação de histórias de formato longo.
A jornada de desenvolvimento do MPT-7B foi abrangente, com a equipe MosaicML gerenciando todos os estágios, desde a preparação dos dados até a implantação em algumas semanas. Os dados foram obtidos de diversos repositórios, e a equipe utilizou ferramentas como o GPT-NeoX da EleutherAI e o tokenizer 20B para garantir um mix de treinamento variado e abrangente.
Visão geral dos principais recursos do MPT-7B:
Licenciamento Comercial: O MPT-7B é licenciado para uso comercial, tornando-o um recurso valioso para as empresas.
Dados de treinamento extensivos: O modelo possui treinamento em um vasto conjunto de dados de 1 trilhão de tokens.
Manipulação de entrada longa: O MPT-7B foi projetado para processar entradas extremamente longas sem comprometer.
Velocidade e eficiência: O modelo é otimizado para treinamento e inferência rápidos, garantindo resultados oportunos.
Código-fonte aberto: O MPT-7B vem com código de treinamento de código aberto eficiente, promovendo transparência e facilidade de uso.
Excelência comparativa: O MPT-7B demonstrou superioridade em relação a outros modelos de código aberto na faixa 7B-20B, com qualidade equivalente à do LLaMA-7B.
Visite MPT-7B →
4. F
Implante o FALCON-180B instantaneamente! O NOVO modelo de IA de código aberto nº 1
*Vídeo sobre o Falcon 180B, o antecessor do Falcon 2
Falcon 2 é a última geração de modelos de linguagem grande de código aberto do Technology Innovation Institute (TII) em Abu Dhabi, aproveitando o sucesso de seus modelos anteriores Falcon 7B, 40B e 180B lançados em 2023. A série Falcon 2 inclui atualmente :
Falcão 2 11B: Um modelo apenas de decodificador causal de 11 bilhões de parâmetros que supera o LLaMA 3 8B da Meta e tem desempenho igual ao modelo Gemma 7B do Google em benchmarks padrão, conforme verificado pela tabela de classificação Hugging Face.
Falcão 2 11B VLM: Uma versão multimodal inovadora do Falcon 2 11B com recursos de visão para linguagem, tornando-o um dos únicos modelos de código aberto a oferecer essa funcionalidade.
Os modelos Falcon 2 são totalmente de código aberto sob a licença permissiva TII Falcon 2.0, baseada no Apache 2.0, mas com uma política de uso aceitável para promover o desenvolvimento responsável de IA. Isso permite o uso gratuito dos modelos para pesquisa e a maioria das aplicações comerciais.
Os modelos Falcon 2 foram treinados em mais de 5 trilhões de tokens do conjunto de dados RefinedWeb aprimorado, que inclui uma combinação diversificada de dados da web de alta qualidade, livros, textos técnicos, códigos e conversas. Extensas técnicas de filtragem e desduplicação foram usadas para extrair os melhores dados. Embora ainda se concentre principalmente no inglês, uma parte dos dados de formação abrange outras línguas, como alemão, espanhol, francês e italiano, estabelecendo as bases para futuros modelos multilingues.
O Falcon 2 utiliza uma arquitetura de transformador otimizada somente para decodificador que permite forte desempenho em uma escala menor em comparação com outros modelos abertos. A TII planeja aumentar ainda mais a eficiência usando técnicas como mistura de especialistas em lançamentos futuros.
Em termos de capacidades brutas, o Falcon 2 11B se destaca em uma ampla gama de tarefas de linguagem natural, incluindo:
Geração de texto de conteúdo longo e coerente, como histórias e artigos
Resposta a perguntas com conhecimento, conectando informações sobre diversos tópicos
Resumo de alta qualidade de artigos longos ou conteúdo factual
Instruções precisas seguindo quando ajustado
Desempenho sólido em benchmarks de codificação e raciocínio
A variante Falcon 2 11B VLM adiciona a capacidade única de compreender imagens e gerar texto com base em entradas visuais e de linguagem. Isso permite casos de uso multimodais poderosos, como resposta visual a perguntas, legendagem de imagens e raciocínio de visão para linguagem.
Olhando para o futuro, a TII compartilhou planos para expandir a série Falcon 2 com modelos maiores, mantendo o foco na eficiência e no acesso aberto. Técnicas como a mistura de especialistas serão aproveitadas para aumentar as capacidades sem aumentar drasticamente os requisitos computacionais.
5. Vicunha-13B
LMSYS ORG deixou uma marca significativa no domínio dos LLMs de código aberto com Vicuna-13B. Este chatbot de código aberto foi meticulosamente treinado ajustando o LLaMA em cerca de 70 mil conversas compartilhadas por usuários provenientes de ShareGPT.com usando APIs públicas. Para garantir a qualidade dos dados, as conversas foram convertidas de HTML novamente para markdown e filtradas para remover amostras inadequadas ou de baixa qualidade. Conversas longas também foram divididas em segmentos menores que se ajustam à duração máxima do contexto do modelo.
Avaliações preliminares, com GPT-4 atuando como juiz, indicaram que Vicuna-13B alcançou mais de 90% de qualidade de modelos renomados como OpenAI ChatGPT e Google Bard. Impressionantemente, o Vicuna-13B superou outros modelos notáveis, como LLaMA e Stanford Alpaca, em mais de 90% dos casos na época. Todo o processo de treinamento do Vicuna-13B foi executado a um custo de aproximadamente US$ 300, aproveitando técnicas como instâncias pontuais, checkpoint de gradiente e atenção flash para otimizar o uso de memória e reduzir custos. Para aqueles interessados em explorar suas capacidades, o código, os pesos e uma demonstração online foram disponibilizados publicamente para fins não comerciais.
A receita de treinamento para Vicuna baseia-se no modelo Alpaca de Stanford com várias melhorias importantes:
Conversas multivoltas: A perda de treinamento é ajustada para levar em conta conversas multivoltas, computando a perda de ajuste fino apenas na saída do chatbot.
Otimizações de memória: O comprimento máximo do contexto foi expandido de 512 no Alpaca para 2048 no Vicuna, permitindo a compreensão de contextos mais longos ao custo de maiores requisitos de memória da GPU. Isso é resolvido por meio de verificação de gradiente e atenção instantânea.
Redução de custos: Conjunto de dados 40 vezes maior e comprimento de sequência 4 vezes maior apresentaram desafios para despesas de treinamento, mas o emprego de instâncias spot gerenciadas via SkyPilot reduziu significativamente os custos – de US$ 82 mil para US$ 140 para o modelo 7B e de US$ 135 mil para US$ 300 para o modelo 13B.
Para atender a Vicuna, foi construído um sistema de atendimento distribuído capaz de lidar com vários modelos com trabalhadores que podem ser conectados de forma flexível a partir de clusters locais ou da nuvem. A utilização de controladores tolerantes a falhas e instâncias spot gerenciadas permite que este sistema funcione bem com instâncias spot mais baratas de várias nuvens para minimizar os custos de serviço. Embora atualmente seja uma implementação leve, estão em andamento trabalhos para integrar as pesquisas mais recentes para melhorar ainda mais a infraestrutura de serviço.
Principais recursos do Vicuna-13B:
Natureza de código aberto: A Vicunha-13B está disponível para acesso público, promovendo a transparência e o envolvimento da comunidade.
Dados de treinamento extensivos: O modelo foi treinado em 70 mil conversas compartilhadas por usuários, garantindo uma compreensão abrangente de diversas interações.
Treinamento econômico: Técnicas como instâncias spot gerenciadas, checkpoint de gradiente e atenção instantânea permitiram um treinamento econômico por cerca de US$ 300 para o modelo 13B.
Receita de treinamento aprimorada: Vicuna baseia-se na receita Alpaca com melhorias para processamento de conversas multivoltas, otimização de memória e redução de custos.
Infraestrutura de serviço distribuído: Um sistema de distribuição de serviços flexível e econômico foi construído para tornar a Vicuna acessível ao público.
Disponibilidade de Demonstração Online: Uma demonstração on-line interativa está disponível para os usuários testarem e experimentarem os recursos do Vicuna-13B.
É importante observar que a análise foi baseada em avaliações preliminares não científicas utilizando GPT-4. Ainda é necessária uma avaliação rigorosa.
O domínio em expansão de grandes modelos de linguagem
Grandes modelos de linguagem são um campo em rápido avanço, com novos modelos ampliando consistentemente os limites de desempenho e capacidades. A natureza de código aberto dos LLMs discutidas neste artigo demonstra o espírito colaborativo dentro da comunidade de IA e estabelece as bases para inovações futuras.
Esses modelos representam o que há de mais moderno em tecnologia LLM. Os modelos de código aberto desempenharão, sem dúvida, um papel significativo na promoção de novos avanços neste domínio.
Para pesquisadores, entusiastas de IA e aqueles interessados em explorar as aplicações potenciais desses modelos, agora é um momento oportuno para se envolver e aproveitar os amplos recursos oferecidos pelos LLMs de código aberto de ponta.
Fonte: https://www.unite.ai/pt/best-open-source-llms/