Empresa monta infraestrutura de IA local com três Mac Studio para atender cerca de 200 funcionários

Uma empresa decidiu trocar a estratégia de concentrar toda a inteligência artificial em um único servidor por uma arquitetura distribuída formada por três Mac Studio M2 Ultra. Segundo o autor da publicação no Reddit, a mudança permitiu distribuir as solicitações entre diferentes máquinas, reduzindo filas de processamento e mantendo todos os dados dentro da rede local da organização.

O projeto foi publicado no subreddit r/LocalAIServers pelo usuário “deebuildsthings”. Ele mostra que utiliza computadores da Apple de segunda mão trabalhando em conjunto com mais de cem notebooks antigos usados apenas como estações de acesso para os funcionários. Segundo o autor, a intenção era construir uma infraestrutura que exigisse menos energia, refrigeração e investimento do que um servidor tradicional. A publicação inclui fotografias da instalação e descreve o hardware utilizado.

Local host 3 Mac Studios stacked = private AI fleet for the whole office
by
u/deebuildsthings in
LocalAIServers

 

Por que abandonar um único servidor

O principal problema da configuração anterior não era potência de processamento, mas o fato de todas as solicitações passarem pela mesma fila. Quando um usuário executava uma consulta pesada, outros funcionários precisavam esperar o término desse processamento antes de receber respostas. O autor afirma que a nova arquitetura resolveu esse gargalo distribuindo automaticamente cada requisição entre três mecanismos independentes.

Essa distribuição é feita por um software chamado Grid, citado na publicação como responsável por encaminhar cada solicitação para a máquina menos ocupada naquele momento.

Como a infraestrutura foi montada

Cada computador utilizado é um Mac Studio M2 Ultra equipado com 192 GB de memória unificada e SSD de 2 TB.

Os modelos Qwen 3.6-35B-A3B são executados localmente por meio do Ollama. A geração de imagens utiliza ComfyUI. cada Mac consegue atender aproximadamente 17 sessões simultâneas. Somadas, as três máquinas poderiam atender cerca de 50 sessões concorrentes. Considerando uma taxa média de utilização de 25%, ele estima que a infraestrutura seria suficiente para aproximadamente 200 funcionários.

Esses números são apresentados exclusivamente pelo autor da publicação e não puderam ser confirmados de forma independente.

Memória unificada é uma das vantagens apontadas

A escolha do Mac Studio está ligada principalmente à memória unificada.

O M2 Ultra oferece largura de banda de até 800 GB/s, permitindo que grandes modelos de linguagem utilizem praticamente toda a memória disponível sem a separação tradicional entre RAM e VRAM, isso reduz limitações encontradas em GPUs com 24 GB de memória dedicada quando são utilizados contextos muito extensos. As especificações de memória e largura de banda correspondem às características oficiais do chip M2 Ultra. 

Privacidade foi outro motivo para a mudança

Ele afirma que a empresa produz textos para redes sociais, pesquisas internas, documentos e imagens utilizando IA. A motivação para executar tudo localmente foi evitar o envio de documentos corporativos para serviços em nuvem e eliminar custos recorrentes de plataformas cobradas por usuário.

Segundo ele, isso torna a solução interessante principalmente para organizações que lidam com informações confidenciais.

Nos comentários, o próprio autor cita escritórios de advocacia, empresas da área financeira e organizações de saúde como possíveis usuários desse tipo de arquitetura, justamente por restrições relacionadas ao tratamento de dados internos. Essas observações representam opiniões do autor da publicação.

A comunidade sugeriu outras abordagens

Embora a ideia tenha despertado interesse, diversos participantes do Reddit questionaram algumas escolhas técnicas.

Entre as sugestões aparecem ferramentas como vLLM, MLX, llama.cpp e Exo, que poderiam oferecer melhor aproveitamento do hardware da Apple ou permitir a distribuição de modelos maiores entre as máquinas.

O autor respondeu que escolheu o Ollama por ser mais simples para funcionários sem experiência técnica e afirmou que pretende estudar melhorias como conexões Thunderbolt entre os Mac Studio e novas formas de simplificar a configuração dos clientes.

O projeto ainda é experimental

Apesar dos resultados apresentados, o próprio autor reconhece limitações.

Cada computador cliente ainda precisa ser configurado manualmente para acessar a infraestrutura, processo que leva aproximadamente dez minutos por máquina segundo a publicação, também existe dependência da rede local para que os agentes funcionem corretamente.

Por enquanto, a principal dificuldade relatada não é desempenho do hardware, mas convencer os funcionários a incorporar ferramentas de IA ao fluxo diário de trabalho. Segundo o autor, essa adaptação ainda representa o maior desafio do projeto.

Você também deve ler!

“Meu quarto está ficando muito quente”, desenvolvedor relata problemas com seu servidor caseiro com 5 placas de vídeo para IA

Um Galaxy Note 10+ que virou NAS: Brasileiro transforma celular com tela quebrada em servidor de arquivos na rede e celebra: “eu tô genuinamente muito feliz”

Leia mais

Variedades
Água de arroz nas plantas: o segredo japonês que deixa as folhas verdes e brilhantes em poucos dias 
Tecnologia
Como um cabo instalado ao contrário fez duas RTX 4090D de um servidor com 8 GPUs operarem a apenas 10% do desempenho
Sorocaba
‘Médico na Praça’ atende no Jardim São Conrado nesta segunda e terça-feira (29 e 30 de junho)
Variedades
Nem veneno nem spray caro: esta planta aromática pode ajudar a manter mosquitos longe de casa
Tecnologia
Fechadura Digital Intelbras FR 102 com super desconto de 45% na Amazon
Variedades
Novo espaço cultural do Sesc deve triplicar atendimentos em Paraty

Mais lidas hoje