Uma nova análise do Nieman Lab indica que mais de 340 sites de notícias locais nos Estados Unidos estão limitando a capacidade do Internet Archive de acessar e preservar suas matérias. O levantamento, realizado em maio, mostra um aumento em relação aos 241 sites identificados em janeiro, quando o laboratório divulgou pela primeira vez a tendência de bloqueios por grandes editoras.

De acordo com a pesquisa, muitos desses veículos pertencem a cinco dos sete maiores grupos de notícias locais do país: USA Today Co., McClatchy, Advance Local, MediaNews Group e Tribune Publishing. Os dois últimos são subsidiários do fundo de hedge Alden Global Capital, conhecido por adquirir jornais e reduzir custos agressivamente. A amostra final inclui sites em 10 países, mas 93% estão sediados nos Estados Unidos.

Preocupação com inteligência artificial motiva restrições

O movimento começou após temores de que empresas de inteligência artificial pudessem extrair dados de treinamento dos repositórios do Internet Archive. Embora nenhuma editora tenha confirmado que isso ocorreu, a Advance Local, subsidiária da Advance Publications, afirmou ao Nieman Lab que passou a bloquear o acesso em agosto do ano passado como medida preventiva. Christine deWit, porta-voz do grupo, declarou que a decisão integra um esforço para proteger o valor do trabalho publicado contra uso indevido por terceiros.

A Alden Global Capital também implementou restrições. Cerca de 60 sites do MediaNews Group e sete publicações da Tribune Publishing, incluindo o Chicago Tribune, agora limitam o acesso. Em julho de 2025, a Alden publicou um editorial em mais de 60 de seus jornais criticando a OpenAI e outras empresas de IA por usarem conteúdo jornalístico sem compensação. Ambas as editoras da Alden são parte de um processo por violação de direitos autorais contra OpenAI e Microsoft, que tramita na Justiça federal.

Impacto na preservação e no trabalho de jornalistas

Pesquisadores, historiadores e jornalistas dependem dos arquivos online para realizar seu trabalho. Bernard Reilly, bibliotecário de jornalismo da Universidade de Missouri, alertou que bloquear os rastreadores do Internet Archive enfraquece um elo vital na preservação de fontes primárias. Jornalistas como BJ Mendelson, editor do boletim The Monroe Gazette, relataram que, sem o Wayback Machine, seu trabalho se tornaria incrivelmente difícil, especialmente em áreas com poucos recursos informativos.

Mark Graham, fundador do Wayback Machine, disse ao Nieman Lab que a organização mantém diálogo com editoras e implementou sistemas para limitar downloads em massa, além de monitorar atividade de bots em parceria com a Cloudflare. Ele ressaltou que os termos de uso permitem o acesso às coleções apenas para fins acadêmicos ou de pesquisa.

Debate sobre atribuição e licenciamento

Para algumas publicações, a restrição visa garantir a correta atribuição do conteúdo. Subhajit Ganguly, diretor de tecnologia do The Baltimore Banner, explicou que o jornal bloqueou o Internet Archive após descobrir que 25% do tráfego do site vinha de bots. O temor é que produtos de IA usem as matérias sem referência ou link para a fonte original. O Banner ainda permite o acesso de rastreadores de grandes empresas de IA, como os usados pelo ChatGPT e Claude.

Meredith Broussard, professora da Universidade de Nova York, observou que a disputa reflete uma batalha antiga sobre propriedade intelectual, agora catalisada pelas empresas de IA. Ela destacou que arquivos comerciais como ProQuest e LexisNexis continuam disponíveis, mas não gratuitos, e que as organizações de notícias precisam de estratégias multifacetadas de preservação.

Bloqueios se expandem para grandes editoras

Além dos veículos locais, a Condé Nast bloqueou quatro bots do Internet Archive em publicações como Vogue, The New Yorker e Wired. The Atlantic também adotou uma política agressiva de bloqueio, segundo Anna Bross, vice-presidente sênior de comunicações. Nicholas Thompson, CEO do The Atlantic, afirmou que a medida é importante para manter poder de negociação em contratos de licenciamento com empresas de IA.

No Brasil, a Folha de S.Paulo adicionou três agentes de usuário do Internet Archive ao seu arquivo robots.txt em fevereiro. Sérgio Dávila, editor-chefe, defendeu que a sustentabilidade do jornalismo profissional depende da proteção da propriedade intelectual e que empresas de IA devem firmar contratos de licenciamento em vez de usar repositórios de terceiros.

Iniciativas de preservação e desafios futuros

O Internet Archive, em parceria com o Poynter Institute e a Investigative Reporters and Editors, capacitou 33 redações em estratégias de arquivamento digital, com meta de alcançar 300 até o final de 2027. A maioria dos participantes são veículos locais independentes e sem fins lucrativos. A Wired é a única publicação da amostra que restringe o acesso e integra o programa.

Broussard ressaltou que, embora o Internet Archive seja um esforço notável, a preservação digital exige planejamento de longo prazo. "Toda organização de notícias, especialmente as locais, geralmente começa pensando: 'vamos colocar conteúdo na internet e ele ficará lá para sempre', e isso não é verdade", afirmou.

Com informações de Poder360.