Automatizovaná content pipeline: od RSS feedu po publikaci bez zásahu člověka

Poslední týdny jsem strávil stavbou něčeho, co mi dlouho vrtalo hlavou – plně automatizovaného systému, který sleduje zahraniční technologické zdroje, vyhodnocuje, co je zajímavé, navrhuje originální témata, generuje celé články v češtině a publikuje je na web. Bez redaktora, bez ručního kopírování, bez tabulek s nápady.

Není to proof of concept. Pipeline běží, generuje obsah a publikuje ho. Tady je popis toho, jak to funguje, co jsem se naučil a kde to má limity.

Content Pipeline Case Study, Jan Kuneš, březen 2026 (pdf, 375 kB)

Proč jsem to stavěl

Kdysi jsem jako volnočasovou aktivitu provozoval obsahové weby. Byla to makačka – vyhledávat témata, psát články, publikovat je, řešit doprovodnou grafiku. Aktivita na webech umřela už před více než 12 lety, ale domény a obsah zůstal… Provozovat obsahový web v češtině totiž znamená řešit jeden zásadní problém: relevantní zprávy vznikají v angličtině, čtenáři je chtějí česky a mezi tím stojí člověk, který musí denně projít desítky zdrojů, vybrat, co stojí za pozornost, vymyslet úhel pohledu a napsat článek. To se špatně škáluje. Ještě hůř, pokud chcete provozovat víc než jeden web.

Chtěl jsem zjistit, jestli jde celý tento cyklus automatizovat tak, aby výstup měl rozumnou kvalitu a člověk do procesu vstupoval jen tam, kde to dává smysl – nebo vůbec.

Architektura: 5 workflows, žádná magie

Celý systém běží v n8n a skládá se z pěti samostatných workflow. Každé řeší jednu věc a komunikují spolu přes sdílené datové tabulky. Žádný monolitický mega-workflow, žádné složité větvení. Když něco selže, vím přesně kde.

Feed Collector sbírá články z pěti RSS feedů – GSMArena, Android Authority, 9to5Google, 9to5Mac a The Verge (ale mohl by jich být libovolný počet). Běží třikrát denně, normalizuje data do jednotné struktury a ukládá je s automatickou deduplikací. Články, které už v databázi jsou, se tiše přeskočí. Tohle je důležité – bez deduplikace by pozdější workflow přepisovaly statusy, které nastavily předchozí kroky.

Source Enrichment & Scoring vezme nové články a pošle je přes OpenAI. Model každý článek klasifikuje – hlavní téma, zmíněné značky a produkty, čtivost, novost informací, potenciál pro vlastní komentář. Z těchto dílčích hodnocení se deterministicky počítá finální skóre. Články nad 60 bodů jdou dál jako kandidáti, zbytek se vyřadí. AI tady nerozhoduje, jen dodává vstupy. Rozhoduje vzorec.

Topic Generator je nejzajímavější část. Vezme top 30 kandidátů a pošle je do GPT-5.4-mini najednou – ne po jednom. Model dostane kontext celého balíku a navrhne 5-10 originálních témat. Nejde o přepisování cizích zpráv. Každé téma musí mít vlastní úhel pohledu, zdůvodnění, proč právě teď, a doporučený formát (srovnání, analýza, nákupní průvodce, komentář). Témata nad 85 bodů se automaticky schválí ke generování.

Article Generator bere schválená témata a generuje celé články v češtině. 1000-2000 slov, publicistický styl, struktura s nadpisy, perex, meta popis, tagy. Klíčové je, že prompt explicitně vyžaduje českou lokalizaci – ceny v korunách, dostupnost v ČR, značky relevantní pro zdejší trh. Žádný překladový jazyk. Generuje se maximálně jeden článek za běh, aby se výstup rozprostřel přes celý den. Pro generování je používán model GPT-5.4.

WordPress Publisher převede Markdown na HTML a publikuje přes WordPress REST API. Včetně excerptu a aktualizace statusu v databázi. Jednoduchý, spolehlivý, bez zbytečností.

Datový model: 4 tabulky, jasný tok

Celý systém stojí na čtyřech n8n Data Tables:

source_articles_raw – surová data z feedů, 14 sloupců
source_articles_enriched – AI hodnocení, skóre, klasifikace
topic_candidates – navržená témata s úhlem pohledu a skóre
generated_articles – hotové články připravené k publikaci

Každá tabulka má sloupec status, který řídí tok dat mezi workflow. Článek z feedu projde stavy new → candidate → topic_generated → approved → generated → media_ready → published. Každý přechod provádí jiné workflow. Když se něco zasekne, stačí se podívat, kde zůstal status.

Lokalizace: ne překlad, ale kontext

Všechny AI prompty jsou naladěné na český a evropský trh. To neznamená jen „piš česky“. Znamená to:

V hodnocení článků mají vyšší skóre produkty dostupné v Evropě, evropské ceny, regulace EU. Americké operátorské nabídky nebo US-only funkce se penalizují. V návrzích témat se preferují značky silné na českém trhu – Samsung, Apple, Xiaomi, Poco, Motorola, Nothing. Titulky se navrhují rovnou v češtině. V generování článků se vyžaduje publicistická čeština, ne překladový jazyk. Ceny v korunách, dostupnost v českých obchodech, srovnání relevantní pro zdejšího kupujícího.

Tohle je podle mě klíčový rozdíl oproti přístupu „necháme AI napsat článek v angličtině a pak ho přeložíme“.

Časování: rovnoměrný výstup, ne dávky

Pipeline je navržený tak, aby články vycházely průběžně, ne v ranní dávce. Feed Collector běží třikrát denně, enrichment každé dvě hodiny, topic generator dvakrát denně. Generování, zpracování médií a publikace běží každé dvě hodiny s 15minutovým odstupem – takže pipeline v praxi publikuje jeden článek přibližně každé dvě hodiny mezi osmou ráno a desátou večer.

Co pipeline zatím neumí

Budu upřímný – je to verze 1.0 a řada věcí chybí.

Deduplikace témat funguje jen na úrovni URL, ne sémanticky. Pipeline zatím neví, že „Samsung Galaxy S26 recenze“ a „Hands-on: Galaxy S26“ je v podstatě totéž téma. Na tohle plánuju vektorovou databázi, asi s přechodem na PostgreSQL.

Chybí napojení na Google Analytics a Search Console. Pipeline neví, jaká témata na webu historicky fungovala, a nemůže podle toho prioritizovat. Tohle je pravděpodobně největší prostor pro zlepšení.

Není feedback loop. Systém se neučí z výsledků. Neporovnává AI predikce s reálným výkonem článků. To přijde.

Práce s obrázky je rozpracovaná. Featured image z původních zdrojových článků se řeší v samostatném workflow, ale spolehlivost uploadu do WordPressu ještě ladím.

A konečně – multi-topic architektura. Aktuálně je pipeline nastavený na mobilní telefony. Cílem je řídící tabulka, kde definuji téma, přiřadím feedy, prompty a scoring váhy, a celý pipeline poběží nezávisle pro libovolný počet témat.

Co z toho plyne

Content pipeline ukazuje, že plně automatizovaná obsahová produkce v češtině je technicky realizovatelná. Kvalita článků není na úrovni expertního redaktora, ale je použitelná – a hlavně škálovatelná způsobem, který s lidským týmem není ekonomicky možný.

Zajímavější, než samotná automatizace je ale architektonický přístup: modulární workflow, deterministický scoring, AI jen tam kde dává smysl, a jasný datový tok s explicitními stavy. Tenhle vzor se dá aplikovat daleko za hranice obsahových webů.

Pokud vás zajímají technické detaily nebo chcete probrat konkrétní část, ozvěte se.

Automatizovaná content pipeline: od RSS feedu po publikaci bez zásahu člověka

Proč jsem to stavěl

Architektura: 5 workflows, žádná magie

Datový model: 4 tabulky, jasný tok

Lokalizace: ne překlad, ale kontext

Časování: rovnoměrný výstup, ne dávky

Co pipeline zatím neumí

Co z toho plyne

Comments

Napsat komentář Zrušit odpověď na komentář

Jak pro nás Claude Code pracoval v dubnu

Automatizovaná content pipeline: od RSS feedu po publikaci bez zásahu člověka

Nejhezčí web už nemusí vyhrát