Nový projekt zpřístupňuje data Wikipedie umělé inteligenci

1. 10. 2025 · AI tým AI4NGO

Wikimedia Deutschland spustila projekt, který umožní AI modelům lépe využívat obrovské množství znalostí uložených ve Wikipedii. Díky moderním technikám semantického vyhledávání se data stanou přístupnější a použitelné pro přesnější odpovědi a hlubší porozumění.


Wikipedie je jedním z nejbohatších zdrojů informací na internetu, avšak zatím nebyla plně využita ve světě umělé inteligence. Nový projekt s názvem Wikidata Embedding Project, který spustila Wikimedia Deutschland ve spolupráci se společnostmi Jina.AI a DataStax, přináší zásadní změnu. Cílem je zpřístupnit data z Wikipedie AI modelům pomocí vektorového semantického vyhledávání, které umožňuje lépe chápat význam slov a jejich vztahů.

Dosud bylo možné data z Wikidaty využívat převážně přes klíčová slova nebo složitý dotazovací jazyk SPARQL, což vyžadovalo technickou expertizu. Nový systém ale umožní AI modelům efektivně využívat externí relevantní informace v reálném čase, například v rámci tzv. retrieval-augmented generation (RAG). Díky tomu mohou vývojáři vytvářet modely, které jsou více „ukotvené“ v ověřených znalostech, což výrazně zlepšuje kvalitu a spolehlivost generovaných odpovědí.

Jak funguje Wikidata Embedding Project a proč je důležitý

Projekt používá vektorové reprezentace, které překládají slovní informace do matematických prostorů, kde lze jednodušeji vyhledávat související pojmy a vztahy. Například hledání termínu „vědec“ vrátí nejen seznam významných osobností z různých oborů, ale také související informace, překlady do dalších jazyků či relevantní obrázky s otevřenou licencí. Takový přístup pomáhá AI systémům chápat kontext a význam dotazů mnohem lépe než klasické hledání podle klíčových slov.

„Tento projekt dokazuje, že výkonná AI nemusí být kontrolována jen několika velkými hráči na trhu,“ uvedl Philippe Saadé, manažer projektu Wikidata AI. „Může být otevřená, spolupracující a sloužit všem.“ To je důležité zejména v době, kdy se vývojáři snaží najít kvalitní a ověřená data pro trénink svých modelů. Wikipedie nabízí faktograficky přesná data, která jsou ověřována komunitou editorů, což ji odlišuje od obecných datových sad jako Common Crawl, která obsahuje veškerý obsah z webu bez přísné kontroly kvality.

Využití dat z Wikipedie v AI a dopady na trh

Využití kvalitních dat je klíčové pro úspěch AI systémů zejména tam, kde je potřeba vysoká přesnost a důvěryhodnost informací. Například v neziskových organizacích, vzdělávání nebo zdravotnictví. Razantní růst AI a její využití v různých oblastech přináší i výzvy, jako jsou právní spory ohledně použití tréninkových dat. V srpnu 2025 například firma Anthropic nabídla vyrovnání ve výši 1,5 miliardy dolarů autorům, jejichž díla byla použita při tréninku AI bez jejich souhlasu.

Projekt Wikimedia tak představuje vstřícný přístup k otevřeným a ověřeným datům, který může posloužit jako alternativa k uzavřeným a kontroverzním datasetům. Jeho veřejná dostupnost na platformě Toolforge a plánovaný webinář pro vývojáře 9. října otevírají dveře široké komunitě, která může tyto data využít pro vlastní projekty, včetně těch v neziskovém sektoru, kde přesná data znamenají lepší rozhodování a efektivnější pomoc.

Pro neziskové organizace to znamená možnost využívat moderní AI nástroje s důvěrou, že jejich základy stojí na relevantních a správných informacích. To může výrazně zvýšit kvalitu poradenství, analýz či komunikace s veřejností. Více o tom, jak AI mění neziskový sektor, najdete v našem článku Jak umělá inteligence mění neziskový sektor.

Závěrem lze říci, že Wikidata Embedding Project představuje důležitý krok k demokratizaci přístupu k datům a zvyšování kvality AI systémů napříč obory. Otevřenost a transparentnost, kterou Wikimedia prosazuje, jsou v době soutěže velkých technologických společností osvěžujícím příkladem, jak může být umělá inteligence nástrojem pro všechny, nejen pro vybrané. Vývojáři i uživatelé AI tak mohou očekávat jednodušší a spolehlivější přístup ke znalostem, které světová komunita pečlivě buduje už více než dvě desetiletí.

Komentáře

Přihlaste se pro komentování

Nový projekt zpřístupňuje data Wikipedie umělé inteligenci