Сегодня человек скинул в чатик источник датасетов со всякими географическими названиями. И у меня случился флэшбек – как аналитики на работе искали датасет из женских имён.
Я вспомнил, как для какого-то из пет-проектов копался в #RDF и встретил проект #Wikidata (https://wikidata.org/) – представьте себе Википедию, но для машин, где вся информация состоит из троек {субъект, предикат, объект} и даёт делать к ним запросы на языке #SPARQL.
Аналитикам я тогда достаточно быстро подогнал что они хотели. Запрос-то был простой: {X, является, женское имя} + {X, имя, [столбец в результате]}. Говорят, отлично сработало.
Но получить список городов и в каких они странах оказалось интереснее. Т. к. "все страны" в Wikidata это не только в настоящее время. Т. е. там и СССР есть, и Персидская Империя… я не проверял, но возможно там и страны из выдуманных миров есть!
Это как джинн из мира данных. Который ответит на твой вопрос, но узнаешь ты только то, что вопрос задал криво.
10/10, ещё вернусь.