Рубрики
Блог

Уникальный каталог миллиардов фраз из 107 миллионов научных статей

 
Произошло чудо! Огромный бесплатный указатель мировых научных статей, опубликован в Интернете.
 Каталог, выпущен 7 октября 2021 года для бесплатного использования, и содержит информацию из более чем 355 миллиардов слов и фрагментов предложений, представленных рядом со статьями, в которых они появляются.
Это попытка помочь ученым использовать программное обеспечение для извлечения информации из опубликованных работ, даже если у них нет законного доступа к основным документам.
Создатель — Карл Маламуд. Он выпустил файлы под эгидой Public Resource, некоммерческой корпорации в Севастополе, Калифорния, которой сам и владеет.
 В сжатом формате каталог составляет почти 5 терабайт, а затем расширяется до 38 терабайт. Помимо фрагментов предложений, файлы также включают таблицы почти с 20 миллиардами ключевых слов в литературе и таблицы с названием статьи, авторами и DOI (идентификатором статьи).
Таким образом, пользователи могут найти всю статью.
Для сравнения: Web of Science содержит всего 42 миллиона статей.
 Общий указатель https://archive.org/details/GeneralIndex
 Поиск https://archive.org/search.php?query=%22general+index%22+AND+collection%3Amulticasting&sort=titleSorter
 На картинке — как выглядят результаты поиска по слову «инфраструктура».