Fork me on GitHub

Other articles


  1. Анализ тональности текста с помощью Weka

    Имеется заданный набор документов для которых уже заранее известна тональность: good, neutral, bad. Для нового документа необходимо определить какая у него тональность из трёх указанных. Идеального решения тут не существует ну хотябы потому, что понятие хороший/плохой/злой часто субъективно :) Но всё-же можно попробовать взять среднюю температуру по больнице задействовав …

    read more

    There are comments.

  2. Как соорудить удобный перевод текста всего за пару минут

    Стандартная ситуация: читаем какую-нибудь e-book на ненашем языке и видим незнакомое слово. Волшебный скрипт в помощь:

    • Считывает текущий выделенный в операционной системе фрагмент текста

    • Скармливает этот текст веб-сервису синтезатору речи, в ответ получает аудио файл и проигрывает. На слух как-то оно лучше запоминается :)

    • Параллельно скармливает текст веб-сервису переводчику, целевой язык …

    read more

    There are comments.

  3. Как перестать беспокоиться и начать портировать

    Пример портирования Java => JavaScript на примере токенизаторов из Lucene.

    lucene-tokenizers.es6 | lucene-tokenizers.babel.js | Тесты | Исходники

    TL;DR

    Процесс можно условно разделить на несколько этапов:

    • Зависимости от внешних библиотек дожны быть представленны в виде исходников, а незадействованный код по возможности удалён т.к. размер таки имеет значение и чем меньше …

    read more

    There are comments.

  4. Автоматический определь языка в Apache Tika

    Apache Tika - это кроссплатформенный набор инструментов, написанный на Java для предварительной обработки и анализа текстовой информации - выделения мета-данных, извлечения текста из разнообразных форматов файлов, автоматического определения языка текста и т.д. Умеет эта штука делать много всего интересного, но мы сконцентрируемся на процессе генерации N-gram-файлов для интересующих языков, не …

    read more

    There are comments.

links

social