
O Processamento de Linguagem Natural (PLN) é uma área da inteligência artificial que se concentra na interação entre computadores e seres humanos por meio da linguagem natural. O objetivo do PLN é permitir que os computadores compreendam, interpretem e gerem linguagem humana de forma eficaz.
A biblioteca NLTK para Python
O Natural Language Toolkit (NLTK) é uma biblioteca em Python que fornece ferramentas e recursos para a construção de programas de PLN. O NLTK é amplamente utilizado pela comunidade de pesquisa e indústria de PLN devido à sua facilidade de uso e à ampla gama de funcionalidades que oferece.
Exemplos de uso do NLTK
Tokenização
Uma das tarefas mais básicas no PLN é a tokenização, que envolve dividir um texto em unidades menores, como palavras ou frases. O NLTK oferece métodos para realizar essa tarefa de forma simples e eficiente.
import nltk from nltk.tokenize
import word_tokenize
texto = “O processamento de linguagem natural é uma área fascinante da inteligência artificial.”
tokens = word_tokenize(texto)
print(tokens)Output:
[‘O’, ‘processamento’, ‘de’, ‘linguagem’, ‘natural’, ‘é’, ‘uma’, ‘área’, ‘fascinante’, ‘da’, ‘inteligência’, ‘artificial’, ‘.’]
Remoção de Stopwords
Stopwords são palavras que são comumente usadas em um idioma, mas geralmente não adicionam muito significado ao texto. O NLTK fornece uma lista de stopwords para vários idiomas, que podem ser usadas para remover essas palavras de um texto.
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
texto = “O processamento de linguagem natural é uma área fascinante da inteligência artificial.”
tokens = word_tokenize(texto)
stopwords_portugues = set(stopwords.words(‘portuguese’))
tokens_sem_stopwords = [token for token in tokens if token.lower() not in stopwords_portugues] print(tokens_sem_stopwords)
Output:
[‘processamento’, ‘linguagem’, ‘natural’, ‘área’, ‘fascinante’, ‘inteligência’, ‘artificial’, ‘.’]
Stemming ou Lematização
O stemming é o processo de reduzir uma palavra ao seu radical ou raiz. Isso é útil para agrupar palavras relacionadas e reduzir a dimensionalidade do texto. O NLTK oferece algoritmos de stemming que podem ser aplicados a palavras em português.
import nltk
from nltk.stem import RSLPStemmer
from nltk.tokenize import word_tokenize
stemmer = RSLPStemmer()
texto = “O processamento de linguagem natural é uma área fascinante da inteligência artificial.”
tokens = word_tokenize(texto)
tokens_stemmizados = [stemmer.stem(token) for token in tokens]
print(tokens_stemmizados)
Output:
[‘o’, ‘process’, ‘de’, ‘lingu’, ‘natur’, ‘é’, ‘uma’, ‘área’, ‘fascinant’, ‘da’, ‘intelig’, ‘artifici’, ‘.’]
O Processamento de Linguagem Natural (PLN) é uma área importante da inteligência artificial que permite que os computadores compreendam e gerem linguagem humana.
A biblioteca NLTK para Python é uma ferramenta poderosa para realizar tarefas de PLN, como tokenização, remoção de stopwords e stemming. Com o NLTK, é possível desenvolver aplicações de PLN de forma eficiente e eficaz.