개발/문서 요약
TF-IDF(Term Frequency - Inverse Document Frequency)
TF-IDF(Term Frequency - Inverse Document Frequency)는 단어의 빈도와 역 문서 빈도를 사용하여 단어의 가중치를 나타내는 방법입니다. 간단하게 보겠습니다. 문서는 문장으로 이루어져 있습니다. 그리고 문장은 단어(term)로 구성됩니다. TF-IDF는 문서의 어떤 단어가 중요한지를 수치로 알려줍니다. 반대로 보면 단어가 문서에 대한 정보를 얼마나 가지고 있는가?를 의미합니다. 따라서 TF-IDF를 사용하여 문서와 단어의 관계를 수치로 확인할 수 있습니다. TF(Term Frequency) \(t\) : term \(d\) : document tf\((t,d)\) : \(d\)에 \(t\)가 나온 횟수 TF는 문서에 나온 단어의 빈도를 사용합니다. 문서에 어떤 단어가 많..
텍스트랭크 알고리즘(TextRank Algorithm)
데이터 요약의 extraction 방법 중 하나인 텍스트랭크(TextRank) 알고리즘을 보도록 하겠습니다. 2004년 Rada Mihalcea와 Paul Tarau의 TextRank: Bringing Order into Texts 논문에서 텍스트 처리를 위한 그래프 기반 랭킹 모델(graph-based ranking model)인 TextRank를 소개했습니다. graph-based ranking 알고리즘은 각 정점의 정보만을 고려하지 않고 전체 그래프의 글로벌 정보를 재귀적으로 계산하여 정점의 중요도를 결정하는 방법입니다. 텍스트랭크 알고리즘은 키워드(keyword) 추출과 문장(sentence) 추출 방법을 제공합니다. 그래프 기반 모델이기에 그래프 관련 용어가 나옵니다. 간단하게 보고 넘어가겠습니..
페이지랭크 알고리즘 (PageRank algorithm)
구글 검색 엔진의 핵심인 페이지 랭크 알고리즘은 1998년 Sergey Brin 과 Lawrence Page의 논문 'The Anatomy of a Large-Scale Hypertextual Web Search Engine'에서 등장했습니다. 논문에서는 design goal을 소개하면서 94년도와 97년도의 웹 검색을 비교합니다. 94년에는 검색 인덱스로 빠르고 정확하게 찾을 수 있는 반면에 97년에는 검색 인덱스로 좋은 결과를 찾을 수 없다고 말합니다. 종종 '쓰레기 값'들이 사용자가 원하는 정보를 가린다고 불편함을 소개하고 있습니다. In 1994, some people believed that a complete search index would make it possible to find any..
pytube 설치
pytube 유튜브 동영상을 다운로드 하기 위한 파이썬 라이브러리입니다. pytube is a very serious, lightweight, dependency-free Python library (and command-line utility) for downloading YouTube Videos. 조금 더 자세한 설명은 더보기를 누르셔서 확인하실 수 있습니다. 더보기 YouTube is the most popular video-sharing platform in the world and as a hacker you may encounter a situation where you want to script something to download videos. For this I present to y..