ウェブサイトからtxtファイルに単語のリストを書き込む

私はテキストファイルに多くのアラビア語が含まれているようにしたいので、私はPythonでウェブサイトを開くと思います:urlopen関数を呼び出し、リストに単語を保存してテキストファイルに書き出します。 私はPythonで新しく、私は感謝するだろう助けてください

0
あなたが何を求めているのか分かりません。テキストファイルとウェブサイトの意味は何ですか?言葉のウェブサイトはありますか?
追加された 著者 wkl,
urllib re の仕事のように聞こえます。これまでに何を試しましたか? (コード)
追加された 著者 hochl,
あなたはアラビア語の単語のリストがほしいですか?アラビア語の辞書はどうですか?
追加された 著者 Chris Eberle,

2 答え

ウェブからファイルを保存するには:

import urllib2

u = urllib2.urlopen('http://www.your-url-here.com/filename.txt')
f = open('myfile.txt', 'w')
f.write(u.read())
f.close()
1
追加された

以下をせよ:

  1. テキストが含まれているウェブサイトからHTMLを抽出する
  2. htmlのタグと記号を消去する
  3. 単語を抽出します。
  4. ノイズを除外する

第2および第3ポイントについては、nltkを使用することができます。 これを実装する方法の例を次に示します。

import nltk
import urllib2
u = urllib2.urlopen('http://www.google.com')# replace Google with your arabic site of interest
UnwantedSymbols='|&;.,-!'#real words don't contain these symbols, add yours
html=u.read()
raw = nltk.clean_html(html)
tokens = nltk.word_tokenize(raw)
filename='arabicwords.txt'
f=open(filename,'w')
for token in tokens:
    write=True
    for symbol in UnwantedSymbols:
        if symbol in token:
            write=False
            break
    if write:
        f.write(token+'\n')# if no unwanted symbol was encountered, then write the word to the file
f.close()
0
追加された