Spaces:

JoshMe1
/

UAS_MCL_FAREL

Sleeping

App Files Files Community

UAS_MCL_FAREL / app.py

JoshMe1

Update app.py

46a15b1 over 2 years ago

raw

history blame contribute delete

3.93 kB

	import os
	import pandas as pd
	import streamlit as st
	from sklearn.linear_model import LinearRegression

	def predict_hotel_price(train_features_path, train_label_path, test_features_path):
	# Baca data dari file train_features.csv
	train_features = pd.read_csv(train_features_path)

	# Baca data dari file train_label.csv
	train_label = pd.read_csv(train_label_path)

	# Gabungkan kedua dataframe berdasarkan indeks
	df_merged = pd.concat([train_features, train_label], axis=1)

	# Tambahkan kolom 'id' di paling kiri dengan menggunakan range indeks
	df_merged.insert(0, 'ID', range(len(df_merged)))

	# Simpan dataframe ke dalam file CSV
	df_merged.to_csv('merged_data.csv', index=False)

	# Baca file merged_data.csv sebagai hasil prapemrosesan
	hasil_features = pd.read_csv('merged_data.csv')

	# Prapemrosesan data pada kolom rating dengan mengubah format string menjadi float
	hasil_features['rating'] = hasil_features['rating'].apply(lambda x: float(x.split()[0]) if isinstance(x, str) and len(x.split())>0 and x.split()[0].replace('.','').isdigit() else None)
	hasil_features['Price'] = hasil_features['Price'].apply(lambda x: float(x.replace(',', '').replace('avg/night', '')) if isinstance(x, str) else x)

	# Menghilangkan missing value pada kolom rating
	hasil_features.dropna(subset=['rating'], inplace=True)
	hasil_features = hasil_features.drop(['facilities', 'location'], axis=1)

	# Membuat model Linear Regression
	model = LinearRegression()

	# Melatih model dengan dataset train
	model.fit(hasil_features.drop(['ID', 'Price'], axis=1), hasil_features['Price'])

	# Membaca dataset test dan menghapus kolom facilities, location, dan ID
	test_features = pd.read_csv(test_features_path)
	test_features = test_features.drop(['facilities', 'location', 'ID'], axis=1)

	# Prapemrosesan data pada kolom rating dengan mengubah format string menjadi float
	test_features['rating'] = test_features['rating'].apply(lambda x: float(x.split()[0]) if isinstance(x, str) else x)

	# Melakukan prediksi terhadap dataset test
	predictions = model.predict(test_features)

	# Convert predictions to a pandas dataframe
	predictions_df = pd.DataFrame(predictions, columns=['Price'])

	# Add the 'ID' column using square bracket notation
	predictions_df.insert(loc=0, column='ID', value=range(len(predictions_df)))

	# mengubah nilai kolom Price menjadi bilangan bulat
	predictions_df['Price'] = predictions_df['Price'].astype(int)

	# Membuat file CSV dari dataframe predictions_df
	predictions_df.to_csv('predictions.csv', index=False)
	return predictions_df

	def main():
	st.title("Hotel Price Prediction With Linear Regression")
	st.write("Memprediksi Harga Hotel Berdasarkan Rating")

	# Membuat list nama file dari direktori yang berisi file input
	input_dir = 'dataset'
	input_files = os.listdir(input_dir)

	# Mengubah list nama file menjadi opsi dropdown
	train_features_path = st.selectbox("Train Features = 'Berisi Fitur-Fitur Dari Data Latih'", [os.path.join(input_dir, file) for file in input_files])
	train_label_path = st.selectbox("Train Label = 'Berisi Label Dari Data Latih'", [os.path.join(input_dir, file) for file in input_files])
	test_features_path = st.selectbox("Test Features = 'Berisi Fitur-Fitur Dari Data Uji'", [os.path.join(input_dir, file) for file in input_files])

	# Menjalankan fungsi predict_hotel_price dan menampilkan hasilnya
	if st.button("Prediksi Hasil Harga"):
	predictions_df = predict_hotel_price(train_features_path, train_label_path, test_features_path)
	st.write(predictions_df)
	st.download_button(
	label="Download Hasil Prediksi CSV",
	data=predictions_df.to_csv(index=False),
	file_name="predictions.csv",
	mime="text/csv"
	)

	if __name__ == '__main__':
	main()